Antigravity-тай Vibe Coding хийсэн нь: Arkanoid тоглоом ба Хиймэл Оюун Ухаан

Саяхан би Google DeepMind-ийн хөгжүүлсэн Antigravity (Gemini 3 Pro модель дээр суурилсан) агентыг ашиглан "vibe coding" хийж үзэхээр шийдсэн юм. Зорилго маань зүгээр нэг тоглоом хийх биш, харин тэр тоглоомыг өөрөө сурч тоглодог Reinforcement Learning (RL) буюу Урамшууллаар Суралцах агентыг бүтээх байв. Техникийн нарийн ширийн зүйлсэд санаа зоволгүй, зөвхөн *юу* хийхээ хэлээд, *яаж* хийхийг нь хиймэл оюун ухаанд даатгавал ямар үр дүн гарахыг сонирхсон хэрэг. Хоосон хавтаснаас эхлээд бүрэн ажиллагаатай, GPU дээр ажилладаг, өөрийгөө сургадаг AI агент хүртэлх аялал маань хэрхэн өрнөснийг энд хуваалцъя.
Эх код: https://github.com/innolab-mn/arcanoid_ai_rl
Эхлэл: "Надад Arkanoid тоглоом болон түүнийг тоглодог AI хэрэгтэй"
Миний анхны хүсэлт зүгээр нэг "Arkanoid хийгээд өг" гэсэн үг биш байлаа. Би Antigravity-д хандан: *"Би Arkanoid тоглоомыг Python дээр хиймээр байна. Гэхдээ зүгээр нэг тоглох биш, энэ тоглоомыг тоглож сурдаг Reinforcement Learning агент сургамаар байна. Тоглоомын код, сургах орчин, сургалтын код гээд бүгдийг нь цогцоор нь шийдэж өгөөрэй"* гэсэн утгатай дэлгэрэнгүй даалгавар өгсөн юм. Antigravity тэр даруй ажлаа эхлүүлж:1. Pygame ашиглан тоглоомын үндсэн логик (цохиур, бөмбөг, тоосго, мөргөлдөөн)-ийг бичсэн.2. Тоглоомыг AI сургахад бэлэн болгож Gymnasium орчин руу хөрвүүлсэн.
Antigravity гэж юу вэ?
Энд нэг зүйлийг тодруулахад, Antigravity бол зүгээр нэг чатбот биш юм. Энэ бол Google DeepMind-ийн багийн хөгжүүлж буй, код бичих, файл үүсгэх, терминал дээр комманд ажиллуулах, алдаагаа өөрөө засах чадвартай агент юм. Тэрээр миний компьютерын орчинд яг л надтай зэрэгцэн сууж буй програмист шиг ажиллаж, нарийн төвөгтэй даалгавруудыг бие даан гүйцэтгэж байлаа.
Reinforcement Learning - Хүчитгэсэн сургалт - Алдаа ба Оноо
Энэ төслийн хамгийн сонирхолтой хэсэг нь AI агентыг хэрхэн сургах тухай байв. Reinforcement Learning буюу Урамшууллаар Суралцах арга нь товчхондоо "Алдаа оноон дээрээ суралцах" (Trial and Error) зарчим юм. Бидний бүтээсэн Arkanoid агентын хувьд сургалт дараах байдлаар явагддаг. Агент санамсаргүй үйлдлүүд хийж эхлэх бөгөөд үйлдэл бүртээ орчноос "шагнал" (reward) эсвэл "шийтгэл" авна:
Эхэндээ агент бөмбөгөө байнга алдаж байсан ч, сая сая удаагийн давталтын дараа *"Бөмбөг ирж байхад цохиураа тосгож тавибал оноо авдаг юм байна, харин хөдлөхгүй зогсвол шийтгүүлдэг юм байна"* гэдгийг ойлгож эхэлдэг. Энэ бол RL-ийн мөн чанар юм.
Хурд хүч: "Илүү хурдан болгоё"
CPU дээр сургалт удаан байсан тул би Antigravity-аас хурд нэмэхийг хүссэн. Тэрээр: CUDA дэмжлэг: PyTorch-ийг миний GPU дээр ажиллуулахаар тохируулсан. Зэрэгцээ орчин (Parallel Environments): `SubprocVecEnv` ашиглан тоглоомыг нэгэн зэрэг 16 хувилбараар ажиллуулж, сургалтын дата цуглуулах хурдыг эрс нэмэгдүүлсэн.
Дүгнэлт
Энэ бол vibe coding-ийн хүч юм. Би зөвхөн "юу хүсэж байгаагаа", "ямар мэдрэмжтэй байхыг" (хурдан байх, өөрөө зааж өгөх) хэлсэн, харин Antigravity нарийн төвөгтэй кодчлол, математик тооцоолол, системийн тохиргоог бүгдийг нь хийсэн.
Агентаа Gemini 3 pro дээр тохируулсан бөгөөд агент анхнаасаа бүтцийг хангалттай цэгцтэй гаргаж өгснөөр надад ердөө reward өгөх аргачлал, Neural Network-ийн параметрүүдийг өөрчилж сургалтаа явуулах л хангалттай байв.

