InnoLab Logo

АlphaFold: Хөгжүүлэгчид наашаа. Хэрэг болж юуны магад.

Cover Image for АlphaFold: Хөгжүүлэгчид наашаа. Хэрэг болж юуны магад.
Bugslayer
Bugslayer

Миний хувьд AlphaFold-ийг маш өнгөн талаас нь мэдэх хэдий ч энэхүү нийтлэлийг бичсэн шалтгаан нь бид AlphaFold-ийг өөрсдөө туршиж үзэх боломжтойг харуулах, магадгүй танд шинэ санаа эндээс төрөх, цаашид өөрийгөө хөгжүүлэх чиглэл олох хэн байг гэхэв.

Өмнөх нийтлэлүүдэд AlpahFold ийн талаар эхний нийтлэлийг , мөн Демис Хассабис гэх суут хүний талаар, түүний ярилцлагыг оруулсан.

AlphaFold: Биологийн "Source Code"-ийг тайлах нь

Програм хөгжүүлэгч бидний хувьд асуудлыг шийдэх нь алгоритм, өгөгдлийн бүтэц, оновчлолын асуудал байдаг. Тэгвэл биологи, тэр дундаа Уургийн нугаларалт (Protein Folding) нь байгаль эхийн хамгийн хүнд, NP-hard (Non-deterministic Polynomial-time hard) төрлийн тооцооллын асуудал байв.

DeepMind үүнийг AI-ийн хүчээр шийдсэн нь зөвхөн биологийн ололт биш, харин Geometric Deep Learning болон Attention mechanism-ийн гайхамшигт ялалт юм.


1. Хувьслын замнал: AlphaFold v1-ээс v3 хүртэл

AlphaFold нь ганц шөнийн дотор бүтээгүй. Энэ нь архитектурын эрс шинэчлэлтүүдийг дамжин хөгжсөн.

AlphaFold 1 (2018): Эхлэл

  • Архитектур: Голчлон CNN (Convolutional Neural Networks) дээр суурилсан.

  • Арга барил: Уургийн амин хүчлүүдийн хоорондын зайг магадлалын тархалтаар таамаглаж (Distance map), түүнийгээ физик энергийн функцтэй хослуулан оновчлол хийдэг байв.

  • Үр дүн: CASP13 тэмцээнд түрүүлсэн ч нарийвчлал нь лабораторийн түвшинд хараахан хүрээгүй байсан. Зургийн пиксел шиг "бүрэлзсэн" үр дүнтэй байв.

AlphaFold 2 (2020): "The Transformer" хувьсгал

  • Архитектур: Эндээс CNN-ийг халж, Attention Mechanism болон Transformers-т шилжсэн.

  • Онцлог - Evoformer: Энэ нь биологийн хувьслын мэдээлэл (MSA - Multiple Sequence Alignment) болон орон зайн мэдээллийг (Pair representation) зэрэг боловсруулж, мэдээлэл солилцдог шинэ блок юм.

  • End-to-End: Оролтоос гаралт хүртэл шууд 3D координатыг таамагладаг болсон.

  • Үр дүн: 50 жилийн турш шийдэгдээгүй асуудлыг шийдэж, атомын түвшний нарийвчлалтай болсон.

AlphaFold 3 (2024): Diffusion Model ба Бүх нийтийн загвар

  • Шинэчлэл: Зөвхөн уураг биш, DNA, RNA, жижиг молекулууд (Ligands), эмийн бодисуудтай хэрхэн холбогдохыг таамагладаг.

  • Архитектур: "Evoformer"-ийг сайжруулсан "Pairformer" ашиглахаас гадна, бүтцийг үүсгэхдээ Diffusion Model (Midjourney, Stable Diffusion зураг зурдагтай ижил зарчим)-ийг ашигладаг болсон. Энэ нь "атомын үүл"-ээс тодорхой бүтцийг ялган авдаг гэсэн үг.


2. Инженерийн шийдэл: AI Архитектурыг задлах нь

Хөгжүүлэгчийн нүдээр AlphaFold (ялангуяа v2) систем хэрхэн ажилладгийг харцгаая.

A. Оролтын өгөгдөл боловсруулалт (Preprocessing)

Системд зөвхөн амин хүчлийн дарааллыг өгдөг (String).

  1. MSA (Multiple Sequence Alignment): Таны өгсөн дарааллыг аваад аварга том геномын өгөгдлийн сангаас (Big Data) ижил төстэй хувилбаруудыг хайдаг. Логик нь: Хэрэв хоёр амин хүчил хувьслын явцад дандаа хамт өөрчлөгдөж байвал тэдгээр нь орон зайд бие биетэйгээ ойрхон байна гэсэн үг.

B. The Evoformer (Гол хөдөлгүүр)

Энэ бол 48 давхарга бүхий Transformer сүлжээ юм. Гэхдээ энгийн NLP (Natural Language Processing) Transformer-оос ялгаатай.

  • Row-wise & Column-wise Attention: Матриц дээр хэвтээ болон босоо чиглэлд анхаарал хандуулж, глобал хамаарлыг олдог.

  • Triangle Attention: 3D орон зайд гурван цэг гурвалжин үүсгэх ёстой (Евклидийн геометрийн дүрэм) гэсэн хатуу нөхцөлийг сүлжээнд суулгаж өгсөн. Энэ нь "Inductive Bias" юм.

C. Structure Module

Evoformer-оос гарсан хийсвэр тоон мэдээллийг бодит XYZ координат руу хөрвүүлдэг хэсэг.

  • IPA (Invariant Point Attention): Молекул орон зайд эргэсэн ч бүтэц нь өөрчлөгдөхгүй байх (Rotational Invariance) нөхцөлийг хангадаг тусгай Attention механизм.

D. Recycling (Дахин боловсруулалт)

Нэг удаагийн гүйлтээр (Pass) гарсан үр дүнгээ буцаагаад оролт болгон өгдөг. Энэ нь RNN (Recurrent Neural Network) шиг ажиллаж, таамаглалаа алхам алхмаар сайжруулдаг (Refinement).


3. AlphaZero vs AlphaFold

Энэхүү этгээд харьцуулалтыг хийсэн минь AlphaFold-ийн талаарх ойлголт маань илүү сонирхолтой байдлаар баяжлаа.

1. Үндсэн парадигм: RL vs Supervised Learning

Энэ бол хамгийн том ялгаа нь.

  • AlphaZero (Reinforcement Learning - RL):

    • Зарчим: "Туршилт ба Алдаа" (Trial and Error).

    • Өгөгдөл: Өгөгдөл байхгүй. Өөрөө өөртэйгөө сая сая удаа тоглож, тэгээс эхэлж сурдаг.

    • Зорилго: Decision Making буюу шийдвэр гаргах. "Дараагийн нүүдэл юу байвал хожих магадлал хамгийн өндөр вэ?" гэдгийг хайдаг.

    • Algorithm: Policy Gradient + Value Function.

  • AlphaFold (Supervised Learning + Geometric DL):

    • Зарчим: "Загвар таних ба Геометр" (Pattern Recognition).

    • Өгөгдөл: PDB (Protein Data Bank) дээрх хүмүүсийн нээсэн 170,000 орчим уургийн бодит бүтэц дээр сургагдсан.

    • Зорилго: Structure Prediction буюу бүтэц таамаглах. "Энэ дараалал орон зайд ямар координаттай байх вэ?" гэдгийг тооцоолдог.

    • Algorithm: Gradient Descent (Loss minimization).

2. Архитектур: CNN vs Transformers

Тэдний тархины бүтэц (Neural Network Architecture) нь өөр өөр түүхэн хөгжлийн үе шатанд хамаарна.

  • AlphaZero (ResNet - ConvNets):

    • Шатрын хөлгийг зургийн пиксел (grid) шиг хардаг.

    • Convolutional Neural Network (CNN) ашигладаг. Энэ нь зургийн анализ хийхэд зориулагдсан бүтэц.

    • Голчлон ResNet (Residual Network) блокуудыг давхарлаж ашигладаг.

  • AlphaFold 2/3 (Evoformer - Transformers):

    • Уургийг зураг биш, харин Граф (Graph) эсвэл 3D цэгүүдийн үүл гэж хардаг.

    • Attention Mechanism (Transformer) дээр суурилдаг. Энэ нь NLP (ChatGPT)-тэй илүү төстэй боловч, геометрийн дүрмүүдийг (гурвалжингийн дүрэм, эргэлт г.м) сүлжээндээ "хатуу" кодчилж өгсөн байдаг.

    • Geometric Deep Learning буюу Евклидийн геометрийн хуулиудад захирагддаг архитектуртай.

3. Хайлтын арга: MCTS vs End-to-End Inference

Тооцоолол хийж буй арга барил нь бас өөр.

  • AlphaZero (MCTS - Хайлт):

    • AlphaZero нь зүгээр нэг хариулт гаргадаггүй, ирээдүйг "төсөөлдөг".

    • Monte Carlo Tree Search (MCTS) алгоритмыг ашиглан боломжит нүүдлүүдийн модыг урагш нь харж, симуляци хийдэг. Энэ бол динамик хайлт юм.

  • AlphaFold (Inference - Таамаглал):

    • AlphaFold-д "модны хайлт" байхгүй.

    • Оролтыг (амин хүчил) аваад шууд гаралтыг (3D бүтэц) гаргадаг.

    • Хэдийгээр дотроо "Recycling" буюу үр дүнгээ сайжруулах давталт хийдэг ч, энэ нь AlphaZero шиг ирээдүйн төлөвийг хайж буй хэрэг биш, харин зураглалаа тодруулж буй үйл явц юм.


4. Хэрхэн ашиглах вэ? (Hands-on for Devs)

Та заавал супер компьютертай байх албагүй. AlphaFold-ийг туршиж үзэх хэд хэдэн арга бий.

Арга 1: ColabFold (Хамгийн хурдан бөгөөд хялбар)

ColabFold нь Google Colab-ийн үнэгүй GPU-г ашиглан AlphaFold 2-ийг ажиллуулах боломжийг олгодог.

  • Хэрхэн:

    1. GitHub дээрх ColabFoldруу орно.

    2. Notebook-ийг нээнэ.

    3. query_sequence хэсэгт өөрийн хүссэн амин хүчлийн дарааллыг оруулна.

    4. "Run" товчийг дарна.

    5. Хэдхэн минутын дараа та 3D PDB файлыг татаж авах болно.

Арга 2: AlphaFold Server (AlphaFold 3)

AlphaFold 3-ийн код нь бүрэн нээлттэй эх биш. Гэхдээ DeepMind AlphaFold Serverсайтыг нээсэн.

  • Энд бүртгүүлээд (Google account) шууд вэб UI ашиглан тооцоолол хийлгэх боломжтой. Энэ нь ялангуяа уураг-ДНХ, уураг-эмийн харилцан үйлчлэлийг туршихад тохиромжтой.

Арга 3: Local Setup (Hardcore Devs only)

Хэрэв та өөрийн сервер дээр (Linux) суулгахыг хүсвэл:

  • Шаардлага: Docker, NVIDIA GPU (A100 эсвэл V100 санал болгоно), 3TB+ хадгалах зай (Генетикийн өгөгдлийн санг татахад).

  • Command:

    Bashgit clone https://github.com/google-deepmind/alphafold.git cd alphafold # Docker build болон run скриптүүдийг ажиллуулна

  • Энэ нь бүрэн автоматжсан pipeline хэлбэрээр ажилладаг.

Арга 4: OpenFold (PyTorch хувилбар)

DeepMind-ийн код JAX дээр бичигдсэн байдаг. Харин олон нийтийн хөгжүүлэгчид үүнийг PyTorch руу хөрвүүлж, сургалтын кодыг нь нээлттэй болгосон OpenFold төслийг эхлүүлсэн. AI моделийг өөрчилж, fine-tuning хийхийг хүсвэл үүнийг сонирхоорой.


5. Дүгнэлт

Хөгжүүлэгчийн хувьд AlphaFold-ийг судлах нь зөвхөн биологийн тухай биш юм. Энэ нь:

  1. Attention механизмыг хэл ярианаас өөр салбарт (Geometry) хэрхэн бүтээлчээр ашиглаж болохыг харуулсан жишээ.

  2. Physical Inductive Bias буюу физикийн хуулийг (эргэлт, координат) машин сургалтын загварт хэрхэн кодчилж оруулах тухай хичээл юм.

  3. Шинжлэх ухааны нээлтийг хурдасгах AI for Science чиглэлийн хамгийн том кейс стади юм

Та бүхнийг бүр илүү мэдээлэл бусад эх сурвалжаас авна гэдэгт итгэлтэй байна. Та дараах холбоотой нийтлэлийг сонирхоно уу.


Бусад бичвэрүүд

Cover Image for Antigravity-тай Vibe Coding хийсэн нь: Arkanoid тоглоом ба Хиймэл Оюун Ухаан

Antigravity-тай Vibe Coding хийсэн нь: Arkanoid тоглоом ба Хиймэл Оюун Ухаан

Энэ төслийн хамгийн сонирхолтой хэсэг нь AI агентыг хэрхэн сургах тухай байв. Reinforcement Learning буюу Урамшууллаар Суралцах арга нь товчхондоо "Алдаа оноон дээрээ суралцах" (Trial and Error) зарчим юм. Бидн

Bugslayer
Bugslayer
Cover Image for Google DeepMind-ийн Гүйцэтгэх захирал, Нобелийн шагналт Демис Хассабис.

Google DeepMind-ийн Гүйцэтгэх захирал, Нобелийн шагналт Демис Хассабис.

Тэр багтайгаа нийлж "AlphaGo"-г бүтээж дэлхийн аваргыг хожсоныхоо дараа: "За одоо тоглоом тоглох нь хангалттай. Одоо шинжлэх ухааны хамгийн хэцүү асуудлыг барьж авцгаая" гэж хэлсэн нь AlphaFold төсөл эхлэх команд байв.

Bugslayer
Bugslayer