Arkitektura sakonean: konpiladore zientifikoaren kontzeptua
Zientziarako IA plataforma gehienek hizkuntza-ereduak erabiltzen dituzte eduki zientifikoa sortzeko. Hordagok ikuspegi desberdina hartzen du: lan-fluxu zientifikoak konpilazio-kanalizazio gisa tratatzen ditugu, non IAk kodean eta konfigurazioan laguntzen duen baina ez duen inoiz nukleo deterministikoa ukitzen.
Konpiladorearen metafora
Konpiladore tradizional batek iturburu-kodea hartu eta makina-kodea sortzen du. Prozesua deterministikoa da: sarrera berak beti ematen du irteera bera. Tarteko adierazpenak aztertu, edozein irteera bere iturrira arte arakatu eta urrats bakoitzean zuzentasuna egiaztatu dezakezu.
Hordagok eredu hau lan-fluxu zientifikoetan aplikatzen du:
| Konpiladorearen kontzeptua | Hordagoren baliokidea |
|---|---|
| Iturburu-kodea | Datu esperimentalak + analisi-espezifikazioa |
| Lexer / Parser | Datuen ingesta + balidazioa |
| Tarteko adierazpena | Artefaktu zientifiko tipatuak |
| Kode-sorkuntza | Txostenaren konpilazioa |
| Arazketa-sinboloak | Jatorri-manifestuak |
Funtsezko ideia: LLMa programatzailea da, ez konpiladorea. IAk analisi-espezifikazioa idazten eta kanalizazioa konfiguratzen laguntzen dizu. Baina espezifikazioa definitu ondoren, exekuzioa deterministikoa da.
Laborategian lan egiten baduzu, pentsa ezazu beti modu berean exekutatzen den protokolo bat bezala: zure datuak sartu eta irudi balidatuak ateratzen dira. “Konpiladorea” fidagarritasun horren bertsio automatizatua besterik ez da.
Hiru geruzako arkitektura
Hordagok ardurak hiru geruzatan bereizten ditu:
1. geruza: Domeinu Sistema Eragileak (DomainOS)
Domeinu zientifiko zehatzetara egokitutako produktu-azal arinak. CRISPRos gene-edizioetarako, GWASos populazio-genetikarako. DomainOS bakoitzak domeinuari lotutako interfaze, terminologia eta lan-fluxuak eskaintzen ditu, baina konputazioa motor partekatuei eskuordetzen die.
DomainOS produktuak nahita dira arinak. Lan-fluxu batek zer egiten duen definitzen dute domeinuaren terminoetan. Ez dute inplementatzen konputazioa nola exekutatzen den.
2. geruza: Motor zientifiko partekatuak
DomainOS produktu anitz elikatzen dituzten konputazio-motor berrerabilgarriak:
- Figure Engine: argitalpen-kalitateko irudiak sortzen ditu datu-artefaktuetatik. Motor berak sortzen ditu CRISPRos eta GWASos-eko irudiak.
- Statistics Engine: proba estatistikoak exekutatzen ditu eta emaitza tipatuak sortzen ditu. Proba anitzen zuzenketa, efektu-tamainaren kalkulua eta potentzia-analisia onartzen ditu.
- Provenance Engine: sarrera, eraldaketa eta irteera oro erregistratzen du. Auditoretza-arrastoak eta jatorri-manifestuak sortzen ditu.
- biocontext7: bioinformatika-tresnetarako erreferentziak ebazten ditu. IA laguntzaileek benetako tresnak API zuzenekin erabiltzea bermatzen du.
Motor bat hobetzen dugunean, DomainOS produktu guztiek irabazten dute. DomainOS berri bat gehitzen dugunean, lehen egunetik motor heldu eta probatuekin abiatzen da.
3. geruza: Exekuzio-azpiegitura
Plataforma-geruzak hedapena, eskalatzea eta orkestrazioa kudeatzen ditu. Lan-fluxu zientifikoak azpiegitura erreproduzigarrian exekutatzen dira: mendekotasun finkatuak eta build deterministikoak dituzten ingurune edukiontziratuak.
Zergatik ez erabili LLM bat besterik ez?
Hizkuntza-ereduak bikainak dira testu sinesgarria sortzen. Hori da, hain zuzen, arazoa. Zientzian, sinesgarria eta zuzena ez dira gauza bera.
Pentsa ezazu GWAS azterlan baten Manhattan grafikoan. LLM batek deskriba dezake nolakoa izan beharko litzatekeen grafikoa. Baina benetako grafikoa sortzeak honako hau eskatzen du:
- Laburpen-estatistiken fitxategia irakurtzea (formatu eta zutabe zehatzekin)
- Aldaera bakoitzerako -log10(p-balioak) kalkulatzea
- Aldaerak kromosometako posizioetara mapatzea
- Genoma osoko esangurazko atalaseak aplikatzea
- Irudia ardatz eta etiketa zuzenekin errendatzea
Urrats bakoitza konputazio deterministiko bat da. LLMak zenbaki horietako edozein sortzen badu, ezin duzu irudia fidatu. Konpiladoreak zure datuetatik sortzen baditu, grafikoko puntu bakoitza zure sarrerako errenkada bateraino arakatu dezakezu.
Jatorria lehen mailako kontzeptu gisa
Hordagok sortutako artefaktu orok jatorri-manifestu bat dauka: makinek irakur dezaketen erregistro bat, ondorengoa biltzen duena:
- Sarrerak: zein datu erabili diren, nondik datozen eta noiz eskuratu diren
- Eraldaketak: zein motorrek prozesatu duen, zein bertsiorekin eta zein parametrorekin
- Irteerak: zer sortu den, egiaztapen-laburpenak eta denbora-zigiluak
Hau ez da logging. Hau da erreproduzigarritasuna ahalbidetzen duen auditoretza-arrastoa. Berrikusle batek “nola kalkulatu duzu p-balio hau?” galdetzean, erantzuna manifestuan dago, ez ikertzailearen oroimenean.
Irekian eraikitzen
Hordagoren motor zientifikoak kode irekikoak dira. Konpilazio-kanalizazioa, jatorri-sistema eta tresnen erregistroa (biocontext7) guztiak daude eskuragarri GitHub-en.
Uste dugu azpiegitura zientifikoak gardena eta auditagarria izan behar duela. Zure emaitzak sortu dituen kanalizazioa aztertu ezin baduzu, ezin duzu emaitzak fidatu.
- GitHub: Hordago-Labs
- biocontext7: biocontext7.com
- Ikuspegiak: Zientzian IArako estandarrak
Hordago Labs-ek ebidentzian oinarritutako IA tresnak eraikitzen ditu bizitza-zientzietarako. Baieztapen oro arakagarria. Irudi oro erreproduzigarria.