Skip to main content
All articles
evidence-first reproducibility scientific-ai hallucination

Ebidentzian Oinarrituta vs Egiletza Agentikoa

Hurbilketa bakoitzak ikerketa zientifikorako zer esan nahi duen, egiletza agentikoak egiaren mugetan zergatik huts egiten duen, eta ebidentzian blokeatutako lan-fluxuek haluzinazioa nola saihesten duten.

Jeff Jaureguy ·

AIak lagundutako zientziaren bi arkitekturak

Ikerketa zientifikorako AI tresna orok funtsezko erabaki arkitektoniko bat hartzen du, haren eraikitzaileek aitortu ala ez. Erabaki horrek zehazten du tresnak zorroztasun zientifikoa handitzen duen edo isilean ahultzen duen.

Alde batean egiletza agentikoa dago: AIak testua sortzen du, ondorioak ateratzen ditu eta bere entrenamendu-datuetatik narratiba sintetizatzen ditu. Ikertzaileak emaitza berrikusten du eta zuzena dirudien erabakitzen du. Beste aldean ebidentzian oinarritutako konpilazioa dago: AIak kode-sorkuntzan, datu-eraldaketan eta irudi-azalpenak idazten laguntzen du, baina azken emaitzako edozein baieztapenek artefaktu konkretu bat erreferentziatu behar du — irudi-panel bat, test estatistiko bat, DOIdun aipu bat.

Aldea ez dago gaitasunean. Egia nondik datorren horretan dago.

Bereizketa hau modeloaren tamaina, prompt-ingeniaritza-teknikak edo beste edozein gogoeta tekniko baino garrantzitsuagoa da. Zure ikerketako akatsak ikusgarriak ala sotilak diren zehazten du — eta zientzian, akats sotilak dira arriskutsuenak.

Zer egiten du benetan egiletza agentikoak

Egiletza agentikoak hizkuntza-modeloa egilekide gisa tratatzen du. Datu-multzo bat eta asmo bat ematen diozu — “idatzi RNA-seq esperimentu honetako emaitzen atala” — eta modeloak prosa zientifiko dotorea sortzen du. Testua ondo irakurtzen da. Aipuak sinesgarriak dirudite. Hizkuntza estatistikoak konbentzioak jarraitzen ditu.

Arazoa da hizkuntza-modeloak testu sinesgarria sortzeko entrenatzen direla, ez testu egiazkoa sortzeko. Modelo batek “gure analisiak TP53-ren gorako erregulazio estatistikoki esanguratsua agerian jarri zuen (p < 0,01)” idazten duenean, zuzena izan daiteke — edo p-balioa, genearen izena edo erregulazioaren norabidea asmatu izan ditzake. Prosak autoritate-itxura du edozein kasutan.

Irteera agentikoaren huts-moduak

Huts-moduaDeskribapenaDetekzio-zailtasuna
Estatistika asmatuakEgiazko datuekin bat ez datozen p-balioak, konparazio-aldaketak edo lagin-tamainakAltua — iturri-datuekin eskuzko gurutze-erreferentzia eskatzen du
Aipu mamuakEgiazkoak diruditen baina existitzen ez diren erreferentziak, edo existitzen direnak baina baieztapena babesten ez dutenakAltua — DOI bakoitza banan-banan egiaztatu behar da
Norabide-akatsakDatuek beherako erregulazioa erakusten dutenean gorakoa aldarrikatzea, edo alderantzizErtaina — prosa irudiekin alderatzea eskatzen du
Metodo desegokiakDatuetan benetan aplikatu ez den test estatistikoa deskribatzeaAltua — ezagutza metodologiko sakona eskatzen du
Narratiba-deribazDatuek benetan erakusten dutena baino interpretazioa pixkanaka aldentzeaOso altua — prosa modu sinesgarrian irakurtzen da

Huts-modu hauek guztiek ezaugarri bat partekatzen dute: emaitzak zuzena dirudi irakurle arrunt batentzat. Eskuizkribua gainbegiratzen duen berrikusle batek ez ditu harrapatuko agian. Datuak ondo ezagutzen dituen jatorrizko ikertzaileak berak ere akatsak galdu ditzake prosa jarian eta konfiantza osoz irakurtzean.

Egiletza agentikoaren propietaterik arriskutsuena da bere akatsek bere arrakastek bezala itxura hartzen dutela.

Zer eskatzen du ebidentzian oinarritutako konpilazioak

Ebidentzian oinarritutako konpilazioak AIaren eta datuen arteko erlazioa alderantzikatzen du. Modeloari datuei buruz idazteko eskatu beharrean, sistemak datuetatik emaitzak konpilatzen ditu pipeline deterministak erabiliz. AIaren zeregina zeregin zehatz eta egiaztagarrietara mugatuta dago:

  • Espezifikazioak proposatzea ikertzailearen asmotik abiatuta (adibidez, “erakutsi iezadazu TP53-ren adierazpena nola aldatzen den tratamendu-taldeen artean” irudi-espezifikazio bihurtzea)
  • Eraldaketa-kodea sortzea datu gordinak analisirako prest dauden formatuetara prozesatzen duena
  • Irudi-azalpenak idaztea konputatutako artefaktuetatik — baina irudi-panel, estatistika eta datu-puntu zehatzak soilik erreferentziatuz
  • Balidazio-akatsak konpontzea pipeline-urrats batek huts egiten duenean

Muga kritikoa testu ainguratuaren balidazioa da: azken emaitzako esaldi orok artefaktu konkretu bat erreferentziatu behar du. “TP53-ren adierazpena modu esanguratsuan gora erregulatu zen tratamendu-taldean (2A Irudia, p = 0,003, Welch-en t-testa)” baieztapen baliozkoa da, irudi-panel zehatz bat eta modu independentean egiazta daitekeen emaitza estatistiko zehatz bat seinalatzen dituelako.

“Gure emaitzek TP53-k tratamenduaren erantzunean rol bat iradokitzen dute” bezalako esaldi batek huts egingo luke balidazioan, artefaktu zehatz bat erreferentziatu gabe baieztapen bat egiten duelako.

Ebidentzian blokeatutako lan-fluxuek haluzinazioa nola saihesten duten

Mekanismoa zuzena da:

  1. Datuak sisteman sartzen dira fitxategi gordin gisa (CSV, FASTQ, irudi-datuak)
  2. Script deterministek datuak eraikuntza-artefaktu bihurtzen dituzte: irudiak, iturri-datuen taulak, estatistiken JSON fitxategiak
  3. Jatorri-manifestuek sarrera, eraldaketa eta irteera bakoitza erregistratzen dute hash kriptografikoekin (SHA-256)
  4. Irudi-azalpenen sorkuntza manifestuan existitzen diren artefaktuak soilik erreferentziatzeko mugatuta dago
  5. Balidazio-ateak baieztapen bat artefaktu batera arakatu ezin daitekeen edozein emaitza baztertzen dute

Hizkuntza-modeloak ez ditu inoiz datuak asmatzen. Ez ditu inoiz emaitzak memoriatik laburbiltzen. Fitxategi-sisteman existitzen diren eta modu independentean egiazta daitezkeen artefaktu konkretuen gainean funtzionatzen du.

PropietateaEgiletza agentikoaEbidentzian oinarritutako konpilazioa
Baieztapenen iturriaModeloaren entrenamendu-datuak + prompt-testuinguruaJatorria duten artefaktu konputatuak
Akatsen ikusgarritasunaAkatsek emaitza zuzenaren itxura duteAkatsek balidazio-hutsegiteak eragiten dituzte
ErreproduzigarritasunaPrompt-aren, tenperaturaren, modelo-bertsioaren menpeDeterminista — sarrera berdinek irteera berdinak sortzen dituzte
Auditoria-arrastoaElkarrizketa-erregistroak (gordetzen badira)Hashekin, git commitekin, tresna-bertsioekin osatutako manifestua
Berrikuslearen kargaBaieztapen bakoitza eskuz egiaztatu behar duManifestua emaitzarekin alderatuta egiazta daiteke

Zergatik axola du hau zure laborategirako

Ikerketa argitaratzen ari bazara, organo arautzaileetara aurkezten ari bazara, edo erabaki klinikoetarako ebidentzia-paketeak eraikitzen ari bazara, bi hurbilketen arteko bereizketa ez da akademikoa. Aurkezpen arautzaileek auditoria-arrastoak eskatzen dituzte. Parekoen berrikusleek gero eta gehiago espero dute analisi erreproduzigarriak. Finantza-agentziak — NIH barne — erreproduzigarritasun konputazionalerako betekizunak ezartzen ari dira.

Egiletza agentikoaren tresna batek azkarrago idazten lagun diezazuke. Ebidentzian oinarritutako tresna batek zuzen idazten lagun diezazuke — eta hori frogatzen.

Jatorririk gabeko abiadura pasibo bat da. Idazten aurreztutako ordu bakoitza hamar bider galtzen da berrikusle batek estatistika asmatu bat aurkitzen badu.

Zure lanerako hurbilketa egokia aukeratzea

Zeregin guztiek ez dute ebidentzian oinarritutako zorroztasuna eskatzen. Finantza-eskaera baten helburu espezifikoak idaztea, esperimentu-diseinuei buruz ideia-jasa egitea, edo barne-eztabaidetarako literatura laburbiltzea — horiek AI agentikoaren laguntzarako erabilera egokiak dira, non emaitza domeinuko adituek intentsiboki editatuko duten garrantzia izan baino lehen.

Baina argitaratuko, aurkeztuko edo erabakiak hartzeko erabiliko den edozein emaitzetarako, ebidentzian oinarritutako konpilazioa ez da aukerazkoa. AIak lagundutako zientzia fidagarrirako gutxieneko estandarra da.

Galdera ez da AIa lan-fluxu zientifikoen parte izan behar den. Izan behar da. Galdera da AIaren ekarpena egiazta daitekeen — eta zure tresnek egiaztapena erraz edo ezinezko egiten duten.


Hordago Labs-ek ebidentzian oinarritutako tresnak eraikitzen ditu ikerketa biologikorako. Gure lan-fluxuek jatorri osoaren jarraipenarekin auditagarriak eta erreproduzigarriak diren emaitzak sortzen dituzte. Ezagutu erreproduzigarritasunerako gure hurbilketa.