Basado en Evidencia vs Autoría Agéntica en Herramientas de IA Científica

Las dos arquitecturas de la ciencia asistida por IA

Toda herramienta de IA para investigación científica toma una decisión arquitectónica fundamental, la reconozcan o no quienes la construyen. Esa decisión determina si la herramienta amplifica el rigor científico o lo socava silenciosamente.

De un lado se sitúa la autoría agéntica: la IA genera texto, extrae conclusiones y sintetiza narrativas a partir de sus datos de entrenamiento. Tú revisas el resultado y decides si suena correcto. Del otro lado se sitúa la compilación basada en evidencia: la IA te ayuda con la generación de código, la transformación de datos y la redacción de pies de figura, pero toda afirmación del resultado final debe referenciar un artefacto concreto — un panel de figura, un test estadístico, una cita con un DOI.

La diferencia no reside en la capacidad. Reside en de dónde proviene la verdad.

Esta distinción importa más que el tamaño del modelo, las técnicas de ingeniería de prompts o cualquier otra consideración técnica. Determina si los errores en tu investigación son visibles o sutiles — y en ciencia, los errores sutiles son los peligrosos.

Qué hace realmente la autoría agéntica

La autoría agéntica trata al modelo de lenguaje como coautor. Le proporcionas un conjunto de datos y una intención — “escribe la sección de resultados para este experimento de RNA-seq” — y el modelo produce prosa científica pulida. El texto se lee bien. Las citas parecen plausibles. El lenguaje estadístico sigue las convenciones.

El problema es que los modelos de lenguaje están entrenados para producir texto plausible, no texto verdadero. Cuando un modelo escribe “nuestro análisis reveló una regulación al alza estadísticamente significativa de TP53 (p < 0,01)”, puede ser correcto — o puede haber fabricado el valor p, el nombre del gen o la dirección de la regulación. La prosa suena con autoridad independientemente de la realidad.

Modos de fallo de la salida agéntica

Modo de fallo	Descripción	Dificultad de detección
Estadísticas fabricadas	Valores p, cambios relativos o tamaños muestrales que no coinciden con los datos reales	Alta — requiere cotejo manual con los datos fuente
Citas fantasma	Referencias que parecen reales pero no existen, o que existen pero no respaldan la afirmación	Alta — requiere comprobar cada DOI individualmente
Errores direccionales	Afirmar regulación al alza cuando los datos muestran regulación a la baja, o viceversa	Moderada — requiere comparar prosa con figuras
Métodos inapropiados	Describir un test estadístico que no se aplicó realmente a los datos	Alta — requiere conocimiento metodológico profundo
Deriva narrativa	Desplazar gradualmente la interpretación respecto a lo que los datos realmente muestran	Muy alta — la prosa se lee de forma convincente

Todos estos modos de fallo comparten una característica: la salida parece correcta para un lector casual. Un revisor que hojee el manuscrito puede no detectarlos. Incluso el investigador original, que conoce bien los datos, puede pasar por alto errores al leer prosa fluida y segura.

La propiedad más peligrosa de la autoría agéntica es que sus errores se ven exactamente igual que sus aciertos.

Qué exige la compilación basada en evidencia

La compilación basada en evidencia invierte la relación entre la IA y los datos. En lugar de pedirle al modelo que escriba sobre los datos, el sistema compila salidas a partir de los datos usando pipelines deterministas. El papel de la IA se limita a tareas específicas y verificables:

Proponer especificaciones a partir de la intención del investigador (por ejemplo, convertir “muéstrame cómo varía la expresión de TP53 entre grupos de tratamiento” en una especificación de figura)
Generar código de transformación que procesa datos crudos en formatos listos para el análisis
Redactar pies de figura a partir de artefactos computados — pero solo referenciando paneles de figura, estadísticas y puntos de datos específicos
Reparar errores de validación cuando falla un paso del pipeline

La restricción crítica es la validación de texto anclado: toda frase del resultado final debe referenciar un artefacto concreto. “La expresión de TP53 se reguló al alza significativamente en el grupo de tratamiento (Figura 2A, p = 0,003, t-test de Welch)” es una afirmación válida porque apunta a un panel de figura específico y a un resultado estadístico concreto que pueden verificarse independientemente.

Una frase como “Nuestros resultados sugieren un papel de TP53 en la respuesta al tratamiento” no pasaría la validación porque hace una afirmación sin referenciar un artefacto específico.

Cómo los flujos de trabajo anclados en evidencia previenen las alucinaciones

El mecanismo es directo:

Los datos entran al sistema como archivos crudos (CSV, FASTQ, datos de imagen)
Scripts deterministas transforman los datos en artefactos de construcción: figuras, tablas de datos fuente, archivos JSON de estadísticas
Manifiestos de procedencia registran cada entrada, transformación y salida con hashes criptográficos (SHA-256)
La generación de pies de figura se restringe a referenciar únicamente artefactos que existen en el manifiesto
Las compuertas de validación rechazan cualquier salida donde una afirmación no pueda rastrearse hasta un artefacto

El modelo de lenguaje nunca inventa datos. Nunca resume resultados desde la memoria. Opera sobre artefactos concretos que existen en el sistema de archivos y pueden verificarse independientemente.

Propiedad	Autoría agéntica	Compilación basada en evidencia
Origen de las afirmaciones	Datos de entrenamiento del modelo + contexto del prompt	Artefactos computados con procedencia
Visibilidad del error	Los errores parecen salida correcta	Los errores disparan fallos de validación
Reproducibilidad	Depende del prompt, temperatura, versión del modelo	Determinista — las mismas entradas producen las mismas salidas
Traza de auditoría	Registros de conversación (si se guardan)	Manifiesto con hashes, commits de git, versiones de herramientas
Carga del revisor	Debe verificar cada afirmación manualmente	Puede verificar cotejando el manifiesto con la salida

Por qué esto importa para tu laboratorio

Si publicas investigación, presentas a organismos reguladores o construyes paquetes de evidencia para decisiones clínicas, la distinción entre estos dos enfoques no es académica. Las presentaciones regulatorias exigen trazas de auditoría. Los revisores por pares esperan cada vez más análisis reproducibles. Las agencias de financiación — incluido el NIH — están estableciendo requisitos de reproducibilidad computacional.

Una herramienta de autoría agéntica puede ayudarte a escribir más rápido. Una herramienta basada en evidencia puede ayudarte a escribir correctamente — y a demostrarlo.

La velocidad sin procedencia es un pasivo. Cada hora ahorrada al escribir se pierde diez veces si un revisor encuentra una estadística fabricada.

Elegir el enfoque adecuado para tu trabajo

No toda tarea requiere el rigor del enfoque basado en evidencia. Redactar los objetivos específicos de una solicitud de subvención, hacer lluvia de ideas sobre diseños experimentales o resumir literatura para debates internos — estos son usos apropiados de la asistencia de IA agéntica, donde la salida será editada intensivamente por expertos del dominio antes de que importe.

Pero para cualquier salida que vaya a ser publicada, presentada o utilizada para tomar decisiones, la compilación basada en evidencia no es opcional. Es el estándar mínimo para una ciencia asistida por IA que sea digna de confianza.

La cuestión no es si la IA debe formar parte de los flujos de trabajo científicos. Debe formar parte. La cuestión es si la contribución de la IA puede verificarse — y si tus herramientas hacen que la verificación sea fácil o imposible.

Hordago Labs construye herramientas basadas en evidencia para investigación biológica. Nuestros flujos de trabajo producen salidas auditables y reproducibles con seguimiento completo de procedencia. Conoce nuestro enfoque sobre reproducibilidad.