Tanto la generación aumentada por recuperación (RAG) como el fine-tuning pueden hacer que un modelo de lenguaje sea más útil para un dominio específico. Resuelven problemas diferentes, y elegir el incorrecto es un error costoso.

Este es un marco de decisión, no una descripción teórica. El objetivo es darte las preguntas que hacer cuando estás definiendo el alcance de un proyecto de IA y necesitas decidir en qué enfoque invertir.

Qué Hace Realmente RAG

RAG conecta un modelo de lenguaje a una base de conocimiento externa en el momento de la inferencia. Cuando un usuario envía una consulta, el sistema recupera los documentos más relevantes de la base de conocimiento y los incluye en el prompt. El modelo genera una respuesta basada en esos documentos.

La propiedad clave de RAG es que el conocimiento es externo y actualizable. Puedes cambiar lo que está en la base de conocimiento sin cambiar el modelo. Nuevos documentos, políticas actualizadas, eventos recientes — todo esto puede reflejarse en las respuestas de RAG sin ningún reentrenamiento.

Qué Hace Realmente el Fine-Tuning

El fine-tuning ajusta los pesos de un modelo preentrenado usando ejemplos del comportamiento que deseas. El modelo aprende de los ejemplos y codifica ese conocimiento en sus parámetros. Después del fine-tuning, el modelo se comporta de manera diferente — sigue un formato particular, usa terminología específica del dominio, o produce salidas calibradas a tu caso de uso.

La propiedad clave del fine-tuning es que cambia el comportamiento, no el conocimiento. Es mejor para enseñarle al modelo cómo responder, no para enseñarle qué saber.

El Marco de Decisión

Comienza con esta pregunta: ¿tu problema tiene que ver principalmente con el acceso a información actual o propietaria, o principalmente con el estilo de salida, el formato y el comportamiento específico del dominio?

Si tu problema es informacional — el modelo no conoce la documentación de tu producto, tus políticas internas, tus contratos de clientes — RAG es casi siempre la respuesta correcta. Es más rápido de implementar, más barato de mantener, y el conocimiento es auditable (puedes ver exactamente qué documentos fueron recuperados para cualquier respuesta dada).

Si tu problema es de comportamiento — el modelo escribe en un estilo genérico cuando necesitas una voz específica, produce formatos inconsistentes, comete errores de dominio en cómo razona — el fine-tuning aborda esos problemas de manera más directa.

Cuándo Falla RAG

RAG falla cuando falla el paso de recuperación. Si tus documentos no están bien indexados, si la puntuación de similitud consulta-documento no muestra el contenido correcto, o si la información relevante está distribuida en demasiados documentos para una recuperación efectiva, el modelo no tendrá lo que necesita para generar una buena respuesta.

RAG también falla cuando la latencia es una restricción. Cada consulta RAG implica al menos un paso de recuperación (a menudo dos — uno para la consulta, uno para reordenar los resultados) antes del paso de generación. Si necesitas respuestas de menos de 100ms, la arquitectura de RAG puede no ser compatible con tus requisitos.

Cuándo Falla el Fine-Tuning

El fine-tuning falla cuando el problema es informacional. Si un cliente pregunta sobre una especificación de producto y el modelo necesita dar una respuesta precisa, el fine-tuning no puede inyectar esa información de manera confiable — alucinará con alta confianza en el estilo del fine-tuning. Esto es más peligroso que un modelo estándar que dice que no sabe.

El fine-tuning también falla cuando la distribución de tus datos cambia. Un modelo ajustado entrenado con los ejemplos del año pasado puede degradarse significativamente cuando las entradas cambian. Necesitas datos de entrenamiento frescos para reentrenar, lo que es costoso y lleva tiempo.

El Caso para Combinar Ambos

Los sistemas de producción más capaces a menudo usan ambos. Fine-tune para el estilo y el comportamiento del dominio, usa RAG para el conocimiento actual. Un sistema de atención al cliente podría ser ajustado en ejemplos de buenas respuestas de soporte (enseñando tono, formato y juicio de escalación) y también conectado a una base de conocimiento RAG de la documentación actual del producto y los problemas conocidos.

Esta arquitectura es más compleja de construir y mantener, pero separa las preocupaciones claramente: el comportamiento se entrena, el conocimiento se recupera.

El Punto de Partida Práctico

Si estás comenzando un nuevo proyecto de IA y no estás seguro de cuál usar: comienza con RAG. Es más rápido, más barato y produce salidas auditables. Construye tu conjunto de evaluación, mide el rendimiento contra tus criterios de éxito, y solo considera el fine-tuning si RAG no te lleva al nivel que necesitas. La mayoría de los casos de uso en producción que los equipos inicialmente piensan que requieren fine-tuning resultan ser solucionables con una buena implementación de RAG e ingeniería de prompts.