Los sistemas de generación aumentada por recuperación (Retrieval-Augmented Generation o RAG) se han vuelto indispensables para construir aplicaciones de inteligencia artificial más precisas y fácticas.
Los sistemas de generación aumentada por recuperación (Retrieval-Augmented Generation o RAG) se han vuelto indispensables para construir aplicaciones de inteligencia artificial más precisas y fácticas. Sin embargo, no están exentos de errores. Muchas veces, incluso cuando se les proporciona información recuperada, los modelos ofrecen respuestas incorrectas con seguridad o se pierden entre datos irrelevantes. Un nuevo estudio de Google propone un enfoque que podría mejorar drásticamente su rendimiento: evaluar si hay contexto suficiente para responder correctamente.
Qué es el «contexto suficiente»
Imaginemos que le hacemos una pregunta a una IA como si fuese un estudiante. Si le damos el material necesario para responder con certeza, esperaríamos una respuesta correcta. Pero si la información es ambigua o incompleta, lo ideal sería que diga «no lo sé» o pida más detalles.
Eso es justamente lo que define el contexto suficiente: una evaluación de si el contenido recuperado para una pregunta contiene datos concretos y completos que permitan dar una respuesta precisa. Según Google, este enfoque permite dividir los escenarios en dos:
- Contexto suficiente: el modelo tiene todo lo necesario para responder bien.
- Contexto insuficiente: falta información, es contradictoria o está incompleta.
Este análisis no requiere una respuesta correcta como referencia, lo que lo hace especialmente valioso en entornos reales donde no siempre se cuenta con «la verdad» durante la inferencia.
Un «autorater» para clasificar los contextos
Para automatizar esta evaluación, los investigadores desarrollaron un modelo evaluador automático o «autorater», basado en LLMs, que clasifica si hay suficiente contexto. Descubrieron que Gemini 1.5 Pro, con solo un ejemplo de referencia (1-shot), alcanzó un rendimiento sobresaliente en esta tarea.
Esto permite a los desarrolladores identificar situaciones en las que el sistema no tiene suficiente base para dar una respuesta confiable y ajustar la recuperación o el modelo base en consecuencia.
Cómo se comportan los LLM con y sin contexto suficiente
Al aplicar este marco de análisis, surgieron patrones importantes:
- Mayor precisión con contexto suficiente: los modelos tienden a acertar más cuando el contexto es adecuado.
- Menor tendencia a abstenerse: incluso cuando el contexto es insuficiente, los modelos a menudo eligen responder de todos modos, lo que lleva a alucinaciones (respuestas incorrectas con apariencia de certeza).
- Aumento de la confianza con contexto irrelevante: más información no siempre mejora la precisión. A veces, simplemente hace que el modelo se confíe y cometa errores con más seguridad.
Un hallazgo curioso fue que los modelos a veces responden correctamente incluso con contexto insuficiente. Esto ocurre porque usan su conocimiento preentrenado para completar vacíos o porque el contexto ayuda a aclarar la pregunta, aunque no tenga la respuesta directa.
Marco de «generación selectiva»: responder solo cuando se debe
Para reducir los errores, el equipo de Google propone un sistema adicional: un modelo más pequeño que actúa como filtro y decide si el modelo principal debe responder o abstenerse. Esta estrategia, llamada generación selectiva, equilibra precisión y cobertura (la cantidad de preguntas respondidas).
Al incorporar el concepto de contexto suficiente en este sistema, lograron mejoras de 2 a 10% en la tasa de respuestas correctas en modelos como Gemini, GPT y Gemma.
Ejemplo práctico: en atención al cliente, un usuario puede preguntar si tiene derecho a un descuento. Si el sistema recupera información actualizada y precisa sobre promociones, puede responder con seguridad. Pero si la información está desactualizada o incompleta, lo ideal es que el modelo diga algo como «No estoy seguro» o derive la consulta a un agente humano.
Entrenar para que se abstengan
Otra estrategia explorada fue afinar los modelos para que digan «no lo sé» en vez de intentar adivinar. Se les entrenó con ejemplos donde la respuesta correcta fue reemplazada por esta frase en contextos insuficientes. Aunque se observó una mejora en la tasa de respuestas correctas, el problema de las alucinaciones no desapareció por completo. Los investigadores concluyen que es una vía prometedora, pero que requiere más trabajo.
Aplicaciones reales en entornos empresariales
Para equipos que quieran aplicar este enfoque en sus sistemas RAG, como aquellos que alimentan bases de conocimiento internas o asistentes de atención al cliente, el proceso recomendado es el siguiente:
- Recolectar ejemplos reales de preguntas con sus contextos recuperados.
- Usar un autorater para etiquetar si cada uno tiene contexto suficiente o no.
- Evaluar qué porcentaje tiene suficiente contexto. Si es menor al 80-90%, es probable que se deba mejorar la recuperación o la base de conocimientos.
- Separar las respuestas del modelo según el tipo de contexto y analizar métricas por separado.
Esto permite detectar problemas específicos que podrían quedar ocultos al observar solo promedios globales.
Un cambio de mentalidad para construir mejores sistemas RAG
Este estudio introduce un cambio importante: pasar de enfocarse solo en recuperar información a entender si esa información es suficiente para responder con fiabilidad. Esto requiere ir más allá de los puntajes de similitud en motores de recuperación y considerar señales más profundas, como el contexto suficiente.
Si bien hay un costo computacional asociado al uso de autoraters, este puede manejarse en pruebas offline sobre conjuntos pequeños. Y para uso en tiempo real, se pueden explorar modelos más livianos o reglas heurísticas.
En definitiva, evaluar el contexto antes de confiar en una respuesta generada puede marcar la diferencia entre un sistema RAG útil y otro que propague errores con confianza.