Generación aumentada por recuperación (RAG) en Azure AI Search

La generación aumentada por recuperación (RAG) es un patrón que amplía las capacidades de LLM al basar las respuestas en tu contenido propietario. Aunque conceptualmente sencillas, las implementaciones de RAG se enfrentan a desafíos significativos.

Los desafíos de RAG

Desafío	Description
Descripción de consultas	Los usuarios modernos hacen preguntas complejas, conversacionales o vagas con el contexto asumido. Se produce un error en la búsqueda de palabras clave tradicional cuando las consultas no coinciden con la terminología del documento. El sistema de recuperación de información debe comprender la intención, no solo coincidir con palabras.
Acceso a datos de varios orígenes	El contenido empresarial abarca SharePoint, bases de datos, almacenamiento de blobs y otras plataformas. La creación de un corpus de búsqueda unificado sin interrumpir las operaciones de datos es esencial.
Restricciones de token	Los modelos LLM aceptan entradas de tokens limitadas. El sistema de recuperación debe devolver resultados muy relevantes y concisos, no listados exhaustivos de documentos.
Expectativas de tiempo de respuesta	Los usuarios esperan respuestas basadas en inteligencia artificial en segundos, no minutos. El sistema de recuperación debe equilibrar la exhaustividad y la velocidad.
Seguridad y gobernanza	La apertura del contenido privado en LAS VM requiere un control de acceso pormenorizado. Los usuarios y agentes solo deben recuperar contenido autorizado.

Cómo Azure AI Search cumple los desafíos de RAG

Azure AI Search proporciona dos enfoques diseñados específicamente para estos desafíos RAG.

Recuperación agencial (versión preliminar): una canalización RAG completa con planificación de consultas asistida por LLM, acceso a múltiples fuentes y respuestas estructuradas optimizadas para el consumo por parte de agentes.
Patrón RAG clásico: el enfoque probado mediante la búsqueda híbrida y la clasificación semántica, ideal para requisitos más sencillos o cuando se requieren características de disponibilidad general (GA).

En las secciones siguientes se explica cómo cada enfoque resuelve desafíos específicos de RAG.

Solución de desafíos de comprensión de consultas

El problema: Los usuarios preguntan "¿Cuál es nuestra directiva de PTO para trabajadores remotos contratados después de 2023?" pero los documentos dicen "tiempo de espera", "telecomunicaciones" y "contrataciones recientes".

Solución de recuperación agente:

LLM analiza la pregunta y genera varias subconsultas específicas.
Descompone preguntas complejas en búsquedas centradas
Usa el historial de conversaciones para comprender el contexto
Ejecución en paralelo a través de fuentes de conocimiento

Solución RAG clásica:

Las consultas híbridas combinan palabra clave y búsqueda de vectores para mejorar la recuperación
Reevaluación semántica reordena los resultados basándose en el significado, no solo en las palabras clave.
La búsqueda de similitud de vectores asocia conceptos, no términos exactos

Obtenga más información sobre el planeamiento de consultas.

Solución de desafíos de datos de varios orígenes

El problema: Las directivas de RR. HH. en SharePoint, las ventajas de las bases de datos, las noticias de la empresa en las páginas web, la creación de copias interrumpe la gobernanza y las operaciones de datos rutinarias.

Solución de recuperación agente:

Bases de conocimiento unifican varios orígenes de conocimiento
Consulta directa en SharePoint remoto y Bing (sin necesidad de indexación)
Generación automática de canalizaciones de indexación para Blob de Azure, OneLake, contenido ingerido de SharePoint y otro contenido externo ingerido
Interfaz de consulta única y plan de consulta en todos los orígenes

Solución RAG clásica:

Los indexadores extraen de más de 10 orígenes de datos de Azure
Flujo de habilidades para segmentación, vectorización, verbalización y análisis de imágenes
La indexación incremental mantiene el contenido actualizado
Controla lo que se indexa y cómo

Obtenga más información sobre los orígenes de conocimiento.

Solución de desafíos de restricciones de token

El problema: GPT-4 acepta ~128k tokens, pero tiene 10 000 páginas de documentación. El envío de todo desperdicia tokens y degrada la calidad.

Solución de recuperación agente:

Devuelve una respuesta estructurada con solo los fragmentos más relevantes.
El seguimiento de citas integrado muestra la procedencia
El registro de actividad de consulta explica lo que se ha buscado
La síntesis de respuesta opcional reduce aún más el uso del token.

Solución RAG clásica:

La clasificación semántica identifica los 50 resultados más relevantes
Límites de resultados configurables (top-k para vectores, top-n para texto) y umbrales mínimos
Los perfiles de puntuación mejoran el contenido crítico
La instrucción SELECT controla qué campos son devueltos

Obtenga más información sobre el ajuste de relevancia.

Solución de desafíos del tiempo de respuesta

El problema: Los usuarios esperan respuestas en 3 a 5 segundos, pero está consultando varios orígenes con un procesamiento complejo.

Solución de recuperación agente:

Ejecución de subconsulta paralela (no secuencial)
Esfuerzo de razonamiento ajustable (mínimo/bajo/medio)
Clasificación semántica pregenerada (sin orquestación adicional)

Solución RAG clásica:

Tiempos de respuesta de consulta en milisegundos
Las consultas de captura única reducen la complejidad
Controlas el tiempo de espera y la lógica de reintento
Arquitectura más sencilla con menos puntos de error

Solución de desafíos de seguridad

El problema: Los datos financieros solo deben ser accesibles para el equipo financiero, incluso cuando un ejecutivo pregunta el bot de chat.

Solución de recuperación agente:

Control de acceso al nivel de fuente de conocimiento
Hereda permisos de SharePoint para consultas en SharePoint remoto
Hereda los metadatos de permisos del identificador de Entra de Microsoft para el contenido indexado de Azure Storage.
Seguridad basada en filtros en el momento de la consulta para otros orígenes de datos
Aislamiento de red a través de puntos de conexión privados

Solución RAG clásica:

Recorte de seguridad de nivel de documento
Hereda los metadatos de permisos de Microsoft Entra ID para el contenido indexado de Azure Storage.
Seguridad basada en filtros en el momento de la consulta para otros orígenes de datos
Aislamiento de red a través de puntos de conexión privados

Más información sobre la seguridad.

RAG moderno con recuperación agente

Azure AI Search es una solución comprobada para cargas de trabajo RAG. Ahora proporciona recuperación agéntica, un flujo de trabajo especializado diseñado específicamente para patrones RAG. Este enfoque usa LLM para desglosar de forma inteligente consultas complejas de usuarios en subconsultas centradas, las ejecuta en paralelo y devuelve respuestas estructuradas optimizadas para los modelos de finalización de chat.

La recuperación de agentes representa la evolución de los patrones RAG tradicionales de consulta única a la recuperación inteligente de varias consultas, lo que proporciona:

Planeamiento de consultas compatibles con contexto mediante el historial de conversaciones
Ejecución paralela de varias subconsultas específicas
Respuestas estructuradas con datos de base, citas y metadatos de ejecución
Clasificación semántica integrada para una relevancia óptima
Síntesis de respuesta opcional que usa una respuesta formulada por LLM en la respuesta de consulta.

Necesita nuevos objetos para esta canalización: uno o varios fuentes de conocimiento, una base de conocimiento y la acción de búsqueda que se invoca desde el código de la aplicación, como una herramienta que interactúa con su agente de IA.

En el caso de las nuevas implementaciones RAG, se recomienda comenzar con la recuperación agéntica. En el caso de las soluciones existentes, considere la posibilidad de migrar para aprovechar la mejora de la precisión y la comprensión del contexto.

Patrón RAG clásico para Azure AI Search

RAG clásico usa la arquitectura de ejecución de consultas original en la que la aplicación envía una sola consulta a Azure AI Search y organiza la entrega a un LLM por separado. El LLM implementado formula una respuesta mediante el conjunto de resultados aplanado de la consulta. Este enfoque es más sencillo con menos componentes y más rápido, ya que no hay ninguna implicación de LLM en el planeamiento de consultas.

Para obtener información detallada sobre la implementación de RAG clásico, consulte el repositorio azure-search-classic-rag.

Preparación del contenido para RAG

La calidad de RAG depende de cómo prepare el contenido para su recuperación. Azure AI Search soporta:

Desafío de contenido	Cómo ayuda Azure AI Search
Documentos grandes	Fragmentación automática (integrada o mediante habilidades)
Varios idiomas	Más de 50 analizadores de idioma para texto, vectores multilingües
Imágenes y ARCHIVOS PDF	OCR, análisis de imágenes, aptitudes de extracción de documentos
Necesidad de búsqueda de similitud	Vectorización integrada (Azure OpenAI, Azure AI Vision, personalizado)
Desajustes de terminología	Mapas de sinónimos, clasificación semántica

Para la recuperación agentica: Utilice orígenes de conocimiento que generen automáticamente canalizaciones de fragmentación y vectorización.

Para RAG clásico: Use indexadores y conjuntos de aptitudes para crear canalizaciones personalizadas o insertar contenido procesado previamente a través de la API de inserción.

Maximizar la relevancia y la recuperación

¿Cómo proporciona los datos fundamentales para la formulación de respuestas LLM? Se trata de una combinación de tener contenido adecuado, consultas inteligentes y lógica de consulta que puede identificar los mejores fragmentos para responder a una pregunta.

En el contenido, utilice la segmentación para subdividir documentos grandes, de modo que las partes puedan coincidir de forma independiente. Use la vectorización para crear incrustaciones usadas para las consultas vectoriales.

En el lado de la consulta, para garantizar los resultados más relevantes para la implementación de RAG:

Utiliza consultas híbridas que combinen palabra clave (no vector) y búsqueda de vectores para obtener la recuperación máxima de datos. En una consulta híbrida, si se duplica en la misma entrada, una cadena de texto y su equivalente vectorial generan consultas paralelas para palabras clave y búsqueda de similitud, devolviendo las coincidencias más relevantes de cada tipo de consulta en un conjunto de resultados unificado.
Use la clasificación semántica, integrada en la recuperación agentiva, opcional para RAG clásico.
Aplicar perfiles de puntuación para aumentar los campos o criterios específicos.
Ajuste los parámetros de consulta vectorial para la ponderación de vectores y los umbrales mínimos.

Obtenga más información sobre la búsqueda híbrida y la clasificación semántica.

Elegir entre recuperación agéntica y RAG clásico

Use la recuperación agencial cuando:

Necesita la mayor relevancia y precisión posibles.
Las consultas son complejas o conversacionales
Desea respuestas estructuradas con citas y detalles de consulta
Estás creando nuevas implementaciones de RAG.

Usa RAG clásico cuando:

Solo necesita características disponibles con carácter general (GA)
La simplicidad y la velocidad son prioridades sobre la relevancia avanzada
Tiene código de orquestación existente que desea conservar
Usted necesita un control granular sobre la canalización de consultas.

Una solución RAG que incluye agentes y Azure AI Search puede beneficiarse de Foundry IQ, como punto de conexión único de un agente a una capa de conocimiento que proporciona datos de base. Foundry IQ usa la recuperación agentica.

Obtenga más información sobre la búsqueda clásica, la recuperación agente y cómo se comparan.

Introducción

Hay muchas maneras de empezar, incluidas las soluciones basadas en código y las demostraciones.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-12-15

Compartir a través de

Generación aumentada por recuperación (RAG) en Azure AI Search

Los desafíos de RAG

Cómo Azure AI Search cumple los desafíos de RAG

Solución de desafíos de comprensión de consultas

Solución de desafíos de datos de varios orígenes

Solución de desafíos de restricciones de token

Solución de desafíos del tiempo de respuesta

Solución de desafíos de seguridad

RAG moderno con recuperación agente

Patrón RAG clásico para Azure AI Search

Preparación del contenido para RAG

Maximizar la relevancia y la recuperación

Elegir entre recuperación agéntica y RAG clásico

Introducción

Comentarios

Recursos adicionales