Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La generación aumentada por recuperación (RAG) es un patrón que amplía las capacidades de LLM al basar las respuestas en tu contenido propietario. Aunque conceptualmente sencillas, las implementaciones de RAG se enfrentan a desafíos significativos.
Los desafíos de RAG
| Desafío | Description |
|---|---|
| Descripción de consultas | Los usuarios modernos hacen preguntas complejas, conversacionales o vagas con el contexto asumido. Se produce un error en la búsqueda de palabras clave tradicional cuando las consultas no coinciden con la terminología del documento. El sistema de recuperación de información debe comprender la intención, no solo coincidir con palabras. |
| Acceso a datos de varios orígenes | El contenido empresarial abarca SharePoint, bases de datos, almacenamiento de blobs y otras plataformas. La creación de un corpus de búsqueda unificado sin interrumpir las operaciones de datos es esencial. |
| Restricciones de token | Los modelos LLM aceptan entradas de tokens limitadas. El sistema de recuperación debe devolver resultados muy relevantes y concisos, no listados exhaustivos de documentos. |
| Expectativas de tiempo de respuesta | Los usuarios esperan respuestas basadas en inteligencia artificial en segundos, no minutos. El sistema de recuperación debe equilibrar la exhaustividad y la velocidad. |
| Seguridad y gobernanza | La apertura del contenido privado en LAS VM requiere un control de acceso pormenorizado. Los usuarios y agentes solo deben recuperar contenido autorizado. |
Cómo Azure AI Search cumple los desafíos de RAG
Azure AI Search proporciona dos enfoques diseñados específicamente para estos desafíos RAG.
Recuperación agencial (versión preliminar): una canalización RAG completa con planificación de consultas asistida por LLM, acceso a múltiples fuentes y respuestas estructuradas optimizadas para el consumo por parte de agentes.
Patrón RAG clásico: el enfoque probado mediante la búsqueda híbrida y la clasificación semántica, ideal para requisitos más sencillos o cuando se requieren características de disponibilidad general (GA).
En las secciones siguientes se explica cómo cada enfoque resuelve desafíos específicos de RAG.
Solución de desafíos de comprensión de consultas
El problema: Los usuarios preguntan "¿Cuál es nuestra directiva de PTO para trabajadores remotos contratados después de 2023?" pero los documentos dicen "tiempo de espera", "telecomunicaciones" y "contrataciones recientes".
Solución de recuperación agente:
- LLM analiza la pregunta y genera varias subconsultas específicas.
- Descompone preguntas complejas en búsquedas centradas
- Usa el historial de conversaciones para comprender el contexto
- Ejecución en paralelo a través de fuentes de conocimiento
Solución RAG clásica:
- Las consultas híbridas combinan palabra clave y búsqueda de vectores para mejorar la recuperación
- Reevaluación semántica reordena los resultados basándose en el significado, no solo en las palabras clave.
- La búsqueda de similitud de vectores asocia conceptos, no términos exactos
Obtenga más información sobre el planeamiento de consultas.
Solución de desafíos de datos de varios orígenes
El problema: Las directivas de RR. HH. en SharePoint, las ventajas de las bases de datos, las noticias de la empresa en las páginas web, la creación de copias interrumpe la gobernanza y las operaciones de datos rutinarias.
Solución de recuperación agente:
- Bases de conocimiento unifican varios orígenes de conocimiento
- Consulta directa en SharePoint remoto y Bing (sin necesidad de indexación)
- Generación automática de canalizaciones de indexación para Blob de Azure, OneLake, contenido ingerido de SharePoint y otro contenido externo ingerido
- Interfaz de consulta única y plan de consulta en todos los orígenes
Solución RAG clásica:
- Los indexadores extraen de más de 10 orígenes de datos de Azure
- Flujo de habilidades para segmentación, vectorización, verbalización y análisis de imágenes
- La indexación incremental mantiene el contenido actualizado
- Controla lo que se indexa y cómo
Obtenga más información sobre los orígenes de conocimiento.
Solución de desafíos de restricciones de token
El problema: GPT-4 acepta ~128k tokens, pero tiene 10 000 páginas de documentación. El envío de todo desperdicia tokens y degrada la calidad.
Solución de recuperación agente:
- Devuelve una respuesta estructurada con solo los fragmentos más relevantes.
- El seguimiento de citas integrado muestra la procedencia
- El registro de actividad de consulta explica lo que se ha buscado
- La síntesis de respuesta opcional reduce aún más el uso del token.
Solución RAG clásica:
- La clasificación semántica identifica los 50 resultados más relevantes
- Límites de resultados configurables (top-k para vectores, top-n para texto) y umbrales mínimos
- Los perfiles de puntuación mejoran el contenido crítico
- La instrucción SELECT controla qué campos son devueltos
Obtenga más información sobre el ajuste de relevancia.
Solución de desafíos del tiempo de respuesta
El problema: Los usuarios esperan respuestas en 3 a 5 segundos, pero está consultando varios orígenes con un procesamiento complejo.
Solución de recuperación agente:
- Ejecución de subconsulta paralela (no secuencial)
- Esfuerzo de razonamiento ajustable (mínimo/bajo/medio)
- Clasificación semántica pregenerada (sin orquestación adicional)
Solución RAG clásica:
- Tiempos de respuesta de consulta en milisegundos
- Las consultas de captura única reducen la complejidad
- Controlas el tiempo de espera y la lógica de reintento
- Arquitectura más sencilla con menos puntos de error
Solución de desafíos de seguridad
El problema: Los datos financieros solo deben ser accesibles para el equipo financiero, incluso cuando un ejecutivo pregunta el bot de chat.
Solución de recuperación agente:
- Control de acceso al nivel de fuente de conocimiento
- Hereda permisos de SharePoint para consultas en SharePoint remoto
- Hereda los metadatos de permisos del identificador de Entra de Microsoft para el contenido indexado de Azure Storage.
- Seguridad basada en filtros en el momento de la consulta para otros orígenes de datos
- Aislamiento de red a través de puntos de conexión privados
Solución RAG clásica:
- Recorte de seguridad de nivel de documento
- Hereda los metadatos de permisos de Microsoft Entra ID para el contenido indexado de Azure Storage.
- Seguridad basada en filtros en el momento de la consulta para otros orígenes de datos
- Aislamiento de red a través de puntos de conexión privados
Más información sobre la seguridad.
RAG moderno con recuperación agente
Azure AI Search es una solución comprobada para cargas de trabajo RAG. Ahora proporciona recuperación agéntica, un flujo de trabajo especializado diseñado específicamente para patrones RAG. Este enfoque usa LLM para desglosar de forma inteligente consultas complejas de usuarios en subconsultas centradas, las ejecuta en paralelo y devuelve respuestas estructuradas optimizadas para los modelos de finalización de chat.
La recuperación de agentes representa la evolución de los patrones RAG tradicionales de consulta única a la recuperación inteligente de varias consultas, lo que proporciona:
- Planeamiento de consultas compatibles con contexto mediante el historial de conversaciones
- Ejecución paralela de varias subconsultas específicas
- Respuestas estructuradas con datos de base, citas y metadatos de ejecución
- Clasificación semántica integrada para una relevancia óptima
- Síntesis de respuesta opcional que usa una respuesta formulada por LLM en la respuesta de consulta.
Necesita nuevos objetos para esta canalización: uno o varios fuentes de conocimiento, una base de conocimiento y la acción de búsqueda que se invoca desde el código de la aplicación, como una herramienta que interactúa con su agente de IA.
En el caso de las nuevas implementaciones RAG, se recomienda comenzar con la recuperación agéntica. En el caso de las soluciones existentes, considere la posibilidad de migrar para aprovechar la mejora de la precisión y la comprensión del contexto.
Patrón RAG clásico para Azure AI Search
RAG clásico usa la arquitectura de ejecución de consultas original en la que la aplicación envía una sola consulta a Azure AI Search y organiza la entrega a un LLM por separado. El LLM implementado formula una respuesta mediante el conjunto de resultados aplanado de la consulta. Este enfoque es más sencillo con menos componentes y más rápido, ya que no hay ninguna implicación de LLM en el planeamiento de consultas.
Para obtener información detallada sobre la implementación de RAG clásico, consulte el repositorio azure-search-classic-rag.
Preparación del contenido para RAG
La calidad de RAG depende de cómo prepare el contenido para su recuperación. Azure AI Search soporta:
| Desafío de contenido | Cómo ayuda Azure AI Search |
|---|---|
| Documentos grandes | Fragmentación automática (integrada o mediante habilidades) |
| Varios idiomas | Más de 50 analizadores de idioma para texto, vectores multilingües |
| Imágenes y ARCHIVOS PDF | OCR, análisis de imágenes, aptitudes de extracción de documentos |
| Necesidad de búsqueda de similitud | Vectorización integrada (Azure OpenAI, Azure AI Vision, personalizado) |
| Desajustes de terminología | Mapas de sinónimos, clasificación semántica |
Para la recuperación agentica: Utilice orígenes de conocimiento que generen automáticamente canalizaciones de fragmentación y vectorización.
Para RAG clásico: Use indexadores y conjuntos de aptitudes para crear canalizaciones personalizadas o insertar contenido procesado previamente a través de la API de inserción.
Maximizar la relevancia y la recuperación
¿Cómo proporciona los datos fundamentales para la formulación de respuestas LLM? Se trata de una combinación de tener contenido adecuado, consultas inteligentes y lógica de consulta que puede identificar los mejores fragmentos para responder a una pregunta.
En el contenido, utilice la segmentación para subdividir documentos grandes, de modo que las partes puedan coincidir de forma independiente. Use la vectorización para crear incrustaciones usadas para las consultas vectoriales.
En el lado de la consulta, para garantizar los resultados más relevantes para la implementación de RAG:
Utiliza consultas híbridas que combinen palabra clave (no vector) y búsqueda de vectores para obtener la recuperación máxima de datos. En una consulta híbrida, si se duplica en la misma entrada, una cadena de texto y su equivalente vectorial generan consultas paralelas para palabras clave y búsqueda de similitud, devolviendo las coincidencias más relevantes de cada tipo de consulta en un conjunto de resultados unificado.
Use la clasificación semántica, integrada en la recuperación agentiva, opcional para RAG clásico.
Aplicar perfiles de puntuación para aumentar los campos o criterios específicos.
Ajuste los parámetros de consulta vectorial para la ponderación de vectores y los umbrales mínimos.
Obtenga más información sobre la búsqueda híbrida y la clasificación semántica.
Elegir entre recuperación agéntica y RAG clásico
Use la recuperación agencial cuando:
- Necesita la mayor relevancia y precisión posibles.
- Las consultas son complejas o conversacionales
- Desea respuestas estructuradas con citas y detalles de consulta
- Estás creando nuevas implementaciones de RAG.
Usa RAG clásico cuando:
- Solo necesita características disponibles con carácter general (GA)
- La simplicidad y la velocidad son prioridades sobre la relevancia avanzada
- Tiene código de orquestación existente que desea conservar
- Usted necesita un control granular sobre la canalización de consultas.
Una solución RAG que incluye agentes y Azure AI Search puede beneficiarse de Foundry IQ, como punto de conexión único de un agente a una capa de conocimiento que proporciona datos de base. Foundry IQ usa la recuperación agentica.
Obtenga más información sobre la búsqueda clásica, la recuperación agente y cómo se comparan.
Introducción
Hay muchas maneras de empezar, incluidas las soluciones basadas en código y las demostraciones.