Azure OpenAI на ваших данных (classic)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Замечание

Ссылки в этой статье могут открывать содержимое в новой документации Майкрософт Foundry вместо классической документации Foundry, которую вы просматриваете в данный момент.

Это важно

Azure OpenAI On Your Data устарел и будет выведен из использования.

Майкрософт перестала подключить новые модели к Azure OpenAI On Your Data. Эта функция поддерживает только следующие модели:

GPT-4o (версии 2024-05-13, 2024-08-06 и 2024-11-20)
GPT-4o-mini (версия 2024-07-18)
GPT-4.1, GPT-4.1-mini и GPT-4.1-nano (версия 2025-04-14)

После удаления моделей GPT-4.1, все конечные точки API Azure OpenAI On Your Data и поддерживаемые коннекторы источников данных перестают функционировать.

Мы рекомендуем перенести рабочие нагрузки Azure OpenAI на ваших данных в Foundry Agent Service с Foundry IQ для получения содержимого и построения обоснованных ответов на основе ваших данных. Чтобы приступить к работе, см. статью "Подключение базы знаний IQ Foundry".

Используйте эту статью, чтобы узнать об Azure OpenAI на ваших данных, который упрощает разработчикам подключение, интеграцию и закрепление корпоративных данных для быстрого создания персонализированных копилотов (предварительная версия). Он улучшает понимание пользователей, ускоряет выполнение задач, повышает эффективность работы и помогает принимать решения.

Что такое Azure OpenAI для ваших данных

Azure OpenAI On Your Data позволяет запускать расширенные модели ИИ, такие как GPT-35-Turbo и GPT-4 на собственных корпоративных данных, не требуя обучения или точной настройки моделей. Вы можете обсуждать и анализировать свои данные с большей точностью. Вы можете указать источники для поддержки ответов на основе последних сведений, доступных в указанных источниках данных. Вы можете получить доступ к Azure OpenAI On Your Data с помощью REST API через пакет SDK или веб-интерфейс на портале Майкрософт Foundry portal. Вы также можете создать веб-приложение, которое подключается к вашим данным, чтобы обеспечить усовершенствованное решение для чата или развернуть его непосредственно в качестве помощника в Copilot Studio (предварительная версия).

Разработка с использованием Azure OpenAI на ваших данных

Схема, показывающая пример рабочего процесса.

Обычно используется следующий процесс разработки с Azure OpenAI On Your Data:

Прием: отправка файлов с помощью портала Foundry или API приема. Это позволяет разбить данные на части и встроить их в экземпляр Поиск с использованием ИИ Azure, который можно использовать с моделями Azure OpenAI. Если у вас есть существующий поддерживаемый источник данных, вы также можете подключить его напрямую.
Develop. После попытки Azure OpenAI On Your Data начните разработку приложения с помощью доступного REST API и пакетов SDK, доступных на нескольких языках. Он создаст запросы и намерения поиска для передачи в службу OpenAI Azure.
Inference: после развертывания приложения в предпочитаемой среде он отправит запросы на Azure OpenAI, который выполнит несколько действий перед возвратом ответа:
1. Генерация намерений: служба будет определять намерение запроса пользователя, чтобы определить правильный ответ.
2. Извлечение. Служба извлекает соответствующие блоки доступных данных из подключенного источника данных, запрашивая его. Например, с помощью семантического или векторного поиска. Для влияния на извлечение используются такие параметры , как строгость и количество извлеченных документов.
3. Фильтрация и повторная обработка. Результаты поиска на шаге извлечения улучшаются путем ранжирования и фильтрации данных для уточнения релевантности.
4. Создание ответов: полученные данные отправляются вместе с другими сведениями, такими как системное сообщение в большую языковую модель (LLM) и ответ отправляется в приложение.

Чтобы приступить к работе, подключите источник данных с помощью портала Foundry и начните задавать вопросы и чаты по данным.

Система ролевого управления доступом Azure (Azure RBAC) для добавления источников данных

Чтобы полностью использовать Azure OpenAI On Your Data, необходимо задать одну или несколько Azure ролей RBAC. Дополнительные сведения см. в разделе Azure OpenAI в конфигурации данных.

Форматы данных и типы файлов

Azure OpenAI On Your Data поддерживает следующие типы файлов:

.txt
.md
.html
.docx
.pptx
.pdf

Существует ограничение отправки, и есть некоторые предостережения о структуре документов и о том, как это может повлиять на качество ответов из модели:

Если вы преобразуете данные из неподдерживаемого формата в поддерживаемый, оптимизируйте качество ответа модели, убедившись, что преобразование:
- Не приводит к значительной потере данных.
- Не добавляет неожиданные шумы в ваши данные.
Если файлы имеют специальное форматирование, например таблицы и столбцы, или точки маркеров, подготовьте данные с помощью скрипта подготовки данных, доступного в GitHub.
Для документов и наборов данных с длинными текстовыми строками следует использовать имеющийся скрипт подготовки данных. Этот скрипт разбивает данные на отдельные блоки, за счет чего ответы модели становятся более точными. Этот скрипт также поддерживает сканированные PDF-файлы и изображения.

Поддерживаемые источники данных

Для отправки данных необходимо подключиться к источнику данных. Если вы хотите использовать ваши данные для общения с моделью Azure OpenAI, данные разбиваются на части в индексе поиска, чтобы на основе запросов пользователей можно было найти соответствующую информацию.

Замечание

Данные должны быть неструктурированным текстом для получения наилучших результатов. Если у вас есть нетекстовые полуструктурированные или структурированные данные, рассмотрите возможность преобразования его в текст. Если файлы имеют специальное форматирование, например таблицы и столбцы, или точки маркеров, подготовьте данные с помощью скрипта подготовки данных, доступного в GitHub.

База данных Integrated Vector Database в Azure Cosmos DB на основе vCore для MongoDB изначально поддерживает интеграцию с Azure OpenAI On Your Data.

Для некоторых источников данных, таких как загрузка файлов с локального компьютера (предварительная версия) или данных, содержащихся в учетной записи хранения объектов BLOB (предварительная версия), используется служба Поиск с использованием ИИ Azure. При выборе следующих источников данных ваши данные будут загружены в индекс Поиск с использованием ИИ Azure.

Прием данных через Поиск с использованием ИИ Azure	Description
Поиск с использованием ИИ Azure	Используйте существующий индекс Поиск с использованием ИИ Azure с Azure OpenAI для ваших данных.
Отправка файлов (предварительная версия)	Загрузите файлы с локального компьютера, чтобы хранить их в базе данных Хранилище BLOB-объектов Azure и передавать в Поиск с использованием ИИ Azure.
URL-адрес или веб-адрес (предварительная версия)	Веб-содержимое из URL-адресов хранится в Хранилище BLOB-объектов Azure.
Хранилище BLOB-объектов Azure (предварительная версия)	Отправка файлов из Хранилище BLOB-объектов Azure для приема в индекс Поиск с использованием ИИ Azure.

Возможно, вы хотите использовать индекс Поиск с использованием ИИ Azure, если хотите:

Настройте процесс создания индекса.
Повторно используйте индекс, созданный ранее, путем приема данных из других источников данных.

Замечание

Чтобы использовать существующий индекс, он должен иметь по крайней мере одно поле для поиска.
Установите параметру CORS Allow Origin Type значение all, а параметру Allowed origins — значение *.
В индексе поиска невозможно иметь сложные поля.

Типы поиска

Azure OpenAI On Your Data предоставляет следующие типы поиска, которые можно использовать при добавлении источника данных.

Поиск ключевых слов
Семантический поиск
Векторный поиск с помощью модели text-embedding-ada-002, доступной в выбранных регионах

Чтобы включить векторный поиск, вам потребуется существующая модель внедрения, развернутая в ресурсе Azure OpenAI. Выберите развертывание встраивания при подключении данных, а затем выберите один из типов векторного поиска в разделе Управление данными. Если вы используете Поиск с использованием ИИ Azure в качестве источника данных, убедитесь, что в индексе есть векторный столбец.

Если вы используете собственный индекс, можно настроить сопоставление полей при добавлении источника данных, чтобы определить поля, которые будут сопоставлены при ответе на вопросы. Чтобы настроить сопоставление полей, выберите "Использовать сопоставление настраиваемых полей" на странице источника данных при добавлении источника данных.

Это важно

Семантический поиск зависит от дополнительных цен. Чтобы включить семантический поиск или векторный поиск, необходимо выбрать базовый или более высокий номер SKU . Дополнительные сведения см. в разделе "Разница в ценовой категории " и ограничения служб .
Чтобы повысить качество получения информации и ответа модели, рекомендуется включить семантический поиск на следующих языках источника данных: английский, французский, испанский, португальский, итальянский, итальянский, китайский(zh), японский, корейский, русский и арабский.

Параметр поиска	Тип извлечения	Дополнительные цены?	Преимущества
ключевое слово	Поиск ключевых слов	Нет дополнительных цен.	Выполняет быстрый и гибкий анализ запросов и сопоставление по полям с возможностью поиска, используя термины или фразы в любом поддерживаемом языке, с операторами или без них.
семантический	Семантический поиск	Дополнительные цены на использование семантического поиска .	Улучшает точность и релевантность результатов поиска с помощью рерантера (с моделями ИИ) для понимания семантического смысла терминов и документов, возвращаемых первоначальным рангером поиска.
vector	Векторный поиск	Дополнительная стоимость в учетной записи Azure OpenAI за использование встроенной модели.	Позволяет находить документы, похожие на заданный запрос, на основе векторных вложений содержимого.
гибрид (вектор + ключевое слово)	Гибридная среда поиска векторов и поиска ключевых слов	Дополнительная стоимость на вашей учетной записи Azure OpenAI из-за вызова модели внедрения.	Выполняет поиск сходства по полям векторов с помощью векторных эмбеддингов, а также поддерживает гибкую обработку запросов и полнотекстовый поиск по буквенно-цифровым полям с использованием терм-запросов.
hybrid (vector + keyword) + семантика	Гибрид векторного поиска, семантического поиска и поиска ключевых слов.	Дополнительное ценообразование на вашей учетной записи Azure OpenAI за вызов модели внедрения и дополнительные цены за использование семантического поиска.	Использует векторные внедрения, распознавание речи и гибкий анализ запросов для создания расширенных возможностей поиска и создания приложений искусственного интеллекта, которые могут обрабатывать сложные и разнообразные сценарии извлечения информации.

интеллектуальный поиск.

Azure OpenAI On Your Data включает интеллектуальный поиск данных. Семантический поиск включен по умолчанию, если у вас есть как семантический поиск, так и поиск ключевых слов. При внедрении моделей интеллектуальный поиск по умолчанию использует гибридный и семантический поиск.

Управление доступом на уровне документа

Замечание

Управление доступом на уровне документа поддерживается при выборе Поиск с использованием ИИ Azure в качестве источника данных.

Azure OpenAI On Your Data позволяет ограничить документы, которые можно использовать в ответах для разных пользователей, с помощью фильтров безопасности Поиск с использованием ИИ Azure. При включении доступа на уровне документа результаты поиска, возвращаемые из Поиск с использованием ИИ Azure и используемые для создания ответа, обрезаются на основе членства в группах Microsoft Entra пользователей. Доступ на уровне документа можно включить только в существующих индексах Поиск с использованием ИИ Azure. Дополнительные сведения см. в разделе Azure OpenAI On Your Data network and access configuration.

Сопоставление полей индекса

Если вы используете собственный индекс, вам будет предложено на портале Foundry определить поля, которые необходимо сопоставить с ответами на вопросы при добавлении источника данных. Можно указать несколько полей для данных содержимого и включать все поля, имеющие текст, относящиеся к вашему варианту использования.

В этом примере поля, сопоставленные с данными содержимого и заголовок , предоставляют сведения модели для ответа на вопросы. Заголовок также используется для заголовка текста ссылки. Поле, сопоставленное с именем файла, создает имена ссылок в ответе.

Правильное сопоставление этих полей обеспечивает лучшее качество ответов и цитирования модели. Кроме того, его можно настроить в API с помощью fieldsMapping параметра.

Если вы хотите реализовать дополнительные критерии, основанные на значениях, для выполнения запросов, вы можете настроить фильтр поиска с помощью параметра filter в REST API.

Прием данных в поиск Azure ИИ

По состоянию на сентябрь 2024 года API приема переключились на интегрированную векторизацию. Это обновление не изменяет существующие контракты API. Новое предложение Поиск с использованием ИИ Azure, интегрированная функция векторизации, использует заранее подготовленные навыки для разбиения на части и встраивания входных данных. Служба приема данных Azure OpenAI On Your Data больше не использует пользовательские навыки. После миграции на интегрированную векторизацию процесс приема прошел некоторые изменения и в результате создаются только следующие ресурсы:

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Контейнер блоков больше недоступен, так как эта функция теперь изначально управляется Поиск с использованием ИИ Azure.

Подключение к данным

Необходимо выбрать, каким образом вы хотите проверять подлинность подключения для Azure OpenAI, Поиск с использованием ИИ Azure и хранилища BLOB-объектов Azure. Вы можете выбрать назначаемое системой управляемое удостоверение или API-ключ. Выбрав ключ API в качестве типа проверки подлинности, система автоматически заполняет ключ API для подключения к ресурсам Поиск с использованием ИИ Azure, Azure OpenAI и Хранилище BLOB-объектов Azure. Выбрав управляемое удостоверение, назначенное системой, проверка подлинности будет зависеть от назначения роли. Управляемое удостоверение , назначаемое системой, выбрано по умолчанию для обеспечения безопасности.

После нажатия следующей кнопки программа автоматически проверит настройку, чтобы использовать выбранный метод проверки подлинности. Если возникла ошибка, ознакомьтесь со статьей о назначениях ролей, чтобы обновить настройку.

После исправления установки нажмите кнопку "Далее ", чтобы проверить и продолжить. Пользователи API также могут настроить проверку подлинности с назначенным управляемым удостоверением и ключами API.

Вы можете использовать Хранилище BLOB-объектов Azure в качестве источника данных, если вы хотите подключиться к существующим Хранилище BLOB-объектов Azure и использовать файлы, хранящиеся в контейнерах.

Планирование автоматического обновления индекса

Замечание

Автоматическое обновление индекса поддерживается только для Хранилище BLOB-объектов Azure.

Чтобы сохранить индекс Поиск с использованием ИИ Azure up-to-date с последними данными, можно запланировать автоматическое обновление индекса, а не обновлять его вручную при каждом обновлении данных. Автоматическое обновление индекса доступно только при выборе Хранилище BLOB-объектов Azure в качестве источника данных. Чтобы включить автоматическое обновление индекса, выполните приведенные далее действия.

Добавьте источник данных с помощью портала Foundry.
В разделе "Выбор или добавление источника данных" выберите расписание индексатора и выберите частоту обновления, который вы хотите применить.

После того как периодичность приёма данных установлена отличной от единоразовой, индексаторы поиска Поиск с использованием ИИ Azure будут созданы с расписанием, эквивалентным 0.5 * the cadence specified. Это означает, что по указанному курсу индексаторы будут извлекать, повторно обрабатывать и индексировать документы, добавленные или измененные из контейнера хранилища. Этот процесс гарантирует, что обновленные данные предварительно обрабатываются и индексируются в конечном индексе автоматически с требуемой периодичностью. Чтобы обновить данные, необходимо передать только дополнительные документы на портале Azure. На портале выберите Учетная запись хранения>Контейнеры. Выберите имя исходного контейнера, а затем отправьте. Индекс автоматически будет собирать файлы после запланированного периода обновления. Промежуточные активы, созданные в ресурсе Поиск с использованием ИИ Azure, не будут удалены после внесения, для поддержки будущих запусков. Эти ресурсы:

{Index Name}-index
{Index Name}-indexer
{Index Name}-datasource
{Index Name}-skillset

Чтобы изменить расписание, можно использовать портал Azure.

Откройте страницу ресурсов поиска на портале Azure
Выбор индексаторов на левой панели
Выполните следующие действия для двух индексаторов, имеющих имя индекса в качестве префикса.
1. Выберите индексатор, чтобы открыть его. Затем выберите вкладку параметров .
2. Обновите расписание до требуемой частоты из "Расписание" или укажите настраиваемую частоту из "Интервал (минут)"
3. Нажмите Сохранить.

Загрузка данных в поисковую систему Azure AI

По состоянию на сентябрь 2024 года API приема переключились на интегрированную векторизацию. Это обновление не изменяет существующие контракты API. Встроенная векторизация, новое предложение Поиск с использованием ИИ Azure, использует предварительно настроенные навыки для разбиения на сегменты и встраивания входных данных. Служба ингестации данных Azure OpenAI On Your Data больше не использует пользовательские навыки. После миграции на интегрированную векторизацию процесс приема прошел некоторые изменения и в результате создаются только следующие ресурсы:

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Подключение к данным

Необходимо выбрать способ проверки подлинности подключения из Azure OpenAI, Поиск с использованием ИИ Azure и хранилища блобов Azure. Вы можете выбрать назначаемое системой управляемое удостоверение или API-ключ. Выбрав ключ API в качестве типа проверки подлинности, система автоматически заполняет ключ API для подключения к ресурсам Поиск с использованием ИИ Azure, Azure OpenAI и Хранилище BLOB-объектов Azure. Выбрав управляемое удостоверение, назначенное системой, проверка подлинности будет зависеть от назначения роли. Управляемое удостоверение , назначаемое системой, выбрано по умолчанию для обеспечения безопасности.

С помощью портала Foundry вы можете загрузить файлы с вашего компьютера, чтобы попробовать использовать Azure OpenAI на ваших данных. Вы также можете создать новую учетную запись Хранилище BLOB-объектов Azure и ресурс Поиск с использованием ИИ Azure. Затем служба сохраняет файлы в контейнер хранилища Azure и выполняет прием из контейнера. Вы можете использовать статью краткое руководство, чтобы узнать, как использовать этот параметр источника данных.

Как данные поглощаются в поиске Azure ИИ

По состоянию на сентябрь 2024 года API приема переключились на интегрированную векторизацию. Это обновление не изменяет существующие контракты API. Встроенная векторизация, новая услуга Поиск с использованием ИИ Azure, использует предварительно созданные навыки для разбиения на части и внедрения входных данных. Служба Azure OpenAI On Your Data по сбору данных больше не использует пользовательские навыки. После миграции на интегрированную векторизацию процесс приема прошел некоторые изменения и в результате создаются только следующие ресурсы:

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Подключение к данным

Необходимо выбрать способ аутентификации подключения из Azure OpenAI, Поиск с использованием ИИ Azure и хранилища Blob Azure. Вы можете выбрать назначаемое системой управляемое удостоверение или API-ключ. Выбрав ключ API в качестве типа проверки подлинности, система автоматически заполняет ключ API для подключения к ресурсам Поиск с использованием ИИ Azure, Azure OpenAI и Хранилище BLOB-объектов Azure. Выбрав управляемое удостоверение, назначенное системой, проверка подлинности будет зависеть от назначения роли. Управляемое удостоверение , назначаемое системой, выбрано по умолчанию для обеспечения безопасности.

Снимок экрана, показывающий параметр управляемого удостоверения в портале Майкрософт Foundry.

Вы можете вставить URL-адреса и служба будет хранить содержимое веб-страницы, используя его при создании ответов из модели. Содержимое в URL-адресах или веб-адресах, которые используются, должны иметь следующие характеристики для правильного приема:

Общедоступный веб-сайт, например Использование данных с Azure OpenAI в модели Foundry — Azure OpenAI | Майкрософт Learn. Невозможно добавить URL-адрес или веб-адрес с помощью управления доступом, например с паролем.
Веб-сайт HTTPS.
Размер содержимого в каждом URL-адресе меньше 5 МБ.
Веб-сайт можно скачать как один из поддерживаемых типов файлов.
Поддерживается только один слой вложенных ссылок. На веб-странице будут доступны только до 20 ссылок.

После добавления URL-адреса или веб-адреса для приема данных веб-страницы из URL-адреса извлекаются и сохраняются в Хранилище BLOB-объектов Azure с именем контейнера: webpage-<index name>. Каждый URL-адрес будет сохранен в другом контейнере в учетной записи. Затем файлы индексируются в индекс Поиск с использованием ИИ Azure, который используется для извлечения при чате с моделью.

Как данные загружаются в поисковую систему Azure AI

По состоянию на сентябрь 2024 года API приема переключились на интегрированную векторизацию. Это обновление не изменяет существующие контракты API. Встроенная векторизация, новое предложение Поиск с использованием ИИ Azure, использует предварительно встроенные навыки для разбиения и встраивания входных данных. Служба приема данных Azure OpenAI больше не использует пользовательские навыки. После миграции на интегрированную векторизацию процесс приема прошел некоторые изменения и в результате создаются только следующие ресурсы:

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Подключение к данным

Необходимо выбрать способ проверки подлинности для подключения к Azure OpenAI, Поиск с использованием ИИ Azure и Azure Blob-хранилищу. Вы можете выбрать назначаемое системой управляемое удостоверение или API-ключ. Выбрав ключ API в качестве типа проверки подлинности, система автоматически заполняет ключ API для подключения к ресурсам Поиск с использованием ИИ Azure, Azure OpenAI и Хранилище BLOB-объектов Azure. Выбрав управляемое удостоверение, назначенное системой, проверка подлинности будет зависеть от назначения роли. Управляемое удостоверение , назначаемое системой, выбрано по умолчанию для обеспечения безопасности.

Вы можете подключиться к базе данных вектора Elasticsearch и общаться с данными.

Предпосылки

База данных Elasticsearch
Модель внедрения. Вы можете:
- Используйте существующую модель внедрения Azure OpenAI text-embedding-ada-002 или
- Используйте собственную модель эмбеддинга, размещённую в Elasticsearch.
Подготовьте данные с помощью записной книжки Python, доступной в GitHub.

Запрос на доступ

Использование источника данных Elasticsearch — это предварительная версия функции, которая распространяется на условия службы ограниченного доступа в условиях конкретной службы. Необходимо заполнить и отправить форму запроса, чтобы запросить доступ к источнику данных Elasticsearch. Форма запрашивает сведения о вашей компании и сценарии, для которых планируется использовать источник данных Elasticsearch. После отправки формы команда openAI Azure будет просматривать ее и отправлять вам электронное письмо с решением в течение 10 рабочих дней.