Поделиться через


Общие сведения о встраиваниях в Azure OpenAI в моделях Майкрософт Foundry (классическая)

Применяется только к:Портал Foundry (классический). Эта статья недоступна для нового портала Foundry. Дополнительные сведения о новом портале.

Замечание

Ссылки в этой статье могут открывать содержимое в новой документации Майкрософт Foundry вместо классической документации Foundry, которую вы просматриваете в данный момент.

Внедрение — это специальный формат представления данных, который machine learning модели и алгоритмы могут легко использовать. Внедрение представляет собой представление семантического значения фрагмента текста с высокой информационной плотностью. Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Внедрения обеспечивают работу поиска сходства векторов в системах извлечения, таких как Поиск с использованием ИИ Azure (рекомендуется), и в базах данных Azure, таких как Azure Cosmos DB для MongoDB vCore, База данных SQL Azure и База данных Azure для PostgreSQL — Flexible Server.

Внедрение моделей

Встраивания упрощают применение машинного обучения к большим входным данным, представляющим слова, захватывая семантические сходства в пространстве векторов. Таким образом, можно использовать эмбеддинги, чтобы определить, связаны ли два фрагмента текста семантически или похожи, и предоставить показатель для оценки сходства.

Косинусное сходство

Встраивания Azure OpenAI часто полагаются на косинусное сходство для вычисления сходства между документами и запросом.

С математической точки зрения, косинусная мера сходства измеряет косинус угла между двумя векторами, проецируемыми в многомерном пространстве. Это измерение полезно, потому что если два документа далеко друг от друга по евклидовому расстоянию по причине размера, они тем не менее могут иметь меньший угол между ними и, следовательно, более высокое косинусное сходство. Дополнительные сведения об уравнениях косинусного сходства см. в статье Косинусное сходство.

Альтернативным способом идентификации аналогичных документов является подсчет количества распространенных слов между документами. Этот подход не масштабируется, так как расширение размера документа, скорее всего, приведет к большему количеству распространенных слов, обнаруженных даже среди разрозненных тем. По этой причине сходство косинуса может предложить более эффективную альтернативу.

Дальнейшие шаги