Поделиться через


Примечание о прозрачности для распознавания языка

Это важно

Для удобства предоставляются только переводы, отличные от английского языка. Обратитесь к EN-US версии этого документа для окончательной версии.

Что такое примечание о прозрачности?

Это важно

В этой статье предполагается, что вы знакомы с рекомендациями и передовым опытом для Azure Language в инструментах Foundry. Дополнительные сведения см. в заметке о прозрачности языка.

В систему ИИ входит не только технология, но и ее пользователи, люди, на которых она повлияет, а также среда, в которой она будет развернута. Создание системы, соответствующей её целевому назначению, требует понимания того, как работает технология, её возможностей и ограничений, а также того, как добиться наилучшей производительности. Заметки о прозрачности корпорации Майкрософт предназначены для того, чтобы помочь вам понять, как работает наша технология ИИ, как владельцы систем могут повлиять на производительность и поведение системы, а также важность думать о всей системе, включая технологию, людей и окружающую среду. Вы можете использовать информационные статьи при разработке или развертывании собственной системы, а также предоставить к ним доступ пользователям, которые будут использовать вашу систему или которых она затрагивает.

Заметки о прозрачности Корпорации Майкрософт являются частью более широких усилий корпорации Майкрософт по внедрению принципов искусственного интеллекта на практике. Дополнительные сведения см. в статье "Принципы ответственного искусственного интеллекта" от Корпорации Майкрософт.

Общие сведения об обнаружении языка

Функция определения языка Language распознаёт язык, на котором написан входной текст, и сообщает единый языковой код для каждого документа, отправленного в запросе, охватывая широкий спектр языков, их вариантов, диалектов, а также некоторых региональных и культурных языков. Языковой код связан с оценкой достоверности.

Обязательно проверьте список языков поддерживаемых языков, чтобы убедиться, что нужные языки поддерживаются.

Примеры вариантов использования

Обнаружение языка используется в нескольких сценариях в различных отраслях. Ниже приведены некоторые примеры:

  • Предварительная обработка текста других функций языка. Другие функции языка требуют отправки кода языка в запросе для идентификации исходного языка. Если вы не знаете исходный язык текста, можно использовать обнаружение языка в качестве предварительного процессора для получения кода языка.

  • Определение языков для рабочего процесса бизнеса. Например, если компания получает электронную почту на разных языках от клиентов, они могут использовать определение языка для маршрутизации писем по языку к носителям языка, которые могут лучше взаимодействовать с этими клиентами.

Рекомендации при выборе варианта использования

Не используйте

  • Не используйте для автоматических действий без вмешательства человека для сценариев высокого риска. Человек всегда должен просматривать исходные данные, когда затрагивается экономическая ситуация, здоровье или безопасность другого человека.

Юридические и нормативные аспекты: организациям необходимо оценить потенциальные определенные юридические и нормативные обязательства при использовании любых средств и решений Foundry, которые могут быть не подходящими для использования в каждой отрасли или сценарии. Кроме того, средства и решения Foundry не предназначены для использования и не могут использоваться способами, запрещенными в применимых условиях обслуживания и соответствующих кодексах поведения.

Характеристики и ограничения

В зависимости от сценария и входных данных можно столкнуться с разными уровнями производительности. Следующие сведения помогут вам понять ключевые концепции производительности в применении к использованию функции обнаружения языка Language.

Ограничения системы и рекомендации по повышению производительности

  • Для входных данных, включающих содержимое миксированного языка возвращается только один язык. Как правило, язык с наибольшим представлением в содержимом возвращается, но с более низким уровнем доверия.
  • Служба пока не поддерживает романизированные версии всех языков, которые не используют латинский скрипт. Например, Pinyin не поддерживается для китайского языка и Franco-Arabic не поддерживается для арабского языка.
  • Некоторые слова существуют на нескольких языках. Например, "невозможное" является общим словом как для английского, так и для французского. Для коротких примеров, включающих неоднозначные слова, вы можете не получить правильный язык.
  • Если у вас есть некоторые идеи о стране или регионе происхождения вашего текста и вы столкнулись с использованием смешанных языков, можно использовать countryHintпараметр, чтобы передать код страны или региона в 2 буквы.
  • Как правило, более длинные входные данные, скорее всего, будут правильно распознаны. Полные фразы или предложения, скорее всего, будут правильно распознаны, чем отдельные слова или фрагменты предложения.
  • Не все языки будут распознаны. Обязательно проверьте список поддерживаемых языков и скриптов.
  • Чтобы различать несколько скриптов, используемых для написания определенных языков, таких как казах, функция обнаружения языка возвращает имя скрипта и код скрипта в соответствии со стандартом ISO 15924 для ограниченного набора скриптов.
  • Служба поддерживает обнаружение языка текста только в случае, если текст находится в родном письме. Например, Pinyin не поддерживается для китайского языка и Franco-Arabic не поддерживается для арабского языка.
  • Из-за неизвестных пробелов в наших обучающих данных некоторые диалекты и разновидности языка, менее представленные в веб-данных, могут быть неправильно распознаны.

См. также