Azure AI 视频索引器中的语言支持

本文介绍视频索引器的语言选项,并为每个选项提供语言支持列表。 它包括对视频索引器功能、翻译、语言标识、自定义和视频索引器网站语言设置的语言支持。

每个方案支持的语言

本部分介绍视频索引器语言选项,并包含每个选项支持的语言表。

Important

  • 使用 Azure 视频索引器编制索引时,列出的所有语言在通过 API 编制索引时都支持翻译。
  • 如果使用 Arc 启用的 Azure AI 视频索引器通过 Web 应用或 API 进行编制索引,则仅支持翻译为英语。

Column explanations

  • 支持的源语言 – 支持听录、翻译和搜索的媒体文件中使用的语言。

  • 语言标识 - 当使用语言标识 编制索引时,视频索引器是否可以自动检测语言。 若要了解详细信息,请参阅 使用 Azure AI 视频索引器自动识别口语语言识别 部分。

  • 自定义 (语言模型) - 在视频索引器中自定义语言模型时是否可以使用该语言。 若要了解详细信息,请参阅 Azure AI 视频索引器中的自定义语言模型。

  • 发音(语言模型) - 语言是否可用于创建发音数据集作为自定义语音模型的一部分。 若要了解详细信息,请参阅 使用 Azure AI 视频索引器自定义语音模型。

  • 网站翻译 – 使用 Azure AI 视频索引器网站时是否支持翻译语言。 在语言下拉菜单中选择翻译的语言。

    显示菜单项为下载、英语和查看的菜单的屏幕截图。将光标悬停在“英语”项上时显示工具提示,提示翻译设置为英语。

    以下见解已被翻译:

    • Transcript
    • Keywords
    • Topics
    • Labels
    • 框架模式(目前,仅限于希伯来语)

    使用翻译时,所有其他见解都以英语显示。

  • 网站语言 - 是否可以选择语言以在 Azure AI 视频索引器网站上使用。 选择“设置”图标,然后在“语言设置”下拉列表中选择语言。

    屏幕截图显示一个用户设置菜单,所有开关都已切换为“开”。

Language Code   Supported
源语言
Supported
源语言 (Arc)
Language
identification
Customization
(语言模型)
Pronunciation
(语言模型)
Website
Translation
Website
Language
Afrikaans af-ZA
Arabic (Israel) ar-IL
Arabic (Iraq) ar-IQ
Arabic (Jordan) ar-JO
Arabic (Kuwait) ar-KW
Arabic (Lebanon) ar-LB
Arabic (Oman) ar-OM
阿拉伯语(巴勒斯坦权力机构) ar-PS
Arabic (Qatar) ar-QA
阿拉伯语(沙特阿拉伯) ar-SA
阿拉伯语(阿拉伯联合酋长国) ar-AE
Arabic Egypt ar-EG
现代标准阿拉伯语(巴林) ar-BH
阿拉伯语(阿拉伯叙利亚共和国) ar-SY
Armenian hy-AM
Bengali bn-BD
Bosnian bs-Latn
Bulgarian bg-BG
Catalan ca-ES
中文(繁体粤语) zh-HK
Chinese (Simplified) zh-Hans
Chinese (Traditional) zh-Hant
Croatian hr-HR
Czech cs-CZ
Danish da-DK
Dutch nl-NL
English Australia en-AU
英语(英国) en-GB
英语(美国) en-US
Estonian et-EE
Fijian en-FJ
Filipino fil-PH
Finnish fi-FI
French fr-FR
French (Canada) fr-CA
German de-DE
Greek el-GR
Gujarati gu-IN
Haitian fr-HT
Hebrew he-IL
Hindi hi-IN
Hungarian hu-HU
Icelandic is-IS
Indonesian id-ID
Irish ga-IE
Italian it-IT
Japanese ja-JP
Kannada kn-IN
Kiswahili sw-KE
Korean ko-KR
Latvian lv-LV
Lithuanian lt-LT
Malagasy mg-MG
Malay ms-MY
Malayalam ml-IN
Maltese mt-MT
Norwegian nb-NO
Persian fa-IR
Polish pl-PL
Portuguese pt-BR
Portuguese (Portugal) pt-PT
Romanian ro-RO
Russian ru-RU
Samoan en-WS
Serbian (Cyrillic) sr-Cyrl-RS
Serbian (Latin) sr-Latn-RS
Slovak sk-SK
Slovenian sl-SI
Spanish es-ES
Spanish (Mexico) es-MX
Swedish sv-SE
Tamil ta-IN
Telugu te-IN
Thai th-TH
Tongan to-TO
Turkish tr-TR
Ukrainian uk-UA
Urdu ur-PK
Vietnamese vi-VN

通过 API 获取支持的语言

使用“获取支持的语言”API 调用来拉取每个区域支持的语言的完整列表。 有关详细信息,请参阅 “获取支持的语言”。

API 返回具有以下值的受支持语言的列表:

{
    "name": "Language",
    "languageCode": "Code",
    "isRightToLeft": true/false,
    "isSourceLanguage": true/false,
    "isAutoDetect": true/false
}
  • 支持的源语言:

    如果 isSourceLanguage 为 false,则该语言仅支持翻译。 如果 isSourceLanguage 为 true,则支持该语言作为听录、翻译和搜索的源。

  • 语言识别(自动检测):

    如果 isAutoDetect 为 true,则语言标识(LID)和多语言标识(MLID)支持该语言。

Language Identification

将媒体文件上传到视频索引器时,可以指定媒体文件的源语言。 如果通过视频索引器网站为文件编制索引,可以通过在文件上传过程中选择语言来完成。 如果要通过 API 提交索引作业,则使用语言参数完成该作业。 然后,使用所选语言生成文件的听录。

如果你不确定媒体文件的源语言,或者它可能包含多种语言,视频索引器可以检测口语。 如果为媒体文件的源语言选择自动检测单一语言(LID)或多语言(MLID),那么被检测到的语言将用于转录媒体文件。 若要了解有关 LID 和 MLID 的详细信息,请参阅使用 Azure AI 视频索引器自动识别口语,请参阅 使用语言识别模型 自动识别口语并 自动识别和转录多语言内容

在为 LID 和 MLID 编制媒体文件索引期间,允许识别 10 种语言。 以下是语言识别(LID)和多语言识别(MILD)的九种 默认 语言:

  • German (de-DE)
  • 英语(美国)(en-US)
  • Spanish (es-ES)
  • French (fr-FR)
  • Italian (it-IT)
  • Japanese (ja-JP)
  • Portuguese (pt-BR)
  • Russian (ru-RU)
  • 简体中文 (zh-Hans)

如何更改默认语言列表

如果需要使用默认未使用的语言进行标识,可以将列表自定义为支持通过网站或 API 进行自定义的任何 10 种语言:

使用网站更改列表

  1. 选择 “模型自定义”下的“语言 ID ”选项卡。 语言列表特定于你正在使用的视频索引器帐户以及登录用户。 默认语言列表将按用户保存在其本地设备上、每个设备和浏览器上。 因此,每个用户都可以配置自己的默认标识语言列表。

  2. 使用 “添加语言 ”搜索和添加更多语言。 如果已选择 10 种语言,必须先删除其中一种现有检测到的语言,然后再添加新语言。

    显示所有选定语言的表的屏幕截图。

使用 API 更改列表

上传文件时,视频索引器语言模型默认交叉引用九种语言。 如果存在匹配项,则模型使用检测到的语言为文件生成听录。

使用语言参数指定 multi (MLID) 或 auto (LID) 参数。 使用 customLanguages 参数指定最多 10 种语言。 (仅当语言参数设置为 multiauto.)若要了解有关使用 API 的详细信息,请参阅 使用 Azure AI 视频索引器 API