Azure AI 视频索引器概述

Azure AI 视频索引器是一种全面的 AI 解决方案，使组织能够从视频（实时和上传）和音频内容中提取深入见解。它使用高级机器学习和生成 AI 模型，并支持各种功能，包括听录、翻译、对象检测和视频摘要。为提高灵活性，视频索引器可以在云中使用，也可以通过 Azure Arc 部署到边缘位置，因此可以选择最适合运营和合规性需求的部署模型。

视频索引器提供两种使用选项：作为 Azure Arc 扩展 或 基于云的 Web 应用程序。这些产品/服务并不相同。它们的功能不同、支持的视频源和可用的 AI 模型。

继续阅读以查找最适合你的需求的选项。

Azure AI 视频索引器的选项示意图。

绿色框表示 Azure Arc 启用的视频索引器中提供的功能。

Azure Arc 启用的视频索引器

已启用 Arc 的 Azure AI 视频索引器是一项已启用 Azure Arc 扩展的服务，可在边缘设备上运行视频和音频分析和生成 AI 。此混合部署模型通过已启用 Azure Arc 的 Kubernetes 群集将 VI 的功能扩展到边缘环境。该解决方案在 Azure 本地上进行了验证，但与任何 Kubernetes 基础结构兼容。它支持上传的视频流和实时视频流，直接在数据源上启用实时分析。你可以创建支持两种视频类型或仅支持一种视频类型的 Arc 扩展。请记住，可用的 AI 见解因所选视频类型而异。此模型特别适用于具有严格数据驻留要求或低延迟运营需求的行业。

实时视频流

使你能够从实时视频片段中提取实时见解，使你可以根据特定需求自定义分析。可以直接在视频流上查看实时信息，其中边界框突出显示检测到的对象。还可以将流和见解另存为文件。你可以上传和索引外部媒体文件。使用 Azure AI 视频索引器，可以为录制的视频片段段生成简洁的摘要，帮助你快速赶上关键事件，而无需观看整个视频。

若要开始使用 Arc 启用的 Azure AI 视频索引器提取见解，请在 Arc 启用的 Azure AI 视频索引器应用程序中注册。有关详细信息，请参阅什么是由 Arc 启用的 Azure AI 视频索引器？

已上传的视频

使你能够分析视频和音频内容并提取有意义的见解。它使用多模式生成 AI 模型，并可以生成视频内容的丰富文本摘要，从而提高可发现性。

基于云的视频索引器

Azure AI 视频索引器是 Azure AI 服务的一部分的云应用程序。它基于人脸、翻译器、Azure AI 视觉和语音等 Azure AI 服务构建。借助 Azure AI 视频索引器，可以使用视频和音频模型从视频中提取见解。

Azure AI 视频索引器通过运行 30 多个 AI 模型来分析视频和音频内容。它生成丰富的见解。下图显示了 Azure AI 视频索引器在后台执行的音频和视频分析：

若要开始使用 Azure AI 视频索引器提取见解，请参阅如何开始部分。

我可以使用 Azure AI 视频索引器执行哪些操作？

可以在各种场景中使用由 Azure Arc 启用的视频索引器和基于云的视频索引器。以下部分介绍每个选项的方案。

Azure Arc 启用的视频索引器

实时视频流

可以将实时分析中心的AI视频服务与摄像头实时直播集成，以使用基于AI的不同位置检测。此服务分析实时和录制的视频，将原始镜头转换为可作的见解。

零售 - 优化商店布局并提高客户体验和安全性。通过实时分析，可以实时监视结帐行中的客户数量，帮助零售商立即采取行动，优化人员配备并减少等待时间。
制造 - 通过视频分析确保质量控制和工人安全。例如，不戴防护装备的工人，这需要实时检测关键事件并在视频流中查找特定时刻。
现代安全 - 检测和识别安全性与安全问题，在它们造成风险之前。

已上传的视频

数据管理 – 将 AI 引入内容，而不是相反。当由于以下原因，无法将索引内容从本地移动到云时，请使用 Arc 启用的 Azure AI 视频索引器：
- 法规。
- 体系结构决策。
- 数据存储过于庞大，极大增加了直接迁移的工作量。
本地工作流 – 索引过程是本地工作流的一部分，并且想要降低影响流的索引持续时间延迟。
预编制索引 – 在将内容上传到云之前，需要编制索引。为了清楚起见，可以预分配本地视频或音频存档，然后仅将其上传到云中的标准索引或高级索引。

基于云的视频索引器

可以将 Azure AI 视频索引器的见解应用于许多方案：

深入搜索：若要增强视频库中的搜索体验，请使用从视频中提取的见解。例如，对所说内容和人脸进行索引，可以实现在视频中查找特定瞬间的搜索体验，例如，查找视频中某个人说出某些话时刻，或者看到两个人出现在一起的时刻。根据视频中的此类见解进行的搜索，适用于新闻机构、教育机构、广播公司、娱乐内容所有者、企业 LOB 应用。一般来说，它适用于拥有视频库、用户需要对照搜索的任何行业。
内容创建：根据 Azure AI 视频索引器从你的内容中提取的见解，创建预告片、亮点片段、社交媒体内容或新闻剪辑。人物和标签外观的关键帧、场景标记和时间戳使创建过程更顺畅、更简单，让你能够在创建内容时轻松访问所需的视频部分。
辅助功能：无论你是想将内容提供给残障人士使用，还是要使用不同的语言将内容分发到不同地区，你都可以使用 Azure AI 视频索引器提供多种语言的转录和翻译。
盈利：Azure AI 视频索引器有助于提高视频的价值。例如，依赖广告收入（新闻媒体、社交媒体等）的行业可以通过将提取的见解用作广告服务器的其他信号来提供相关广告。
内容审核：使用文本和视觉内容审核模型可保护用户远离不当内容，并验证发布的内容是否与组织的价值观相符。你可以自动阻止某些视频，或向用户发出有关这些内容的警报。
建议：视频见解可以通过向用户重点显示相关视频瞬间来提高用户的参与度。通过用更多元数据标记每个视频，可以向用户推荐最相关的视频，并突出显示符合其需求的视频部分。

AI 功能

可以使用不同的 AI 功能（模型）从视频和音频文件中提取见解。以下部分介绍每个选项中可用的 AI 功能。

Azure Arc 启用的视频索引器

Arc 启用的 Azure AI 视频索引器支持上传视频文件的以下索引预设：

型号	基本视频	基本音频	基本视频和音频
转录		✔	✔
翻译		✔	✔
字幕		✔	✔
关键帧检测	✔		✔
对象检测	✔		✔
场景检测	✔		✔
镜头检测	✔		✔
Summarization	✔	✔	✔

对于实时视频流，可以创建自己的预设，包括：

第一方检测（人员、车辆）
自定义 AI 见解 - 使用自然语言或图像创建新的对象检测。有关详细信息，请参阅（指向新页面的链接）。

基于云的视频索引器

以下列表显示了可以使用 Azure AI 视频索引器视频和音频 AI 功能（模型）从视频和音频文件检索的见解。

注意

鉴于隐私和法规要求，其中一些功能受到限制供使用，需要授权才能充分利用。

除非另有说明，否则模型通常是可用的。

视频模型

人脸检测：检测和分组视频中显示的人脸。
名人识别：识别全球超过100万名人，如世界领导人、演员、艺术家、运动员、研究人员、商业和技术领袖。可以在 IMDB 和维基百科等各种网站上找到有关这些名人的数据。
基于帐户的人脸识别：为特定帐户训练模型。然后，根据已训练的模型识别视频中的人脸。有关详细信息，请参阅通过 Azure AI 视频索引器网站定制人员模型和使用 Azure AI 视频索引器 API 定制人员模型。
人脸缩略图提取：根据质量、大小和正面位置标识每组人脸中捕获的最佳人脸，并将其提取为图像资产。
光学字符识别（OCR）：从图片、街道标志和媒体文件中的产品等图像中提取文本，以创建见解。
视觉内容审核：检测成人和不雅图像。
标签识别：识别显示的视觉对象和动作。
场景分割：根据视觉提示确定视频中的场景何时发生了变化。一个场景描绘的是一个单一事件，由一系列在语义上相关的连续镜头组成。
镜头检测：根据视觉提示确定视频中的镜头何时发生了变化。镜头是指从同一台运动摄像机拍摄的一系列画面。有关详细信息，请参阅场景、镜头和关键帧。
黑帧检测：识别视频中的黑帧。
关键帧提取：检测视频中稳定的关键帧。
滚动字幕：识别电视节目和电影末尾的滚动字幕的开头和结尾。
编辑镜头类型检测：根据其类型标记镜头，如广角镜头，中景镜头，特写，大特写，双人镜头，多人镜头，户外和室内。有关详细信息，请参阅编辑镜头类型检测。
观察到的人检测：检测视频中观察到的人，并使用边界框提供人员在视频帧中的位置等信息，以及当人员出现时具有开始、结束和置信度的确切时间戳。有关详细信息，请参阅跟踪视频中观测到的人员。
- 匹配的人：将视频中观察到的人与检测到的相应人脸进行匹配。被观察人员与面孔之间的匹配包含置信度。
- 检测到的服装：检测视频中出现的服装类型，并提供长袖、短袖、长裤、短裤、裙子或连衣裙等信息。检测到的服装与穿着者相关联，并附有检测的开始和结束时间戳及置信度。
- 特色服装：捕获视频中出现的特色服装图像。你可以利用关于服装的洞察来改进定向广告。若要了解特色服装图像如何排序以及如何获取见解，请参阅特色服装。
对象检测：检测和跟踪唯一对象，以便在它们返回到画面时能够被识别。请参阅 Azure AI 视频索引器对象检测。
在使用高级索引选项为视频编制索引时，静态图像检测会识别以下影片后期制作见解：
- 使用元数据提取进行 Clapperboard 检测。
- 数字模式检测，包括色条。
- 无文本静态图像检测，包括场景匹配。
有关详细信息，请参阅静态图像检测。
文本徽标检测：使用 Azure AI 视频索引器 OCR 匹配特定的预定义文本。例如，如果用户创建了文本徽标： Microsoft，将检测单词 Microsoft 的不同外观作为 Microsoft 徽标。有关详细信息，请参阅检测文本徽标。

音频模型

音频听录：将语音转换为 50 多种语言的文本，并支持扩展。有关详细信息，请参阅 Azure AI 视频索引器语言支持。
自动语言检测：识别主要讲述语言。有关详细信息，请参阅 Azure AI 视频索引器语言支持。如果无法准确识别语言，Azure AI 视频索引器会假定所讲语言为英语。
多语言语音识别和听录：识别不同音频段中的口语。它会发送要转录的媒体文件的每个段，然后将听录合并成一个统一的听录。有关听录的详细信息，请参阅听录。
隐藏式字幕：以三种格式创建隐藏式字幕：VTT、TTML 和 SRT。
两个通道处理：自动检测单独的转录文本并将其合并到单个时间线中。
噪声消减：清理电话音频或有噪音的录制内容（基于 Skype 滤波器）。
脚本自定义 （CRIS）：训练自定义语音转文本模型以创建行业特定的脚本。有关详细信息，请参阅自定义语言模型。
说话人枚举：映射和了解哪个说话人在何时说了哪些话。可以在单个音频文件中检测到 16 个扬声器。
说话人统计信息：提供说话人发言比率的统计数据。
文本内容审核：检测音频脚本中的显式文本。
基于文本的情感检测：通过脚本分析检测情绪，如喜悦、悲伤、愤怒和恐惧。
翻译：使用许多不同的语言创建音频脚本的翻译。有关详细信息，请参阅 Azure AI 视频索引器语言支持。
音频效果检测：在内容的非音速片段中检测以下音频效果：警报或警笛、狗叫声、人群反应（欢呼、鼓掌和嘘声）、枪声或爆炸、笑声、破玻璃和沉默。

检测到的声学事件包含在隐藏式字幕文件中。可以从 Azure AI 视频索引器网站下载该文件。有关详细信息，请参阅音频效果检测。

注意

仅当上传文件时在上传预设中选择“高级音频分析”时，才可使用这一整套事件。默认情况下，仅检测到无声。

音频和视频模型（多通道）

按一个通道编制索引时，将获得这些模型的部分结果。

关键字提取：从语音和视觉文本中提取关键字。
命名实体提取：通过自然语言处理（NLP）从语音和视觉文本中提取品牌、位置和人员。
主题推理：提取基于各种关键字的主题（例如，关键字“Stock Exchange”和“Wall Street”生成主题“经济学”）。该模型使用三种不同的本体（IPTC、维基百科和视频索引器分层主题本体）。该模型使用文字转录（口语）、OCR 内容（视觉文本）以及通过视频索引器面部识别模型识别的视频中出现的名人。
工件：为每个模型提取一组丰富的更详细信息的工件。
情绪分析：在语音和视觉文本中识别积极、消极和中性情绪。

如何开始使用 Azure AI 视频索引器？

了解如何开始使用由 Azure Arc 启用的 Azure AI 视频索引器。

了解如何开始使用 Azure AI 视频索引器。

设置服务后，开始使用洞察并查看其他 操作指南。

合规性、隐私和安全性

注意

2020年6月11日，Microsoft宣布，在制定强有力的监管之前，它不会向美国的警察部门出售面部识别技术。因此，如果客户是美国警察部门，或客户允许美国警察部门使用 Azure AI 服务，或客户为美国警察部门使用此类服务，则这些客户不得使用此类服务中包含的人脸识别特性或功能（例如人脸或视频索引器）。

注意

为了支持我们的负责任 AI 原则，对人脸识别、自定义和名人识别功能的访问根据资格和使用标准受到限制。这些功能仅适用于Microsoft托管客户和合作伙伴。使用人脸识别引入表单来申请访问。

在使用 Azure AI 视频索引器时，必须遵守所有适用法律。不能以违反他人权利或可能对他人有害的方式使用 Azure AI 视频索引器或任何 Azure 服务。

将任何视频或图像上传到 Azure AI 视频索引器之前，必须拥有使用视频或图像的所有适当合法权利。在法律要求的情况下，你必须获得视频或图像中个人（如果有）的所有必要同意，才能在 Azure AI 视频索引器和 Azure 中使用、处理和存储其数据。某些司法管辖区可能会对某些类别的数据（如生物识别数据）的收集、联机处理和存储施加特殊的法律要求。在使用 Azure AI 视频索引器和 Azure 处理和存储受特殊法律要求约束的任何数据之前，必须确保使用符合可能适用于你和预期用途的所有此类法律要求。

若要了解 Azure AI 视频索引器中的合规性、隐私和安全性，请访问Microsoft 信任中心。对于Microsoft的隐私义务、数据处理和保留做法，包括如何删除数据、查看Microsoft的隐私声明、在线服务条款（“OST”）和数据处理附录（“DPA”）。通过使用 Azure AI 视频索引器，你同意受 OST、DPA 和隐私声明的约束。

反馈

此页面是否有帮助？

Last updated on 2025-11-18

通过

Azure AI 视频索引器概述

Azure Arc 启用的视频索引器

实时视频流

已上传的视频

基于云的视频索引器

我可以使用 Azure AI 视频索引器执行哪些操作？

Azure Arc 启用的视频索引器

基于云的视频索引器

AI 功能

Azure Arc 启用的视频索引器

基于云的视频索引器

视频模型

音频模型

音频和视频模型（多通道）

如何开始使用 Azure AI 视频索引器？

合规性、隐私和安全性

反馈

其他资源