Поделиться через


Анализ документов

Синтаксический анализ документов использует современные методы исследования для извлечения и визуализации структурированных данных из широкого спектра типов документов, включая, но не ограничивается PDF, изображениями, Word документами (DOC/DOCX) и PowerPoint файлами (PPT/PPTX). Он предназначен для обработки сложных макетов, таких как таблицы, диаграммы и содержимое смешанного текста.

Синтаксический анализ документов основан на ai_parse_document функции и включает пользовательский интерфейс, позволяющий анализировать документы и немедленно проверять их структуру с помощью форматированных текстовых или структурированных выходных данных JSON.

Требования

Анализ документов

Используйте синтаксический анализ документов, чтобы проанализировать документы и визуализировать их структуру.

  1. Перейдите к значку Агенты в левой панели навигации вашего рабочего пространства.
  2. Нажмите Создать агента>Анализ документа.
  3. Выберите исходный документ. Вы можете загрузить файл или выбрать его из существующего каталога Unity Catalog. Поддерживаемые форматы: PDF, изображения, DOC/DOCX и PPT/PPTX.
  4. Щелкните Разобрать документ.

Анализ документа может занять несколько минут. По завершении синтаксический анализ документов отображает исходный документ слева и проанализированный документ справа. Вы можете просмотреть проанализированный документ как форматированный текст или необработанный JSON.

Пользовательский интерфейс синтаксического анализа документов, показывающий исходный и проанализированный документ параллельно

Результаты обработки и запроса

Чтобы просмотреть ai_parse_document запрос и запустить его в дополнительных документах, нажмите кнопку "Использовать агент " и выберите команду "Выполнить запрос" из редактора SQL или записной книжки. Запрос можно изменить, чтобы указать том или таблицу, в которых хранятся документы.

Document Parsing предоставляет интерфейс для функции ai_parse_document SQL. Дополнительные примеры и сведения см. на ai_parse_document странице справки.

Ограничения

Смотрите ai_parse_document ограничения.