Поделиться через


Форматы данных, поддерживаемые в Azure Data Explorer для приема

Приемом данных называется процесс, при котором данные добавляются в таблицу и становятся доступными для запросов в Azure Data Explorer. Для всех методов приема, кроме приема по запросу, данные необходимо преобразовать в один из поддерживаемых форматов. В следующей таблице перечислены и описаны форматы, которые служба Azure Data Explorer поддерживает для приема данных.

Примечание.

Перед приемом данных убедитесь, что данные правильно отформатированы и определяют ожидаемые поля. Чтобы подтвердить правильность формата, рекомендуется использовать ваш предпочтительный валидатор. Например, можно найти следующие проверяющие элементы, полезные для проверки CSV-файлов или JSON:

Дополнительные сведения о том, почему может произойти сбой приема, см. в разделе Сбои приема и Коды ошибок приема в Azure Data Explorer.

Формат Расширение Описание
Avro .avro Формат файла Avro . Поддерживаемые кодеки сжатия: snappy, zstandardbzip и xz. Реализация формата чтения avro основана на официальной библиотеке Apache Avro. Дополнительные сведения о поглощении файлов Avro из Центров событий см. в разделе "Поглощение файлов Avro из Центров событий".
AzMonStream N/A Azure Monitor экспортирует данные в этом формате в Центры событий Azure. Этот формат поддерживается только Центрами событий Azure.
CSV .csv Текстовый файл, содержащий значения с разделителями-запятыми (,). См. RFC 4180: Общий формат и тип MIME для файлов в формате значений, разделенных запятой (CSV).
JSON .json Текстовый файл с объектами JSON, разделенными символами \n или \r\n. См. JSON Lines (JSONL).
MultiJSON .multijson Текстовый файл с массивом JSON пакетов свойств (каждый из которых представляет запись), или любое количество пакетов свойств, разделённых пробелами, \n, или \r\n. Каждый контейнер свойств может распределяться по нескольким строкам
ORC .orc Файл ORC.
Паркет .parquet Файл Parquet.
PSV .psv Текстовый файл, содержащий значения, разделенные вертикальной чертой (|).
НЕОБРАБОТАННЫЕ .raw Текстовый файл, все содержимое которого является одним строковым значением.
SCsv .scsv Текстовый файл, содержащий значения, разделенные символами точки с запятой (;).
SOHsv .sohsv Текстовый файл, содержащий значения, разделенные символами SOH (Start of Header). (Символ ASCII Начало Заголовка (SOH) соответствует кодовой точке 1; этот формат используется Hive в HDInsight.)
TSV .tsv Текстовый файл с значениями, разделёнными табуляцией (\t).
TSVE .tsv Текстовый файл с значениями, разделёнными табуляцией (\t). Для экранирования используется символ обратной косой черты (\).
TXT .txt Текстовый файл, строки в котором разделены символами \n. Пустые строки пропускаются.
W3CLOGFILE .log Формат файла веб-журнала, стандартизированный W3C.

Примечание.

  • Прием из систем хранения данных, которые предоставляют функциональные возможности ACID поверх обычных файлов формата Parquet (например, Apache Iceberg, Apache Hudi, Delta Lake), не поддерживается.

  • Avro без схемы не поддерживается.

  • Дополнительные сведения о получении данных в форматах json или multijson, см. в этой статье.

Поддерживаемые форматы сжатия данных

BLOB-объекты и файлы можно при желании сжать с помощью любого из следующих алгоритмов:

Сжатие Расширение
gzip .gz
ZIP-архив .zip

Укажите сжатие, добавив расширение в имя BLOB-объекта или файла.

Например:

  • MyData.csv.zip указывает на большой двоичный объект или файл, отформатированный как CSV, сжатый с помощью zip (в архиве или в отдельный файл)
  • MyData.json.gz указывает большой двоичный объект или файл в формате JSON, сжатый с помощью gGzip.

Также поддерживаются имена BLOB-объектов или файлов, которые не включают расширение формата, а только указывают на сжатие (например, MyData.zip). В этом случае формат файла должен быть указан в качестве свойства загрузки, так как он не может быть определён.

Примечание.

  • Некоторые форматы сжатия сохраняют исходное расширение файла в потоке сжатых данных. Эти сведения о расширении обычно игнорируются при определении формата файла. Если формат файла нельзя определить по сжатому blob-объекту или имени файла, его нужно указать через свойство загрузки format.
  • Не следует путать с внутренним кодеком сжатия (уровень блока), используемым в форматах Parquet, AVRO и ORC. Внутреннее имя сжатия обычно добавляется к имени файла перед расширением формата файла, например: file1.gz.parquet, file1.snappy.avro и т. д.
  • Метод ZIP-сжатия Deflate64/Enhanced Deflate не поддерживается. Встроенный zip-компрессор Windows может использовать этот метод сжатия для файлов размером более 2 ГБ.