Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в общедоступной предварительной версии.
На этой странице описывается, что такое обнаружение аномалий, то, что он отслеживает, и как его использовать.
Это важно
Обнаружение аномалий использует хранилище по умолчанию для хранения результатов сканирования в системной system.data_quality_monitoring.table_results таблице. Плата за это хранилище не взимается.
Что такое обнаружение аномалий?
Обнаружение аномалий позволяет отслеживать качество данных во всех таблицах схемы. Анализируя исторические шаблоны, Azure Databricks автоматически оценивает полноту и свежесть каждой таблицы. Результаты доступны в обозревателе каталогов.
Требования
- Рабочая область с включенной поддержкой каталога Unity.
- Бессерверные вычисления должны быть доступны в рабочей области (включена по умолчанию в рабочих областях с каталогом Unity).
- Чтобы включить обнаружение аномалий в схеме, необходимо иметь права MANAGE SCHEMA или MANAGE CATALOG в схеме каталога.
- Чтобы просмотреть состояние индикатора работоспособности таблиц, вам потребуются SELECT или ОБЗОР привилегии.
Как работает обнаружение аномалий?
Azure Databricks создает фоновое задание, которое отслеживает таблицы на актуальность и полноту.
Свежесть означает то, как недавно была обновлена таблица. Мониторинг качества данных анализирует журнал фиксаций в таблице и создает модель для каждой таблицы для прогнозирования времени следующей фиксации. Если фиксация необъяснимо задерживается, таблица помечается как устаревшая.
Completeness означает количество строк, которые ожидается записать в таблицу за последние 24 часа. Мониторинг качества данных анализирует количество исторических строк и на основе этих данных прогнозирует диапазон ожидаемых строк. Если количество строк, зафиксированных за последние 24 часа, меньше нижней границы этого диапазона, таблица отмечается как неполная.
Azure Databricks использует интеллектуальное сканирование для автоматизации частот сканирования таблиц. Интеллектуальное сканирование определяет таблицы с высоким влиянием, определяемым популярностью и последующим использованием, и снижает частоту для менее важных таблиц. Чтобы вручную исключить таблицы, используйте API создания монитора или обновления API монитора и укажите исключенные таблицы в параметре excluded_table_full_names . Дополнительные сведения см. в документации по API.
Обнаружение аномалий не изменяет какие-либо таблицы, которые он отслеживает, и не добавляет накладные расходы на любые задания, заполняющие эти таблицы.
Замечание
Свежесть мероприятий, основанная на временных столбцах событий и задержках их обработки, была доступна только пользователям бета-версии функции мониторинга качества данных. В текущей версии свежесть событий не поддерживается.
Процент null для полноты данных
Это важно
Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. Управление предварительными версиями Azure Databricks.
Процент NULL добавляет дополнительные сведения о качестве к полноте. Процент NULL — это процент строк, записанных в таблицу за последние 24 часа, которые должны иметь значения NULL для заданного столбца. Мониторинг качества данных анализирует историческую тенденцию для каждого столбца и на основе этих данных прогнозирует диапазон. Если процент null для столбца за последние 24 часа превышает верхнюю границу этого диапазона, таблица помечается как неполная.
Включение обнаружения аномалий в схеме
Чтобы включить обнаружение аномалий в схеме, перейдите к схеме в каталоге Unity.
На странице схемы щелкните вкладку Подробности.
Нажмите кнопку "Включить". В диалоговом окне "Мониторинг качества данных " убедитесь, что обнаружение аномалий включено, а затем нажмите кнопку "Сохранить".
Запущено сканирование. Databricks автоматически сканирует каждую таблицу с той же частотой, с которой обновляются данные, предоставляя актуальные сведения без необходимости ручной настройки для каждой таблицы. Для схем, включенных до 24 сентября 2025 года, Databricks запустил монитор по историческим данным ("backtesting") для первой проверки, чтобы проверить качество таблиц, как если бы мониторинг качества данных был включен в схеме два недели назад.
После завершения сканирования можно просмотреть результаты обнаружения аномалий для таблиц следующими способами:
- Индикаторы работоспособности отображаются в обозревателе каталогов для каждой таблицы в схеме. См. показатели здоровья.
- На вкладке "Сведения" схемы с включенным мониторингом качества данных щелкните "Просмотреть результаты" и просмотрите результаты мониторинга качества данных. См. результаты мониторинга качества данных в пользовательском интерфейсе.
- Обнаруженные проблемы с качеством регистрируются в выходной системной таблице. Просмотрите результаты обнаружения аномалий, зарегистрированных в журнале.
Отключение обнаружения аномалий
Чтобы отключить обнаружение аномалий:
Щелкните значок карандаша.
В диалоговом окне "Мониторинг качества данных" щелкните переключатель.
Это важно
При отключении обнаружения аномалий задание обнаружения аномалий и все таблицы обнаружения аномалий и сведения удаляются. Это действие не может быть отменено.
Нажмите кнопку Сохранить.
Индикаторы здоровья
После включения обнаружения аномалий в схеме индикаторы работоспособности отображаются на страницах обзора схемы и таблицы в обозревателе каталогов. Индикатор работоспособности отображает сводку о работоспособности таблицы для потребителей данных и бизнес-пользователей, не требуя перехода к пользовательскому интерфейсу мониторинга качества данных. Пользователям требуется разрешение SELECT или BROWSE для просмотра статуса индикатора состояния системы.
В следующей таблице описывается состояние каждого индикатора работоспособности:
| Статус | Описание |
|---|---|
| Healthy | Все проверки обнаружения аномалий прошли при последнем сканировании. |
| Нездоровый | Одна или несколько проверок обнаружили аномалию, например проблему свежести или полноты. |
| Обучение | Обнаружение аномалий создает базовую модель из исторических данных. Новоотслеживаемые таблицы отображают это состояние до тех пор, пока модель не наберет достаточно данных для оценки качества. |
| Error | При обнаружении аномалий произошла ошибка во время мониторинга этой таблицы. |
| Исключено | Таблица не учитывается при обнаружении аномалий. |
| Не включено | Обнаружение аномалий не включено в схеме, содержащей эту таблицу. |
Замечание
Умное сканирование может отложить заполнение показателей здоровья для некоторых таблиц до двух недель, если таблица была пропущена во время первоначального сканирования. Индикатор состояния обновляется при следующем запланированном повторном сканировании.
Просмотр результатов мониторинга качества данных в пользовательском интерфейсе
Это важно
7 октября 2025 года Databricks выпустила новую версию пользовательского интерфейса мониторинга качества данных. Схемы, активированные для мониторинга качества данных с этой даты или после неё, автоматически используют новый пользовательский интерфейс. В этом разделе описывается последняя версия пользовательского интерфейса.
Сведения о устаревшем пользовательском интерфейсе см. на панели мониторинга качества данных (устаревшая версия).
Databricks рекомендует включить новую версию для всех существующих схем.
Чтобы включить новую версию, щелкните переключатель "Мониторинг качества данных ", чтобы отключить функцию, а затем снова нажмите, чтобы включить ее.
После включения мониторинга качества данных на схеме можно открыть страницу результатов, щелкнув "Просмотреть результаты". Вы также можете получить доступ к результатам из всех схем, в которых включен мониторинг в обозревателе каталогов.
Пользовательский интерфейс результатов содержит выпадающие списки для каталогов и схем. При выборе каталога раскрывающийся список схемы заполняется схемами в этом каталоге с включенным мониторингом качества данных.
Если у вас есть права управления или SELECT привилегии в каталоге, вы можете просматривать инциденты на уровне каталога. Чтобы просмотреть все инциденты в каталоге, выберите "Все схемы " в раскрывающемся меню "Схема ".
Чтобы просмотреть инциденты для конкретной схемы, необходимо также иметь права УПРАВЛЕНИЯ или SELECT привилегии в этой схеме. При выборе схемы отображаются инциденты только для этой схемы.
На странице результатов показан сводный раздел в верхней части экрана, в котором отображается общее качество данных для выбранной области, включая процент работоспособных таблиц и процент отслеживаемых схем или таблиц. Ниже приведен список инцидентов во всех наблюдаемых таблицах в выбранном диапазоне. Используйте кнопки для отображения таблиц нездоровых, здоровых или ошибок.
В следующей таблице описываются столбцы, которые немного отличаются в зависимости от того, выберете ли вы Нездорового, Здорового или Ошибку.
| колонна | Описание |
|---|---|
| Статус |
Healthy, Unhealthy или Training. |
| Первое обнаружение | При обнаружении первого инцидента. Отображается только на вкладке "Неработоспособная". |
| Последнее сканирование | После последнего сканирования таблицы. Отображается только на вкладке «Здоровье». |
| Причина | Является ли таблица имеющей проблемы из-за недостаточной свежести или полноты. Отображается только на вкладке "Неработоспособная". |
| Первопричина | Сведения о вышестоящих заданиях, влияющих на проблему (дополнительные сведения см. в разделе "Просмотр результатов обнаружения аномалий ". Отображается только на вкладке "Неработоспособная". |
| Влияние | Качественный показатель влияния нижнего потока (высокий, средний или низкий) на основе числа затронутых нижестоящих таблиц и запросов. |
| Частота сканирования | Как часто таблица была сканирована на прошлой неделе. |
| Results | Ссылка на страницу качества таблицы , в которой можно просмотреть исторические тенденции и визуализации, объясняющие, почему обнаружена аномалия. |
| Состояние ошибки | Сообщение об ошибке. Отображается только на вкладке "Ошибка ". |
| Сведения | Сведения об сообщении об ошибке. Отображается только на вкладке "Ошибка ". |
Просмотр результатов на уровне хранилища метаданных
В этом разделе представлен шаблон, который можно импортировать в рабочую область. Этот шаблон создает панель мониторинга, которая позволяет просматривать все результаты качества в хранилище метаданных.
Чтобы использовать этот шаблон, необходимо иметь доступ к system.data_quality_monitoring.table_results таблице. По умолчанию доступ к этой таблице имеют только администраторы учетных записей. Они могут предоставлять доступ другим пользователям по мере необходимости.
Использование шаблона
Выполните следующие действия:
- Скачайте файл шаблона: metastore-quality-dashboard.lvdash.json.
- На боковой панели рабочей области щелкните
панели мониторинга. - В правом верхнем углу выберите "Импорт панели мониторинга" из файла в раскрывающемся меню "Создание панели мониторинга ".
- В диалоговом окне щелкните "Выбрать файл", перейдите к файлу шаблона и щелкните " Импортировать панель мониторинга".
Файл импортируется и отображается панель мониторинга.
Сведения о качестве таблицы
Пользовательский интерфейс сведений о качестве таблицы позволяет глубже разобраться в тенденциях и понять, почему аномалии были обнаружены для определенных таблиц в схеме. Вы можете получить доступ к этому представлению несколькими способами:
- В пользовательском интерфейсе результатов (новый интерфейс) щелкните ссылку проверки в списке инцидентов.
- На панели мониторинга (устаревшая панель мониторинга Lakeview) щелкните имя таблицы на вкладке "Обзор качества".
- В средстве просмотра таблиц UC перейдите на вкладку "Качество " на странице таблицы.
Все параметры позволяют получить одно и то же представление сведений о качестве таблицы для выбранной таблицы.
В таблице пользовательский интерфейс отображает сводки из каждой проверки качества таблицы с графами прогнозируемых и наблюдаемых значений при каждой метке времени оценки. Графики отображают результаты за последние 1 неделю данных.
Если таблица не прошла проверку качества, пользовательский интерфейс также отображает все вышестоящие задания, которые были идентифицированы как первопричина.
Настройка оповещений
Чтобы настроить оповещение Databricks SQL в таблице результатов вывода, ознакомьтесь с оповещениями об обнаружении аномалий.
Ограничения
- Обнаружение аномалий не поддерживает представления или внешние таблицы.
- Определение полноты не учитывает такие метрики, как доля нулевых значений, значений ноль или NaN.
Обнаружение устаревших аномалий
В следующих разделах рассматриваются две устаревшие функции: панель мониторинга качества данных и конфигурация задания обнаружения аномалий. Текущая версия обнаружения аномалий не включает эти функции. Панель мониторинга заменена пользовательским интерфейсом результатов мониторинга качества данных.
Панель мониторинга качества данных (устаревшая версия)
Панель мониторинга качества данных (устаревшая версия)
Замечание
Панель мониторинга качества данных доступна только устаревшим пользователям. В текущей версии используйте просмотр результатов мониторинга качества данных в пользовательском интерфейсе.
Первый запуск монитора качества данных создает информационную панель для суммирования результатов и тенденций, полученных из таблицы ведения журнала. Панель мониторинга автоматически заполняется аналитическими сведениями для сканированной схемы. В этом адресе /Shared/Databricks Quality Monitoring/Data Quality Monitoring для каждого пространства создается одна панель управления.
Обзор качества
На вкладке "Обзор качества" отображается сводка о состоянии последних состояний таблиц в схеме на основе последней оценки.
Чтобы приступить к работе, необходимо ввести таблицу ведения журнала для схемы, которую необходимо проанализировать, чтобы заполнить панель мониторинга.
В верхней части панели мониторинга показан обзор результатов сканирования.
Под сводкой находится таблица, перечисляющая инциденты качества по степени влияния. Все выявленные первопричины отображаются в столбце root_cause_analysis .
Под таблицей инцидентов качества находится таблица определенных статических таблиц, которые не были обновлены в течение длительного времени.
Задайте параметры для оценки свежести и полноты (устаревшая версия)
Задайте параметры для оценки свежести и полноты (устаревшая версия)
Замечание
Начиная с 21 июля 2025 г. конфигурация параметров задания не поддерживается для новых клиентов. Если необходимо настроить параметры задания, обратитесь в Databricks.
Чтобы изменить параметры, управляющие заданием, например частоту выполнения задания или имя таблицы результатов журнала, необходимо изменить параметры задания на вкладке "Задачи " страницы задания.
В следующих разделах описаны конкретные настройки. Для получения информации о том, как настроить параметры задачи, смотрите Configure task parameters.
Расписание и уведомления (устаревшая версия)
Чтобы настроить расписание задания или настроить уведомления, используйте параметры расписания и триггеров на странице заданий. См. статью "Автоматизация заданий с расписаниями и триггерами".
Имя таблицы логирования (устаревшая версия)
Чтобы изменить название таблицы регистрации или сохранить таблицу в другой схеме, отредактируйте параметр задания logging_table_name и укажите желаемое название. Чтобы сохранить таблицу журналов в другой схеме, укажите полное имя из 3 уровней.
Настройте freshness и completeness оценки (устаревшая версия)
Все параметры в этом разделе являются необязательными. По умолчанию обнаружение аномалий определяет пороговые значения на основе анализа журнала таблицы.
Эти параметры являются полями внутри параметра задачи metric_configs. Формат metric_configs – это строка JSON со следующими значениями по умолчанию:
[
{
"disable_check": false,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"table_latency_threshold_overrides": null,
"static_table_threshold_override": null,
"event_timestamp_col_names": null,
"metric_type": "FreshnessConfig"
},
{
"disable_check": true,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"metric_type": "CompletenessConfig"
}
]
Следующие параметры могут быть использованы для обеих оценок freshness и completeness.
| Имя поля | Описание | Пример |
|---|---|---|
tables_to_scan |
Сканируются только указанные таблицы. | ["table_to_scan", "another_table_to_scan"] |
tables_to_skip |
Указанные таблицы пропускаются во время сканирования. | ["table_to_skip"] |
disable_check |
Сканирование не выполняется. Используйте этот параметр, если вы хотите отключить только сканирование freshness или только сканирование completeness. |
true, false |
Следующие параметры применяются только к оценке freshness.
| Имя поля | Описание | Пример |
|---|---|---|
event_timestamp_col_names |
Список таблиц с колонками временных меток, которые могут присутствовать в вашей схеме. Если в таблице есть один из этих столбцов, она отмечается как Unhealthy, если максимальное значение этого столбца превышено. Использование этого параметра может увеличить время оценки и затраты. |
["timestamp", "date"] |
table_threshold_overrides |
Словарь, состоящий из названий таблиц и пороговых значений (в секундах), которые определяют максимальный интервал с момента последнего обновления таблицы, после которого таблица маркируется как Unhealthy. |
{"table_0": 86400} |
table_latency_threshold_overrides |
Словарь, состоящий из имен таблиц и пороговых значений задержки (в секундах), которые определяют максимальный интервал с момента последней временной метки в таблице до пометки таблицы как Unhealthy. |
{"table_1": 3600} |
static_table_threshold_override |
Продолжительность времени (в секундах) до того момента, когда таблица считается статической (то есть больше не обновляется). | 2592000 |
Следующий параметр применяется только к оценке completeness:
| Имя поля | Описание | Пример |
|---|---|---|
table_threshold_overrides |
Словарь, состоящий из названий таблиц и пороговых значений объёмов строк, указанных в виде целых чисел. Если количество строк, добавленных в таблицу за последние 24 часа, меньше указанного порога, таблица помечается Unhealthy. |
{"table_0": 1000} |