Поделиться через


Управление данными с помощью Azure Databricks

Управление данными — это платформа политик, процессов, ролей и технических элементов управления, обеспечивающая безопасность, надежность и использование данных организации в течение всего жизненного цикла. Эффективное управление данными позволяет поддерживать качество данных, защищать конфиденциальную информацию, соответствовать нормативным требованиям и максимизировать ценность ресурсов данных.

К ключевым компонентам управления данными относятся:

  • Управление доступом и безопасность. Реализация точных разрешений и мер безопасности для защиты данных от несанкционированного доступа при включении соответствующего использования.
  • Происхождение данных и наблюдаемость: отслеживание потоков данных и преобразований для понимания источников данных, зависимостей и шаблонов использования.
  • Управление качеством данных: обеспечение точности, полноты, согласованности и надежности данных для принятия решений и аналитики.
  • Управление метаданными: захват и обслуживание сведений о ресурсах данных для улучшения возможности обнаружения и понимания.
  • Обеспечение соблюдения: соответствие нормативным требованиям и политике организации для обеспечения конфиденциальности данных, их хранения и использования.

Эта страница посвящена управлению данными с помощью каталога Unity в Azure Databricks. Связанные темы безопасности, такие как проверка подлинности, конфигурация сети, шифрование данных и соответствие конфиденциальности, рассматриваются в обзоребезопасности и соответствия требованиям.

Модель управления данными каталога Unity

Каталог Unity — это централизованный каталог данных, обеспечивающий управление структурированными и неструктурированными данными в нескольких форматах. Он предлагает точное управление доступом и управление ресурсами ИИ, такими как модели машинного обучения. Каталог Unity является открытым исходным кодом и поддерживает несколько платформ. Она глубоко интегрирована в Azure Databricks.

Каталог Unity — это полное решение для управления данными, которое предоставляет следующее:

  • Объединение данных: единое представление всех ресурсов данных и ИИ на разных платформах, сокращение дублирования и расползания.
  • Управление доступом к данным: средства для обеспечения доступности данных, но только для правильных пользователей.
  • Возможность обнаружения данных: средства, которые упрощают поиск необходимых данных.
  • Качество данных: средства для обеспечения точности, завершения, согласованности и защиты данных на протяжении всего жизненного цикла.
  • Совместная работа с данными и совместное использование: средства безопасного обмена данными не только внутри организации, но и между организационными и платформенными границами.
  • Аудит: средства, которые фиксируют, кто и как использует данные.

На этой странице объясняется, как ваша организация может соответствовать этим потребностям с помощью каталога Unity в Azure Databricks.

Управление доступом к данным

Чтобы убедиться, что пользователи получают доступ только к данным, каталог Unity предоставляет иерархическую модель привилегий, которая позволяет предоставлять пользователям, группам и субъектам-службам доступ к данным и ресурсам ИИ с уровня учетной записи до строк и столбцов таблицы. Вы можете управлять доступом к ресурсам, хранящимся в выделенном хранилище каталога Unity или хранящихся на других платформах, таких как облачное хранилище или системы баз данных: каталог Unity предоставляет пользователям возможность доступа ко всем вашим данным, независимо от того, где он находится, из Azure Databricks, и что каталог Unity управляет доступом и отслеживает их использование данных.

Задача Описание
Управление привилегиями Узнайте о защищаемых объектах, управляемых каталогом Unity, и о том, как управлять доступом к ним.
Управление доступом на основе атрибутов (ABAC) Узнайте, как управлять доступом к данным с помощью ABAC в каталоге Unity.
Управление идентификациями Узнайте, как управлять идентичностями в контексте Unity Catalog.
Детализированное управление доступом Узнайте, как управлять доступом к данным таблицы с помощью фильтров строк и маски столбцов.
Управление доступом к внешним хранилищам и платформам данных Узнайте, как управлять доступом к облачному хранилищу, внешним платформам данных и внешним службам, не являющихся данными, с помощью каталога Unity.
Управление доступом с внешних платформ Узнайте, как каталог Unity может управлять доступом к вашим данным с внешних платформ, использующих Apache Iceberg или API каталога Unity с открытым кодом.

Возможность обнаружения данных

Azure Databricks и каталог Unity предоставляют следующие средства, которые помогут пользователям найти необходимые данные:

Функция Описание
обозреватель каталогов Просмотрите и найдите ресурсы данных и ИИ с помощью имен активов и метаданных, таких как комментарии и теги.
Браузеры для каталогов Поиск данных и ресурсов ИИ с помощью браузеров, встроенных в редакторы записных книжек и SQL-запросов. См. Навигацию по записной книжке и редактору файлов Databricks и Составление запросов и исследование данных в новом редакторе SQL.
Комментарии, созданные ИИ Автоматическое создание документации по данным и ресурсам ИИ для упрощения обнаружения.
Аналитика таблиц Используйте пользовательский интерфейс, встроенный в обозреватель каталогов, для просмотра наиболее частых пользователей и запросов любой таблицы в каталоге Unity.
История данных (Происхождение данных) Управляйте и визуализируйте потоки данных в вашей организации.
Сведения о функциях и происхождении моделей см. в разделе "Управление функциями и происхождение".
Схемы связей сущностей (ERD) Отображение связей для таблиц с определенными внешними ключами.

См. также Обнаружение данных.

Мониторинг качества данных

Средства обеспечения качества данных и целостности данных глубоко интегрированы в Delta Lake, Apache Spark и Azure Databricks. Их можно узнать в документации по Azure Databricks.

Каталог Unity добавляет следующее:

Функция Описание
Мониторинг качества данных Мониторинг качества данных помогает обеспечить качество всех ресурсов данных в каталоге Unity. Он включает обнаружение аномалий для отслеживания качества данных всех таблиц в каталоге или схеме и профилировании данных для мониторинга статистических свойств и качества данных отдельной таблицы.
Сертифицированные и устаревшие системные теги (частная предварительная версия) Обозначьте объекты, которые можно защитить, например каталоги, схемы и таблицы, индикаторами качества данных или состояния жизненного цикла. Эти системные теги помогают организациям обеспечивать управление, улучшать возможности обнаружения данных и повышать доверие к аналитике и приложениям искусственного интеллекта.

Совместная работа и совместное использование данных

Каталог Unity позволяет пользователям совместно работать с одинаковыми данными во всех рабочих областях вашей учетной записи в одном регионе. Если требуется совместная работа между регионами рабочей области, между организациями и на разных платформах, каталог Unity предоставляет основу для следующих средств общего доступа.

Функция Описание
Дельта Шеринг Платформа безопасного обмена данными, которая позволяет совместно использовать ресурсы ИИ в Azure Databricks с пользователями за пределами вашей организации, независимо от того, используют ли эти пользователи Databricks или нет.
Чистые комнаты Управляемая среда Databricks, в которой несколько участников на платформах Databricks и не Databricks могут совместно работать над проектами, не делясь при этом базовыми данными друг с другом.
Databricks Marketplace Открытый форум для обмена данными и продуктами ИИ. Он также предоставляет частный обмен данными.

Аудита

Журналы аудита содержат подробные сведения о том, кто получил доступ к заданному набору данных и выполняемым им действиям. Каталог Unity добавляет системные таблицы, самый простой способ получить доступ к журналам аудита вашей учетной записи и запросить их.

См. справочник по журналам диагностики и справочник по системным таблицам.

Устаревшие средства управления данными Azure Databricks

Azure Databricks также предоставляет эти устаревшие функции управления. Databricks рекомендует использовать каталог Unity.

Функция Описание
управление доступом к таблице Устаревшая модель управления данными, которая позволяет программно предоставлять и отменять доступ к объектам, управляемым встроенным хранилищем метаданных Hive рабочей области.
Azure Data Lake Storage сквозная передача учетных данных Устаревшая функция управления данными, которая позволяет выполнять автоматическую проверку подлинности служба хранилища Azure из кластеров Azure Databricks с помощью того же удостоверения Microsoft Entra ID, который используется для входа в Azure Databricks.

Дальнейшие шаги