Поделиться через


Создание учетных данных хранилища для подключения к Azure Data Lake Storage

На этой странице описывается создание учетных данных хранения в каталоге Unity для подключения к Azure Data Lake Storage. Сведения о других вариантах облачного хранилища, поддерживаемых каталогом Unity, см. в разделе "Параметры облачного хранилища", поддерживаемые каталогом Unity.

Учетные данные хранилища содержат долгосрочные облачные учетные данные, предоставляющие доступ к облачному хранилищу. Вы используете данные доступа к хранилищу и путь к облачному хранилищу при создании внешних расположений в каталоге Unity для управления доступом к внешнему хранилищу.

Создайте учетные данные хранилища для доступа к Azure Data Lake Storage

Вы можете использовать управляемое удостоверение Azure или служебный принципал в качестве удостоверения для авторизации доступа к вашему контейнеру хранилища. Настоятельно рекомендуется использовать управляемые удостоверения. Они дают возможность Unity Catalog получать доступ к учетным записям хранения, защищенным сетевыми правилами (что невозможно с помощью служебных принципалов), и устраняют необходимость в управлении и смене секретных данных. Если вы хотите использовать учетную запись службы, см. статью «Создание управляемого хранилища Unity Catalog с помощью учетной записи службы (устаревшая версия)».

Требования

В Azure Databricks:

  • Рабочая область Azure Databricks, включена для использования каталога Unity.
  • CREATE STORAGE CREDENTIAL привилегии в хранилище метаданных каталога Unity, подключенном к рабочей области. Администраторы учетных записей и администраторы хранилища метаданных имеют эту привилегию по умолчанию.

В клиенте Azure:

  • Контейнер хранилища Azure Data Lake Storage. Чтобы избежать исходящих расходов, это должно находиться в том же регионе, что и рабочая область, из которой вы хотите получить доступ к данным.

    Учетная запись хранения Azure Data Lake Storage должна иметь иерархическое пространство имен.

  • Участник или владелец группы ресурсов Azure.

  • Владелец или пользователь с ролью администратора доступа пользователей Azure RBAC в учетной записи хранилища.

Создание учетных данных хранилища

  1. На портале Azure создайте коннектор доступа Azure Databricks и назначьте ему разрешения на контейнер хранилища, к которому вы хотите получить доступ, используя инструкции из Настройка управляемого удостоверения для каталога Unity.

    Соединитель доступа Azure Databricks — это сторонний ресурс Azure, который позволяет подключать управляемые удостоверения к учетной записи Azure Databricks. Чтобы добавить учетные данные хранилища, необходимо иметь роль Contributor или выше на ресурсе соединителя доступа в Azure.

    Запишите идентификатор ресурса соединителя доступа.

  2. Войдите в рабочую область Azure Databricks с поддержкой Unity Catalog в качестве пользователя, имеющего привилегии CREATE STORAGE CREDENTIAL.

    Роли администратора хранилища метаданных и администратора учетной записи включают эту привилегию.

  3. На боковой панели щелкните значок Каталог.

  4. Нажмите «Подключить»>«Учетные данные».

  5. Выберите "Создать учетные данные".

  6. Выберите учетные данные для хранилища.

  7. Выберите тип Credential TypeAzure Управляемое удостоверение.

  8. Введите имя для учетных данных и введите идентификатор ресурса соединителя доступа в формате:

    /subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
    
  9. (Необязательно) Если вы создали соединитель доступа с помощью управляемого удостоверения, назначенного пользователем, введите ID ресурса этого управляемого удостоверения в поле ID управляемого удостоверения, назначенного пользователем, в формате:

    /subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>
    
  10. (Необязательно) Если вы хотите предоставить пользователям доступ только для чтения к внешним расположениям, которые используют эти учетные данные хранения, выберите Только чтение. Дополнительные сведения см. в разделе "Пометить учетные данные хранилища как доступные только для чтения".

  11. Нажмите кнопку Создать.

  12. (Необязательно) Привязка учетных данных хранилища к определенным рабочим областям.

    По умолчанию любой привилегированный пользователь может использовать учетные данные хранения в любой рабочей области, подключенной к хранилищу метаданных. Если вы хотите разрешить доступ только из определенных рабочих областей, перейдите на вкладку "Рабочие области" и назначьте рабочие области. См. (необязательно) назначьте учетные данные хранилища конкретным рабочим областям.

  13. Создайте внешнее расположение, которое ссылается на эти учетные данные хранилища.

(Необязательно) Назначение учетных данных хранилища определенным рабочим областям

По умолчанию учетные данные хранения доступны во всех рабочих областях в метасторе. Это означает, что если пользователю предоставлена привилегия (например, CREATE EXTERNAL LOCATION) на эти учетные данные, они могут воспользоваться этой привилегией из любой рабочей области, подключенной к метахранилищу. Если вы используете рабочие области для изоляции доступа к данным пользователей, может потребоваться разрешить доступ к учетным данным хранилища только из определенных рабочих областей. Эта функция называется привязкой рабочей области или изоляцией учетных данных хранилища.

Типичный вариант использования привязки учетных данных хранилища к определенным рабочим областям заключается в сценарии, когда администратор облака настраивает учетные данные хранилища с использованием учетных данных облачной учетной записи для производственного окружения, и необходимо убедиться, что пользователи Azure Databricks используют эти учетные данные для создания внешних расположений только в производственной рабочей области.

Дополнительные сведения о привязке рабочей области см. в разделе (Необязательно) Назначение внешнего расположения определенным рабочим областям и Ограничение доступа к каталогу для определенных рабочих областей.

Примечание.

Привязки рабочей области используются при применении прав доступа к учетным данным хранилища. Например, если пользователь создает внешнее расположение с использованием учетных данных хранилища, привязка рабочей области к учетным данным хранилища проверяется только при создании внешнего расположения. После создания внешнего расположения оно будет функционировать независимо от привязок рабочей области, настроенных для учетной записи хранилища.

Привязка учетных данных хранилища к одной или нескольким рабочим областям

Чтобы назначить учетные данные хранилища определенным рабочим областям, можно использовать обозреватель каталогов или интерфейс командной строки Databricks.

Требуемые разрешения: администратор мета-хранилища, владелец учетных данных хранилища или MANAGE для учетных данных хранилища.

Примечание.

Администраторы хранилища метаданных могут видеть все учетные данные хранения в хранилище метаданных с помощью обозревателя каталогов, а владельцы учетных данных хранения могут видеть все учетные данные хранения, принадлежащие им в хранилище метаданных, независимо от того, назначены ли учетные данные хранения текущей рабочей области. Учетные данные хранения, которые не назначены рабочей области, отображаются серым цветом.

Обозреватель каталогов

  1. Войдите в рабочую область, связанную с хранилищем метаданных.

  2. На боковой панели щелкните значок Каталог.

  3. Нажмите «Подключить»>«Учетные данные».

  4. Выберите учетные данные хранилища и перейдите на вкладку "Рабочие области ".

  5. На вкладке "Рабочие области" снимите флажок "Все рабочие области имеют доступ".

    Если учетные данные хранилища уже привязаны к одной или нескольким рабочим областям, этот флажок уже снят.

  6. Нажмите Назначить рабочие области и введите или найдите рабочие области, которые вы хотите разместить.

Чтобы отменить доступ, перейдите на вкладку "Рабочие области" , выберите рабочую область и нажмите кнопку "Отозвать". Чтобы разрешить доступ из всех рабочих областей, установите флажок "Все рабочие области имеют доступ".

Интерфейс командной строки (CLI)

Существуют две группы команд Databricks CLI и два шага, необходимые для назначения учетных данных хранения рабочему пространству.

В следующих примерах замените <profile-name> именем профиля конфигурации проверки подлинности Azure Databricks. Он должен включать имя экземпляра рабочей области, идентификатор рабочей области, в которой вы создали персональный токен доступа, а также значение этого токена. См. аутентификацию по токену персонального доступа (устаревшая).

  1. Используйте команду storage-credentials из группы update для задания значения isolation mode учетных данных хранилища как ISOLATED:

    databricks storage-credentials update <my-storage-credential> \
    --isolation-mode ISOLATED \
    --profile <profile-name>
    

    Значение по умолчанию isolation-modeOPEN для всех рабочих областей, подключенных к хранилищу метаданных.

  2. workspace-bindings Используйте команду группы update-bindings команд, чтобы назначить рабочие области учетным данным хранилища:

    databricks workspace-bindings update-bindings storage-credential <my-storage-credential> \
    --json '{
      "add": [{"workspace_id": <workspace-id>}...],
      "remove": [{"workspace_id": <workspace-id>}...]
    }' --profile <profile-name>
    

    Используйте свойства "add" и "remove" для добавления или удаления привязок рабочей области.

    Примечание.

    Привязка только для чтения (BINDING_TYPE_READ_ONLY) недоступна для учетных данных хранения. Поэтому нет никаких причин для привязки учетных данных хранилища binding_type.

Чтобы вывести список всех назначений рабочих областей для учетных данных хранения, используйте workspace-bindings команду группы get-bindings команд:

databricks workspace-bindings get-bindings storage-credential <my-storage-credential> \
--profile <profile-name>

Отвязать учетные данные хранилища от рабочей области

Инструкции по отмене доступа к учетным данным хранилища с помощью обозревателя каталогов или workspace-bindings группы команд CLI включаются в привязку учетных данных хранилища к одной или нескольким рабочим областям.

Следующие шаги