Поделиться через


Часто задаваемые вопросы о кластерах больших данных SQL Server

В этой статье приведены ответы на часто задаваемые вопросы о понятиях, возможностях, возможностях, развертывании, поддержке и средствах SQL Server.

Лучшие практики

Какие рекомендации рекомендуется использовать в отношении расположений файлов?

В этом отношении меньше гибкости по сравнению с настройкой SQL Server на компьютерах без операционной системы в Windows или Linux. В среде Kubernetes эти артефакты абстрагируются, и они должны быть переносимыми. В настоящее время существует 2 постоянных тома (PV) для данных и журналов, предоставляемых для каждого модуля pod, который можно настроить. Дополнительные сведения см. в статье о сохраняемости данных с кластером больших данных SQL Server в Kubernetes.

Нужно ли создавать резервные копии журналов транзакций в кластерах больших данных SQL Server?

Необходимо выполнять резервное копирование журналов только для пользовательских баз данных в главном экземпляре SQL Server (в зависимости от модели восстановления или конфигурации высокого уровня доступности). Базы данных пула данных используют только простую модель восстановления. Это же относится к базам данных DW*, созданным для PolyBase.

Как отслеживать, если распределенные запросы фактически используют пул вычислений?

Вы можете использовать существующие динамические административные представления PolyBase, которые были улучшены для сценариев кластера больших данных. Дополнительные сведения см. в разделе "Мониторинг и устранение неполадок PolyBase".

Можно ли настроить ресурсы кластера больших данных и управлять ими непосредственно с помощью kubectl на сервер API Kubernetes?

Хотя некоторые параметры можно изменить с помощью API Kubernetes или kubectl, он не поддерживается и не рекомендуется. Необходимо выполнить все операции управления кластерами больших данных с помощью azdata.

Как создать резервную копию данных, хранящихся в HDFS?

Вы можете использовать любые решения, которые позволяют создавать моментальные снимки хранилища на уровне оборудования или копировать или синхронизировать их с помощью webHDFS. Вы также можете использовать azdata bdc hdfs cp, чтобы узнать больше об azdata bdc hdfs.

Основные понятия и возможности

Существует ли способ "горизонтального масштабирования" хранимого proc? Например, если он выполняется в пуле вычислений?

Не в это время. Одним из вариантов является развертывание SQL Server в группе доступности AlwaysOn. Затем можно использовать доступные для чтения вторичные реплики для выполнения некоторых процессов (например, обучения и оценки машинного обучения, обслуживания и т. д.).

Как динамически масштабировать модули pod пула?

Это не поддерживаемый сценарий в настоящее время.

Можно ли создавать резервные копии внешних таблиц, хранящихся в пулах данных?

База данных в экземпляре пула данных не содержит метаданных о внешних таблицах. Она похожа на любую пользовательную базу данных. Вы можете выполнить резервное копирование и восстановление, но чтобы избежать несогласованных результатов, необходимо убедиться, что внешние метаданные таблицы в базе данных метаданных в экземпляре главного экземпляра SQL синхронизированы.

Обеспечивает ли пул данных сегментирование?

Пул данных — это концепция распределенной таблицы. Сегментирование обычно ссылается как на концепцию OLTP . В настоящее время это не поддерживается.

Когда следует использовать пул данных или пул носителей для необработанного хранилища данных?

Пул терминов зарезервирован для описания коллекции однородных служб или приложений. Например, пул данных — это набор вычислительных ресурсов SQL Server с отслеживанием состояния и хранилища, а пул носителей — это набор служб HDFS и Spark. Главный экземпляр SQL Server — это один экземпляр или несколько экземпляров, которые можно настроить в группе доступности. Главный экземпляр SQL Server — это обычный экземпляр SQL Server в Linux, и вы можете использовать любую функцию, доступную в Linux. Сначала следует начать с модели данных, сущностей и служб или приложений, которые будут работать в основном с сущностью. Все данные не должны храниться в одном месте, например SQL Server или HDFS или пуле данных. На основе анализа данных можно хранить большую часть данных в HDFS, обрабатывать данные в более эффективном формате и предоставлять другим службам. Оставшиеся данные будут храниться в экземпляре главного экземпляра SQL.

Поддерживает ли кластер больших данных SQL Server библиотеки глубокого обучения и вычисления на основе GPU (PyTorch, Keras, определенные библиотеки изображений и т. д.)?

Это не поддерживаемый сценарий в настоящее время.

Можно ли настроить несколько утверждений тома для пула?

Каждый модуль pod может иметь только два сохраняемых тома (PV). Вы можете абстрагирование тома на уровне ОС и использовать его для постоянного хранения. Например, можно создать раздел ОС RAID 0 с помощью нескольких дисков и использовать его для постоянного тома с помощью локального средства подготовки хранилища. Сегодня нет способа использовать больше PV на pod. PV сопоставляются с каталогами внутри контейнера, и это исправлено. Дополнительные сведения о сохраненных томах см. в документации по Kubernetes.

Если настроить несколько поставщиков и нескольких дисков, будет ли конфигурация HDFS обновлена со всеми утверждениями тома данных?

Пул носителей можно настроить для использования определенного класса хранилища во время развертывания. См. сведения о сохраняемости данных в кластере больших данных SQL Server в Kubernetes.

Каковы параметры доступа к хранилищу на основе Ceph?

Многоуровневый режим HDFS позволяет прозрачно интегрироваться с протоколами на основе S3. Дополнительные сведения см. в разделе "Подключение S3 для уровня HDFS" в кластере больших данных.

Сохраняются ли данные в HDFS после обновления?

Да, данные будут сохранены, так как они поддерживаются постоянными томами, и обновление просто развертывает существующие модули pod с новыми образами.

Как hdFS tiering управляет кэшем?

С помощью многоуровневого распределения HDFS данные кэшируются с локальным HDFS, работающим в кластере больших данных, чтобы пользователи могли подключаться к большим озерам данных, не имея необходимости ввести все данные. Доступно настраиваемое количество места, выделенного для кэша, который по умолчанию равен 2% сегодня. Данные сохраняются в кэше, но будут удалены, если это пороговое значение превышено. Безопасность также поддерживается из озера и применяются все списки управления доступом. Дополнительные сведения см. в разделе "Настройка уровня HDFS" в кластерах больших данных.

Можно ли использовать SQL Server 2019 для визуализации Azure Data Lake Store 2-го поколения? Будет ли эта интеграция заботиться о разрешении уровня папки?

Да, можно виртуализировать данные, хранящиеся в ADLS 2-го поколения, с помощью уровня HDFS. После подключения уровня HDFS к ADLS 2-го поколения пользователи получают возможность запрашивать данные HDFS и запускать с ним задания Spark. Подключенное хранилище появится в HDFS для кластера больших данных в расположении, указанном в пути --mount-path, и пользователи могут работать с этим путем подключения, как если бы работа с локальным хранилищем. Дополнительные сведения см. здесь: настройка уровня HDFS в кластере больших данных. Дополнительные сведения о разрешениях уровня HDFS см. в статье "Управление разрешениями HDFS для кластеров больших данных SQL Server".

Что такое параметр высокого уровня доступности по умолчанию и /или избыточности главного узла в службе Azure Kubernetes (AKS)?

Плоскость управления AKS поддерживает соглашение об уровне обслуживания от 99.95% доступности. Узлы кластера AKS (рабочие узлы) используют зоны доступности, дополнительные сведения см. в разделе "Зоны доступности AKS". Зона доступности (AZ) — это высокодоступная служба Azure, которая защищает приложения и данные от сбоев центра обработки данных. AKS поддерживает доступность 99.9% для кластеров, которые не используют зоны доступности. Дополнительные сведения см. в разделе об уровне обслуживания для службы Azure Kubernetes (AKS).

Существует ли способ сохранить журналы журнала заданий YARN и Spark?

Перезапуск sparkhead не приведет к потере журналов, эти журналы находятся в HDFS. Журналы журнала Spark по-прежнему должны отображаться в пользовательском интерфейсе /gateway/default/sparkhistory. Для журналов контейнеров Yarn эти приложения не отображаются в пользовательском интерфейсе Yarn, так как yarn RM перезапускается, но эти журналы yarn по-прежнему находятся в HDFS и вы можете связать их с сервера журнала Spark. Для диагностики приложений Spark всегда следует использовать сервер журнала Spark.

Можно ли отключить функцию кэширования для любых пулов?

По умолчанию для кэширования подключенных данных будет зарезервировано 1% общего хранилища HDFS. Кэширование — это глобальная настройка для всех точек монтирования. В настоящее время невозможно отключить его, однако процент можно настроить с помощью параметра hdfs-site.dfs.provided.cache.capacity.fraction . Этот параметр определяет долю общей емкости в кластере, которую можно использовать для кэширования данных из предоставленных хранилищ. Сведения об изменении см. в разделе "Настройка параметров кластера больших данных после развертывания". Дополнительные сведения см. в разделе "Настройка уровня HDFS" в кластерах больших данных SQL Server.

Как запланировать хранимые процедуры SQL в кластере больших данных SQL Server 2019?

Службу агента SQL Server можно использовать в главном экземпляре кластера больших данных SQL Server.

Поддерживает ли кластер больших данных собственные сценарии данных временных рядов, например созданные вариантами использования Интернета вещей?

В настоящее время в кластере больших данных используется только для хранения данных мониторинга, собранных в кластере больших данных, и не предоставляется в качестве внешней конечной точки.

Можно ли использовать предоставленную базу данных Потоковой базы данных в качестве базы данных временных рядов для данных клиента?

В настоящее время в кластере больших данных используется только для хранения данных мониторинга, собранных в кластере больших данных, и не предоставляется в качестве внешней конечной точки.

Как добавить базу данных в группу доступности?

В кластере больших данных конфигурация высокого уровня доступности создает группу доступности с именем containedag, которая также включает системные базы данных, реплицируемые между репликами. Базы данных, созданные в результате рабочих процессов CREATE DATABASE или RESTORE, автоматически добавляются в содержащуюся группу доступности и заполняются. До SQL Server 2019 (15.0) CU2 необходимо подключиться к физическому экземпляру в кластере больших данных, восстановить базу данных и добавить ее в содержащуюся. Дополнительные сведения см. в статье "Развертывание кластера больших данных SQL Server с высоким уровнем доступности".

Можно ли настроить ресурсы ядра или памяти для компонентов, работающих в кластере больших данных?

В настоящее время можно задать память для экземпляров SQL с помощью sp_configure, как и в SQL Server. Для ядер можно использовать ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. По умолчанию контейнеры видят все ЦП на узле, и в настоящее время у нас нет способа указать ограничения ресурсов с помощью Kubernetes. Для пула вычислений, пула данных или пула носителей можно выполнить настройку с помощью инструкции EXECUTE AT DATA_SOURCE из главного экземпляра SQL Server.

Что происходит при завершении работы одного из рабочих узлов Kubernetes или сбоя?

Модули pod, которые не связаны с соответствующим рабочим узлом, будут перемещены на другой узел в кластере Kubernetes, если есть достаточные ресурсы. В противном случае модули pod будут недоступны, что приводит к сбоям.

Будет ли кластер больших данных автоматически балансировать, если добавить узел в кластер Kubernetes?

Это действие зависит только от Kubernetes. Помимо размещения pod с помощью меток узлов, нет другого механизма для управления повторной балансировкой ресурсов Kubernetes из кластера больших данных.

Что такое последствия для ресурсов кластера больших данных при удалении узла из кластера Kubernetes?

Это действие эквивалентно завершению работы узла. Существуют механизмы для оркестрации этого в Kubernetes с помощью процесса затухания, и это обычно следует для обновления или обслуживания узлов. Дополнительные сведения см. в документации по Kubernetes для Taints и Tolerations.

Обрабатывает ли Hadoop кластер больших данных репликацию данных?

Да, коэффициент репликации является одной из доступных конфигураций для HDFS. Дополнительные сведения см. в разделе "Настройка постоянных томов".

Перекрывается ли кластер больших данных с Synapse с точки зрения функциональности и интеграции?

Это зависит от вариантов использования и требований. Кластер больших данных предоставляет полную область поверхности SQL Server в дополнение к локальной среде Spark и HDFS, поддерживаемой Корпорацией Майкрософт. Кластер больших данных позволяет клиенту SQL Server интегрироваться в аналитику и большие данные. Azure Synapse является исключительно аналитической платформой, предлагающей первый класс для клиентов в качестве управляемой службы в облаке, с акцентом на горизонтальном масштабировании аналитики. Azure Synapse не предназначен для рабочей рабочей нагрузки в рамках этого. Кластер больших данных стремится обеспечить в аналитических сценариях базы данных гораздо ближе к рабочему хранилищу.

Использует ли SQL Server HDFS в качестве хранилища в кластерах больших данных SQL Server?

Файлы базы данных экземпляра SQL Server не хранятся в HDFS, однако SQL Server может запрашивать HDFS с помощью внешнего интерфейса таблицы.

Какие доступные варианты распространения для хранения данных в распределенных таблицах в каждом пуле данных?

ROUND_ROBIN и РЕПЛИКАЦИЯ. ROUND_ROBIN — это значение по умолчанию. ХЭШ недоступен.

Включен ли кластер больших данных сервер Spark Thrift? В этом случае конечная точка ODBC предоставляется для подключения к таблицам хранилища метаданных Hive?

В настоящее время мы предоставляем хранилище метаданных Hive (HMS) через протокол Thrift. Мы документируем протокол, но не открывали конечную точку ODBC в настоящее время.  Доступ к нему можно получить с помощью протокола HTTP хранилища метаданных Hive. Дополнительные сведения см. в статье Hive Metastore HTTP Protocol.

Загрузка данных

Можно ли принять данные из SnowFlake в кластер больших данных?

SQL Server в Linux (применяется к главному экземпляру SQL Server в кластере больших данных) не поддерживает универсальный источник данных ODBC, который позволяет установить сторонний драйвер ODBC (SnowFlake, DB2, PostgreSQL и т. д.) и запросить их. Эта функция в настоящее время доступна только в SQL Server 2019 (15.0) в Windows. В кластере больших данных можно считывать данные с помощью Spark с помощью JDBC и приема в SQL Server с помощью соединителя MSSQL Spark.

Можно ли прием данных с помощью пользовательского источника данных ODBC в кластер больших данных?

SQL Server в Linux (относится к главному экземпляру SQL Server в кластере больших данных) не поддерживает универсальный источник данных ODBC, который позволяет устанавливать сторонний драйвер ODBC (SnowFlake, DB2, PostgreSQL и т. д.) и запрашивать их.

Как импортировать данные в одну таблицу с помощью CTAS PolyBase вместо создания новой таблицы при каждом запуске CTAS?

Вы можете использовать INSERT..SELECT подход, чтобы избежать необходимости в новой таблице каждый раз.

Каковы преимущества и рекомендации по загрузке данных в пул данных, а не непосредственно в главный экземпляр в качестве локальных таблиц?

Если в главном экземпляре SQL Server достаточно ресурсов, чтобы удовлетворить рабочую нагрузку аналитики, это всегда самый быстрый вариант. Пул данных помогает, если вы хотите выгрузить выполнение в другие экземпляры SQL для распределенных запросов. Вы также можете использовать пул данных для приема данных от исполнителей Spark параллельно с разными экземплярами SQL. Таким образом, производительность нагрузки для больших наборов данных, создаваемых из распределенной файловой системы Hadoop (HDFS), обычно будет лучше, чем в один экземпляр SQL Server. Однако это также трудно сказать, так как вы по-прежнему можете иметь несколько таблиц в SQL Server и вставить параллельно, если вы хотите. Производительность зависит от многих факторов, и в этом отношении нет единого руководства или рекомендации.

Как отслеживать распределение данных в таблицах пула данных?

Вы можете использовать EXECUTE AT для запроса динамических административных представлений, таких как sys.dm_db_partition_stats, чтобы получить данные в каждой локальной таблице.

Является ли curl единственным вариантом отправки файлов в HDFS?

Нет, можно использовать azdata bdc hdfs cp. Если вы предоставляете корневой каталог, команда рекурсивно копирует все дерево. Вы можете скопировать и выйти с помощью этой команды, просто изменив исходные и целевые пути.

Как загрузить данные в пул данных?

Вы можете использовать библиотеку соединителей MSSQL Spark, чтобы помочь в приеме SQL и пула данных. Пошаговое руководство см. в руководстве по приему данных в пул данных SQL Server с заданиями Spark.

Если у меня есть много данных в сетевом пути (Windows), который содержит множество папок или вложенных папок и текстовых файлов, как передать их в HDFS в кластер больших данных?

Предоставьте azdata bdc hdfs cp a try. Если вы предоставляете корневой каталог, команда рекурсивно копирует все дерево. Вы можете скопировать и выйти с помощью этой команды, просто изменив исходные и целевые пути.

Можно ли увеличить размер пула носителей в развернутом кластере?

В настоящее время не существует azdata интерфейса для выполнения этой операции. Вы можете изменить размер нужных PVC вручную. Изменение размера — это сложная операция, см. статью "Постоянные тома" в документации Kubernetes.

Виртуализация данных

Когда следует использовать связанные серверы и PolyBase?

Ознакомьтесь с основными различиями и вариантами использования здесь: Вопросы и ответы по PolyBase.

Каковы поддерживаемые источники виртуализации данных?

Кластер больших данных поддерживает виртуализацию данных из источников ODBC— SQL Server, Oracle, MongoDB, Teradata и т. д. Она также поддерживает многоуровневое масштабирование удаленных хранилищ, таких как Azure Data Lake Store 2-го поколения и хранилище , совместимое с S3A, а также AWS S3A и файловой системой BLOB-объектов Azure (ABFS).

Можно ли использовать PolyBase для виртуализации данных, хранящихся в базе данных SQL Azure?

Да, для доступа к данным в Базе данных SQL Azure можно использовать PolyBase в кластере больших данных.

Почему инструкции CREATE TABLE включают ключевое слово EXTERNAL? Что делает EXTERNAL по-другому, чем стандартная CREATE TABLE?

Как правило, внешнее ключевое слово подразумевает, что данные не в экземпляре SQL Server. Например, можно определить таблицу пула носителей поверх каталога HDFS. Данные хранятся в файлах HDFS, а не в файлах базы данных, а во внешней таблице, предоставленной интерфейсом для запроса файлов HDFS в виде реляционной таблицы, как если бы она находится в базе данных.
Эта концепция доступа к внешним данным называется виртуализацией данных, дополнительные сведения см. в статье "Введение виртуализации данных с помощью PolyBase". Руководство по виртуализации данных из CSV-файлов в HDFS см. в статье [Виртуализация CSV-данных из кластеров больших данных пула носителей.

Каковы различия между виртуализацией данных с помощью SQL Server, работающего в кластерах больших данных SQL Server и SQL Server?

Как легко сказать, что внешняя таблица указывает на пул данных и пул носителей?

Можно определить тип внешней таблицы, просмотрев префикс расположения источника данных, например, sqlserver://, oracle://, sqlhdfs://, sqldatapool://.

Развертывание

Сбой развертывания кластера больших данных. Как я вижу, что пошло не так?

Существует ли окончательный список всех элементов, которые можно задать в конфигурации кластера больших данных?

Все настройки, которые можно выполнить во время развертывания, описаны здесь в разделе "Настройка параметров развертывания для ресурсов кластера и служб". Сведения о Spark см. в разделе "Настройка Apache Spark" и Apache Hadoop в кластерах больших данных.

Можно ли развертывать службы SQL Server Analysis Services вместе с кластерами больших данных SQL Server?

Нет. В частности, службы SQL Server Analysis Services (SSAS) не поддерживаются в SQL Server на Linux, поэтому необходимо установить экземпляр SQL Server на сервере Windows для запуска SSAS.

Поддерживается ли кластер больших данных для развертывания в EKS или GKS?

Кластер больших данных может работать в любом стеке Kubernetes на основе версии 1.13 и выше. Однако мы не выполнили определенные проверки кластера больших данных в EKS или GKS.

Что такое версия HDFS и Spark, запущенная в кластере больших данных?

Spark — 2.4, а HDFS — 3.2.1. Полные сведения о программном обеспечении с открытым исходным кодом, включенном в кластер больших данных, см. в справочнике по программному обеспечению с открытым кодом.

Как установить библиотеки и пакеты в Spark?

Пакеты можно добавить в отправку заданий, выполнив действия, описанные в примере записной книжки для установки пакетов в Spark.

Нужно ли использовать SQL Server 2019 для использования R и Python для кластеров больших данных SQL Server?

Службы машинного обучения (R и Python) доступны начиная с SQL Server 2017. Службы машинного обучения также доступны в кластерах больших данных SQL Server. Дополнительные сведения см. в статье "Что такое службы машинного обучения SQL Server с Помощью Python и R?".

Лицензирование

Как работают лицензии SQL Server для кластеров больших данных SQL Server?

Дополнительные сведения см. в руководстве по лицензированию. Скачайте PDF-файл.
Сводка по видео о лицензировании SQL Server: кластеры больших данных | Предоставленные данные.

Безопасность

Поддерживает ли кластер больших данных идентификатор Microsoft Entra ([прежнее название Azure Active Directory](/entra/fundamentals/new-name)?

Не в это время.

Можно ли подключиться к главному кластеру больших данных с помощью встроенной проверки подлинности?

Да, вы можете подключиться к различным службам кластера больших данных с помощью интегрированной проверки подлинности (с Active Directory). Дополнительные сведения см. в статье "Развертывание кластера больших данных SQL Server в режиме Active Directory". См. также основные понятия безопасности для кластеров больших данных.

Как добавить новых пользователей для различных служб в кластере больших данных?

В базовом режиме проверки подлинности (имя пользователя или пароль) отсутствует поддержка добавления нескольких пользователей для контроллера или шлюза Knox или конечных точек HDFS. Единственный пользователь, поддерживаемый для этих конечных точек, является корневым. Для SQL Server можно добавить пользователей с помощью Transact-SQL, как и для любого другого экземпляра SQL Server. При развертывании кластера больших данных с проверкой подлинности AD для конечных точек поддерживается несколько пользователей. Дополнительные сведения о настройке групп AD во время развертывания см. здесь. Дополнительные сведения см. в статье "Развертывание кластера больших данных SQL Server в режиме Active Directory".

Чтобы кластер больших данных извлекал последние образы контейнеров, можно ли ограничить исходящий диапазон IP-адресов?

Вы можете просмотреть IP-адреса, используемые различными службами в диапазонах IP-адресов Azure и тегах служб — общедоступное облако. Обратите внимание, что эти IP-адреса периодически поворачиваются.
Чтобы служба контроллера извлекла образы контейнеров из реестра контейнеров Майкрософт (MCR), необходимо предоставить доступ к IP-адресам, указанным в разделе MicrosoftContainerRegistry . Другим вариантом является настройка частного реестра контейнеров Azure и настройка кластера больших данных для извлечения из нее. В этом случае необходимо предоставить IP-адреса, указанные в разделе AzureContainerRegistry . Инструкции по этому и скрипту предоставляются в разделе "Выполнение автономного развертывания кластера больших данных SQL Server".

Можно ли развернуть кластер больших данных в среде с отслеживанием воздуха?

Применяется ли функция "Шифрование службы хранилища Azure" по умолчанию к кластерам больших данных на основе AKS?

Это зависит от конфигураций динамического средства подготовки хранилища в службе Azure Kubernetes (AKS). Дополнительные сведения см. здесь: рекомендации по хранению и резервному копированию в службе Azure Kubernetes (AKS).

Можно ли повернуть ключи для шифрования SQL Server и HDFS в кластере больших данных?

Можно ли повернуть пароли автоматически созданных объектов Active Directory?

Да, вы можете легко повернуть пароли автоматически созданных объектов Active Directory с новой функцией, представленной в кластерах больших данных SQL Server CU13. Дополнительные сведения см. в разделе " Смена паролей AD".

Поддержка

Развернуты ли Spark и HDFS в кластерах больших данных SQL Server?

Да, корпорация Майкрософт поддерживает все компоненты, отправленные в кластерах больших данных.

Что такое модель поддержки для службы машинного обучения SparkML и SQL Server?

Политика поддержки служб машинного обучения SQL Server совпадает с политикой поддержки SQL Server, за исключением того, что каждый основной выпуск поставляется с новой версией среды выполнения. Сама библиотека SparkML — это программное обеспечение с открытым кодом (OSS). Мы упаковаем множество компонентов OSS в кластере больших данных, и это поддерживается корпорацией Майкрософт.

Поддерживается ли платформа Red Hat Enterprise Linux 8 (RHEL8) для кластеров больших данных SQL Server?

Не в это время. См. здесь сведения о тестируемых конфигурациях.

Инструменты

Доступны ли записные книжки в Azure Data Studio, по сути, записные книжки Jupyter?

Да, это то же ядро Jupyter, что и в Azure Data Studio.

Является ли средство azdata открытым кодом?

Нет, azdata в настоящее время не является открытым исходным кодом.

Обучающие материалы

Какие варианты обучения кластера больших данных доступны?