Freigeben über


Transformieren von Daten in Azure Data Factory und Azure Synapse Analytics

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Wichtig

Der Support für Azure Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum zu Azure Machine Learning zu wechseln.

Ab dem 1. Dezember 2021 können Sie keine neuen Machine Learning Studio (klassischen) Ressourcen (Arbeitsbereichs- und Webdienstplan) erstellen. Bis zum 31. August 2024 können Sie weiterhin die vorhandenen Machine Learning Studio (klassischen) Experimente und Webdienste verwenden. Weitere Informationen finden Sie unter:

Machine Learning Studio (klassische) Dokumentation wird eingestellt und wird möglicherweise in Zukunft nicht aktualisiert.

Übersicht

In diesem Artikel werden Datentransformationsaktivitäten in Azure Data Factory- und Synapse-Pipelines erläutert, mit denen Sie Ihre Rohdaten in Vorhersagen und Erkenntnisse im großen Maßstab transformieren und verarbeiten können. Eine Transformationsaktivität wird in einer Computerumgebung wie Azure Databricks oder Azure HDInsight ausgeführt. Sie finden hier Links zu Artikeln mit detaillierten Informationen zu jeder Transformationsaktivität.

Der Dienst unterstützt die folgenden Transformationsaktivitäten, die entweder einzeln zu Pipelines hinzugefügt oder mit einer anderen Aktivität verkettet werden können.

Transformationen direkt in Azure Data Factory und Azure Synapse Analytics mit Datenflüssen durchführen

Zuordnen von Datenflüssen

In Azure Data Factory und Azure Synapse sind Mapping Data Flows visuell entworfene Datentransformationsprozesse. Mit Data Flows können Data Engineers grafische Datentransformationslogik entwickeln, ohne Code schreiben zu müssen. Die daraus resultierenden Datenflüsse werden als Aktivitäten in Pipelines ausgeführt, für die horizontal hochskalierte Spark-Cluster verwendet werden. Datenflussaktivitäten können über die im Dienst vorhandenen Planungs-, Steuerungs-, Fluss- und Überwachungsfunktionen operationalisiert werden. Weitere Informationen finden Sie unter Mapping Data Flows.

Datenaufbereitung

Power Query in Azure Data Factory ermöglicht die cloudskalierende Datenwrangierung, mit der Sie codefreie Datenvorbereitungen iterativ in der Cloud durchführen können. Das Wrangling von Daten ist in Power Query Online integriert und stellt Power Query M-Funktionen für das Wrangieren von Daten im Cloudmaßstab über die Spark-Ausführung zur Verfügung. Weitere Informationen finden Sie unter Data wrangling in Azure Data Factory.

Hinweis

Power Query wird derzeit nur in Azure Data Factory und nicht in Azure Synapse unterstützt. Eine Liste der in jedem Dienst unterstützten spezifischen Features finden Sie unter Available features in Azure Data Factory & Azure Synapse Analytics Pipelines.

Externe Transformationen

Optional können Sie Transformationen manuell kodieren und die externe Compute-Umgebung selbst verwalten.

HDInsight Hive-Aktivität

Die HDInsight Hive-Aktivität in einer Pipeline wendet Hive-Abfragen auf Ihren eigenen oder bedarfsgesteuerten Windows-/Linux-basierten HDInsight-Cluster an. Im Artikel Hive-Aktivität finden Sie Details zu dieser Aktivität.

HDInsight Pig-Aktivität

Die HDInsight Pig-Aktivität in einer Pipeline wendet Pig-Abfragen auf Ihren eigenen oder bedarfsgesteuerten Windows-/Linux-basierten HDInsight-Cluster an. Im Artikel Pig-Aktivität finden Sie Details zu dieser Aktivität.

HDInsight MapReduce-Aktivität

Die MapReduce-Aktivität in einer HDInsight-Pipeline führt MapReduce-Programme auf einem Windows- oder Linux-basierten HDInsight-Cluster, entweder eigenem oder bei Bedarf bereitgestellten, aus. Im Artikel MapReduce-Aktivität finden Sie Details zu dieser Aktivität.

HDInsight-Streamingaktivität

Die HDInsight Streaming-Aktivität in einer Pipeline führt Hadoop-Streaming-Programme entweder auf Ihrem eigenen oder auf einem On-Demand-Windows/Linux-basierten HDInsight-Cluster aus. Unter HDInsight-Streamingaktivität finden Sie ausführliche Informationen zu dieser Aktivität.

HDInsight Spark-Aktivität

Die HDInsight Spark-Aktivität in einer Pipeline führt Spark-Programme in Ihrem eigenen HDInsight-Cluster aus. Weitere Informationen finden Sie unter Invoke Spark-Programme mit Azure Data Factory oder Azure Synapse Analytics.

Aktivitäten in ML Studio (klassisch)

Wichtig

Der Support für Azure Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum zu Azure Machine Learning zu wechseln.

Ab dem 1. Dezember 2021 können Sie keine neuen Machine Learning Studio (klassischen) Ressourcen (Arbeitsbereichs- und Webdienstplan) erstellen. Bis zum 31. August 2024 können Sie weiterhin die vorhandenen Machine Learning Studio (klassischen) Experimente und Webdienste verwenden. Weitere Informationen finden Sie unter:

Machine Learning Studio (klassische) Dokumentation wird eingestellt und wird möglicherweise in Zukunft nicht aktualisiert.

Der Dienst ermöglicht Ihnen die einfache Erstellung von Pipelines, die einen veröffentlichten Webdienst von ML Studio (klassisch) für Predictive Analytics nutzen. Mithilfe der Batchausführungsaktivität in einer Pipeline können Sie einen Studio (Classic)-Webdienst aufrufen, um Vorhersagen für die Daten im Batch zu treffen.

Im Laufe der Zeit müssen die Vorhersagemodelle in den Bewertungsexperimenten von Azure Machine Learning Studio (Classic) mit neuen Eingabedatasets neu trainiert werden. Wenn Sie mit dem erneuten Trainieren fertig sind, sollten Sie den Bewertungswebdienst mit dem neu trainierten Machine Learning-Modell aktualisieren. Verwenden Sie die Ressourcenaktualisierungsaktivität, um den Webdienst mit dem neu trainierten Modell zu aktualisieren.

Ausführliche Informationen zu diesen Aktivitäten in Studio (klassisch) finden Sie unter Use ML Studio (classic) activities (Verwenden der Aktivitäten von ML Studio (klassisch)).

Aktivität „Gespeicherte Prozedur“

Sie können die SQL Server Stored Procedure-Aktivität in einer Data Factory-Pipeline verwenden, um eine gespeicherte Prozedur in einem der folgenden Datenspeicher aufzurufen: Azure SQL-Datenbank, Azure Synapse Analytics, SQL Server-Datenbank in Ihrem Unternehmen oder einer Azure-VM. Unter Aktivität „Gespeicherte Prozedur“ finden Sie Details.

Data Lake Analytics U-SQL-Aktivität

Data Lake Analytics U-SQL-Aktivität führt ein U-SQL-Skript auf einem Azure Data Lake Analytics Cluster aus. Unter Data Analytics U-SQL-Aktivität finden Sie Details.

Azure Synapse Notebook-Aktivität

Die Azure Synapse-Notizbuchaktivität in einer Synapse-Pipeline führt ein Synapse-Notizbuch in Ihrem Azure Synapse-Arbeitsbereich aus. Daten transformieren, indem Sie ein Azure Synapse Notebook ausführen.

Databricks-Notebook-Aktivität

Die Azure Databricks-Notebook-Aktivität in einer Pipeline führt ein Databricks-Notebook in Ihrem Azure Databricks-Arbeitsbereich aus. Azure Databricks ist eine verwaltete Plattform zum Ausführen von Apache Spark. Siehe Transformieren Sie Daten, indem Sie ein Databricks-Notebook ausführen.

Databricks-JAR-Aktivität

Die JAR-Aktivität in Azure Databricks in einer Pipeline führt eine Spark JAR-Datei in Ihrem Azure Databricks-Cluster aus. Azure Databricks ist eine verwaltete Plattform zum Ausführen von Apache Spark. Siehe Transformieren Sie Daten, indem Sie eine Jar-Aktivität in Azure Databricks ausführen.

Databricks Python Aufgabe

Die Azure Databricks Python Aktivität in einer Pipeline führt eine Python Datei in Ihrem Azure Databricks Cluster aus. Azure Databricks ist eine verwaltete Plattform zum Ausführen von Apache Spark. Siehe Daten transformieren durch das Ausführen einer Python-Aktivität in Azure Databricks.

Benutzerdefinierte Aktivität

Wenn Sie Daten auf eine Weise transformieren/verarbeiten müssen, die von Data Factory nicht unterstützt wird, können Sie eine benutzerdefinierte Aktivität mit Ihrer eigenen Datenverarbeitungslogik erstellen und in der Pipeline verwenden. Sie können die benutzerdefinierte .NET-Aktivität so konfigurieren, dass sie entweder mit einem Azure Batch-Dienst oder einem Azure HDInsight Cluster ausgeführt wird. Unter Verwenden benutzerdefinierter Aktivitäten finden Sie Einzelheiten.

Sie können eine benutzerdefinierte Aktivität erstellen, um R-Skripts in Ihrem HDInsight-Cluster mit installiertem R auszuführen. Siehe Run R Script using Azure Data Factory and Synapse pipelines.

Compute-Umgebungen

Sie erstellen einen verknüpften Dienst für die Computeumgebung und verwenden dann den verknüpften Dienst, wenn Sie eine Transformationsaktivität definieren. Es gibt zwei Arten von Computeumgebungen, die unterstützt werden.

  • On-Demand: In diesem Fall wird die Compute-Umgebung vollständig vom Dienst verwaltet. Der Dienst erstellt diese Umgebung automatisch, bevor ein Auftrag zur Verarbeitung von Daten übermittelt wird. Sobald der Auftrag abgeschlossen wurde, wird die Umgebung entfernt. Sie können differenzierte Einstellungen für die bedarfsgesteuerte Computeumgebung zur Auftragsausführung, Clusterverwaltung sowie für Bootstrappingaktionen konfigurieren und steuern.
  • Bring Your Own: In diesem Fall können Sie Ihre eigene Compute-Umgebung (z. B. HDInsight-Cluster) als verknüpften Dienst registrieren. Die Compute-Umgebung wird von Ihnen verwaltet und vom Dienst zum Ausführen von Aktivitäten verwendet.

Unter dem Artikel Verknüpfte Computedienste finden Sie Informationen zu unterstützten Computediensten.

Ein Beispiel für die Verwendung einer Transformationsaktivität finden Sie im folgenden Tutorial: Transformieren von Daten mit Spark