Przekształcanie danych w Azure Data Factory i Azure Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Wskazówka

Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.

Ważne

Obsługa platformy Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów Machine Learning Studio (klasycznych) (obszar roboczy i plan usługi internetowej). Do 31 sierpnia 2024 r. można nadal używać istniejących eksperymentów Machine Learning Studio (klasycznych) i usług internetowych. Aby uzyskać więcej informacji, zobacz:

Przejdź do Azure Machine Learning z Machine Learning Studio (wersja klasyczna)
Czym jest Azure Machine Learning?

Machine Learning Studio (klasyczna) dokumentacja jest wycofywana i może nie zostać zaktualizowana w przyszłości.

Omówienie

W tym artykule opisano działania przekształcania danych w potokach Azure Data Factory i Synapse, których można użyć do przekształcania i przetwarzania danych pierwotnych w przewidywania i szczegółowych informacji na dużą skalę. Działanie przekształcania jest wykonywane w środowisku obliczeniowym, takim jak Azure Databricks lub Azure HDInsight. Zawiera on linki do artykułów ze szczegółowymi informacjami na temat każdego działania przekształcania.

Usługa obsługuje następujące działania przekształcania danych, które można dodać do potoków pojedynczo lub w łańcuchu z innym działaniem.

Przekształcanie natywnie w Azure Data Factory i Azure Synapse Analytics przy użyciu przepływów danych

Mapowanie przepływów danych

Przepływy danych mapowania to wizualnie projektowane transformacje danych w Azure Data Factory i Azure Synapse. Przepływy danych umożliwiają inżynierom danych opracowywanie logiki przekształcania danych graficznych bez pisania kodu. Wynikowe przepływy danych są wykonywane jako zadania w potokach, które używają skalowanych poziomo klastrów Spark. Działania przepływu danych można zoperacjonalizować za pomocą istniejących funkcji planowania, sterowania, przepływu i monitorowania w usłudze. Aby uzyskać więcej informacji, zobacz mapowanie przepływów danych.

Przygotowanie danych

Power Query w Azure Data Factory umożliwia przetwarzanie danych w skali chmury, co umożliwia wykonywanie bez kodu przygotowywania danych w skali chmury w sposób iteracyjny. Uzdatnianie danych integruje się z Power Query Online i udostępnia funkcje Power Query M na potrzeby uzdatniania danych w skali chmury poprzez wykonanie w technologii Spark. Aby uzyskać więcej informacji, zobacz przetwarzanie danych w Azure Data Factory.

Uwaga

Power Query jest obecnie obsługiwana tylko w Azure Data Factory, a nie w Azure Synapse. Aby uzyskać listę określonych funkcji obsługiwanych w każdej usłudze, zobacz Available features in Azure Data Factory & Azure Synapse Analytics pipelines.

Przekształcenia zewnętrzne

Opcjonalnie możesz ręcznie wykonywać przekształcenia kodu i zarządzać zewnętrznym środowiskiem obliczeniowym samodzielnie.

Działanie Hive w usłudze HDInsight

Działanie Hive usługi HDInsight w potoku wykonuje zapytania Hive na własnym klastrze HDInsight lub uruchamianym na żądanie klastrze opartym na systemie Windows/Linux. Aby uzyskać szczegółowe informacje o tym działaniu, zobacz Artykuł dotyczący działania programu Hive.

Działanie usługi HDInsight Pig

Działanie usługi HDInsight Pig w potoku wykonuje zapytania Pig na klastrze usługi HDInsight, który może być własny lub oparty na systemie Windows lub Linux na żądanie. Aby uzyskać szczegółowe informacje o tej aktywności, zobacz artykuł Pig activity.

Działanie MapReduce w usłudze HDInsight

Działanie MapReduce w ramach usługi HDInsight w potoku wykonuje programy MapReduce na klastrze HDInsight opartym na systemie Windows lub Linux, który może być własny lub stworzony na żądanie. Aby uzyskać szczegółowe informacje na temat tego działania, zobacz artykuł dotyczący działania MapReduce.

Aktywność przesyłania strumieniowego w usłudze HDInsight

Działanie strumieniowe HDInsight w potoku wykonuje programy przesyłania strumieniowego Hadoop na własnym klastrze lub klastrze na żądanie opartym na systemie Windows/Linux. Aby uzyskać szczegółowe informacje na temat tego działania, zobacz Działanie przesyłania strumieniowego w usłudze HDInsight.

Działanie platformy Spark w usłudze HDInsight

Aktywność HDInsight Spark w potoku wykonuje programy Spark na własnym klastrze HDInsight. Aby uzyskać szczegółowe informacje, zobacz programy Invoke Spark z Azure Data Factory lub Azure Synapse Analytics.

Działania programu ML Studio (klasyczne)

Ważne

Obsługa platformy Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do Azure Machine Learning do tej daty.

Przejdź do Azure Machine Learning z Machine Learning Studio (wersja klasyczna)
Czym jest Azure Machine Learning?

Machine Learning Studio (klasyczna) dokumentacja jest wycofywana i może nie zostać zaktualizowana w przyszłości.

Usługa umożliwia łatwe tworzenie potoków korzystających z opublikowanej usługi internetowej ML Studio (klasycznej) na potrzeby analizy predykcyjnej. Za pomocą działania Wykonywania usługi Batch w potoku można wywołać usługę internetową Studio (klasyczną), aby przewidywać dane w partii.

W miarę upływu czasu modele predykcyjne w eksperymentach oceniania programu Studio (klasycznego) muszą być ponownie trenowane przy użyciu nowych wejściowych zestawów danych. Po zakończeniu ponownego trenowania chcesz zaktualizować usługę internetową oceniania przy użyciu ponownie trenowanego modelu uczenia maszynowego. Możesz użyć operacji Aktualizuj zasób, aby zaktualizować usługę sieciową przy użyciu nowo wytrenowanego modelu.

Aby uzyskać szczegółowe informacje na temat tych działań programu Studio (klasycznych), zobacz Korzystanie z działań programu ML Studio (klasycznego).

Działanie procedury składowanej

Możesz użyć działania procedury składowanej SQL Server w potoku usługi Data Factory, aby wywołać procedurę składowaną w jednym z następujących magazynów danych: Azure SQL Database, Azure Synapse Analytics, SQL Server Database w przedsiębiorstwie lub maszynie wirtualnej Azure. Aby uzyskać szczegółowe informacje, zobacz artykuł Dotyczący działania procedury składowanej.

działanie Data Lake Analytics języka U-SQL

Data Lake Analytics działanie U-SQL uruchamia skrypt U-SQL w klastrze Azure Data Lake Analytics. Aby uzyskać szczegółowe informacje, zobacz artykuł dotyczący działania U-SQL usługi Data Analytics.

Działanie notebooka Azure Synapse

Działanie zeszytu Azure Synapse w potoku platformy Synapse uruchamia zeszyt Synapse w obszarze roboczym Azure Synapse. Zobacz Przekształć dane, uruchamiając notebook Azure Synapse.

Aktywność notebooka Databricks

Działanie Notatnika Azure Databricks w potoku danych uruchamia notatnik Databricks w obszarze roboczym Azure Databricks. Azure Databricks to zarządzana platforma do uruchamiania platformy Apache Spark. Zobacz Przekształć dane, uruchamiając notebook Databricks.

Aktywność Jar w Databricks

Działanie Azure Databricks Jar w potoku uruchamia plik Spark Jar w klastrze Azure Databricks. Azure Databricks to zarządzana platforma do uruchamiania platformy Apache Spark. Zobacz Przekształć dane uruchamiając aktywność Jar w Azure Databricks.

Aktywność Python usługi Databricks

Działanie Azure Databricks Python w potoku uruchamia plik Python w klastrze Azure Databricks. Azure Databricks to zarządzana platforma do uruchamiania platformy Apache Spark. Zobacz transformowanie danych przez osadzenie Pythona w Azure Databricks.

Działanie niestandardowe

Jeśli musisz przekształcić dane w sposób, który nie jest obsługiwany przez usługę Data Factory, możesz utworzyć niestandardową czynność z użyciem własnej logiki przetwarzania danych i użyć tej czynności w potoku. Niestandardowe działanie .NET można skonfigurować do uruchamiania przy użyciu usługi Azure Batch lub klastra Azure HDInsight. Aby uzyskać szczegółowe informacje, zobacz artykuł Korzystanie z działań niestandardowych.

Możesz utworzyć niestandardowe działanie, aby uruchamiać skrypty w klastrze usługi HDInsight z zainstalowanym językiem R. Zobacz Uruchom skrypt języka R przy użyciu potoków Azure Data Factory i Synapse.

Środowiska obliczeniowe

Utworzysz połączoną usługę dla środowiska obliczeniowego, a następnie użyjesz połączonej usługi podczas definiowania działania przekształcania. Istnieją dwa obsługiwane typy środowisk obliczeniowych.

Na żądanie: w tym przypadku środowisko obliczeniowe jest w pełni zarządzane przez usługę. Jest on tworzony automatycznie przez usługę, zanim zadanie zostanie przesłane do przetwarzania danych i usunięte po zakończeniu zadania. Możesz skonfigurować i kontrolować szczegółowe ustawienia środowiska obliczeniowego na żądanie na potrzeby wykonywania zadań, zarządzania klastrem i akcji uruchamiania.
Bring Your Own: W tym przypadku możesz zarejestrować własne środowisko obliczeniowe (na przykład klaster usługi HDInsight) jako połączoną usługę. Środowisko obliczeniowe jest zarządzane przez Ciebie i usługa używa go do wykonywania działań.

Aby dowiedzieć się więcej na temat obsługiwanych usług obliczeniowych, zobacz artykuł Compute Linked Services (Połączone usługi obliczeniowe).

Zapoznaj się z poniższym samouczkiem, aby zapoznać się z przykładem użycia działania przekształcania: Samouczek: przekształcanie danych przy użyciu platformy Spark

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-07