Samouczek: przekształcanie danych przy użyciu przepływów mapowania danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.

W tym samouczku użyjesz interfejsu użytkownika Azure Data Factory (UX), aby utworzyć potok, który kopiuje i przekształca dane ze źródła usługi Azure Data Lake Storage (ADLS) Gen2 do ujścia usługi ADLS Gen2 przy użyciu przepływu danych mapowania. Wzorzec konfiguracji w tym samouczku można rozszerzyć podczas przekształcania danych przy użyciu przepływu mapowania danych

Ten samouczek jest przeznaczony do mapowania przepływów danych ogólnie. Przepływy danych są dostępne zarówno w Azure Data Factory, jak i potokach Synapse Pipelines. Jeśli dopiero zaczynasz korzystać z przepływów danych w usłudze Azure Synapse Pipelines, postępuj zgodnie z instrukcjami Przepływ danych używając Azure Synapse Pipelines.

W tym samouczku wykonasz te kroki:

Tworzenie fabryki danych.
Utwórz przepływ danych przy użyciu działania Przepływ danych.
Utwórz przepływ danych mapowania z czterema przekształceniami.
Uruchomienie próbne pipeline'u.
Monitorowanie działania Przepływ danych

Wymagania wstępne

Subskrypcja Azure. Jeśli nie masz subskrypcji Azure, przed rozpoczęciem utwórz konto free Azure.
Konto Azure Data Lake Storage Gen2. Magazyn usługi ADLS jest używany jako źródło danych i odbiornik danych. Jeśli nie masz konta magazynu, zobacz Utwórz konto magazynu Azure aby uzyskać instrukcje tworzenia konta.
Pobierz MoviesDB.csv tutaj. Aby pobrać plik z GitHub, skopiuj zawartość do wybranego edytora tekstów, aby zapisać lokalnie jako plik .csv. Przekaż plik do konta magazynowego w kontenerze o nazwie "sample-data".

Tworzenie fabryki danych

W tym kroku utworzysz fabrykę danych i otworzysz środowisko użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.

Otwórz Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko w przeglądarkach internetowych Microsoft Edge i Google Chrome.
W górnym menu wybierz pozycję Utwórz zasób>Analytics>Data Factory :
Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

Nazwa fabryki danych Azure musi być unikatowa na całym świecie. Jeśli zostanie wyświetlony komunikat o błędzie dotyczącym wartości nazwy, wprowadź inną nazwę dla fabryki danych. (na przykład twojanazwa ADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.
Wybierz Azure subskrypcję w której chcesz utworzyć fabrykę danych.
W obszarze Grupa zasobów wykonaj jedną z następujących czynności:
1. Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.
2. Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.
Aby dowiedzieć się więcej o grupach zasobów, zobacz Użyj grupy zasobów do zarządzania zasobami Azure.
W obszarze Wersja wybierz pozycję V2.
W obszarze Region wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (na przykład Azure Storage i SQL Database) i obliczenia (na przykład Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.
Wybierz Przegląd + Utwórz, a następnie wybierz Utwórz.
Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w Centrum powiadomień. Wybierz Przejdź do zasobu, aby przejść do strony Data Factory.
Wybierz pozycję Uruchom studio , aby uruchomić studio usługi Data Factory na osobnej karcie.

Utwórz potok z aktywnością przepływu danych

W tym kroku utworzysz potok zawierający działanie Przepływ danych.

Na stronie głównej Azure Data Factory wybierz pozycję Orchestrate.
Teraz otwiera się możliwość dla nowej rury. Na karcie Ogólne dla właściwości potoku wprowadź TransformFilmy jako Nazwa potoku.
W okienku Działania rozwiń akordeon Przenieś i Przekształć . Przeciągnij i upuść działanie Przepływ danych z okienka do kanwy potoku.
Nadaj przepływowi danych nazwę DataFlow1.
Na górnym pasku kanwy potoku przesuń suwak debugowania Przepływ danych. Tryb debugowania umożliwia interaktywne testowanie logiki transformacji względem dynamicznego klastra Spark. Klastry Przepływ danych potrzebują od 5 do 7 minut na rozgrzanie, a użytkownikom zaleca się włączyć debugowanie przed rozpoczęciem pracy nad rozwojem aplikacji Przepływ danych. Aby uzyskać więcej informacji, zobacz Tryb debugowania.

Tworzenie logiki przekształcania na kanwie przepływu danych

W tym kroku utworzysz przepływ danych, który pobiera moviesDB.csv w magazynie usługi ADLS i agreguje średnią ocenę komedii z 1910 do 2000 roku. Następnie zapiszesz ten plik z powrotem do magazynu usługi ADLS.

W panelu poniżej kanwy przejdź do obszaru Ustawienia działania przepływu danych i wybierz pozycję Nowy, znajdującą się obok pola przepływu danych. Spowoduje to otwarcie kanwy przepływu danych.
W okienku Właściwości w obszarze Ogólne nadaj przepływowi danych nazwę TransformFilms.
Na kanwie przepływu danych dodaj źródło, wybierając pole Dodaj źródło .
Nazwij źródłową bazę danych MoviesDB. Wybierz pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.
Wybierz Azure Data Lake Storage Gen2. Wybierz Kontynuuj.
Wybierz OddzielanyTekst. Wybierz Kontynuuj.
Nadaj zestawowi danych nazwę MoviesDB. W rozwijanej liście usługi wybierz opcję Nowy.
Na ekranie tworzenia połączonej usługi nadaj usłudze ADLS Gen2 nazwę połączonej usłudze ADLSGen2 i określ metodę uwierzytelniania. Następnie wprowadź poświadczenia połączenia. W tym samouczku używamy klucza konta do nawiązywania połączenia z naszym kontem magazynowym. Możesz wybrać pozycję Testuj połączenie , aby sprawdzić, czy poświadczenia zostały wprowadzone poprawnie. Po zakończeniu wybierz pozycję Utwórz.
Po powrocie do ekranu tworzenia zbioru danych, wprowadź lokalizację pliku w polu nazwaną Ścieżka pliku. W tym samouczku plik moviesDB.csv znajduje się w kontenerze sample-data. Ponieważ plik ma nagłówki, zaznacz pozycję Pierwszy wiersz jako nagłówek. Wybierz pozycję Z połączenia/magazynu, aby zaimportować schemat nagłówka bezpośrednio z pliku przechowywanego w magazynie. Po zakończeniu wybierz przycisk OK.
Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych źródłowej transformacji i wybierz Odśwież, aby uzyskać migawkę danych. Możesz użyć podglądu danych, aby sprawdzić, czy transformacja jest poprawnie skonfigurowana.
Obok węzła źródłowego na kanwie przepływu danych wybierz ikonę plusa, aby dodać nową transformację. Pierwszą dodaną transformacją jest filtr.
Nadaj transformacji filtrowi nazwę FilterYears. Wybierz pole wyrażenia obok pozycji Filtruj, a następnie pozycję Otwórz konstruktor wyrażeń. W tym miejscu należy określić warunek filtrowania.
Konstruktor wyrażeń przepływu danych umożliwia interaktywne tworzenie wyrażeń używanych w różnych przekształceniach. Wyrażenia mogą zawierać wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz konstruktor wyrażeń Przepływ danych.

W tym samouczku chcesz filtrować filmy komedii gatunkowej, które pojawiły się między latami 1910 i 2000. Ponieważ rok jest obecnie ciągiem, musisz przekonwertować go na liczbę całkowitą przy użyciu toInteger() funkcji . Użyj operatorów większy lub równy (>=) i mniejszy lub równy (<=), aby porównać z literałami roku 1910 i 2000. Połącz te wyrażenia razem z operatorem i (&&). Wyrażenie wygląda następująco

toInteger(year) >= 1910 && toInteger(year) <= 2000

Aby dowiedzieć się, które filmy są komediami, możesz użyć rlike() funkcji , aby znaleźć wzorzec "Komedia" w gatunkach kolumn. Połącz wyrażenie rlike z porównaniem roku, aby uzyskać:

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Jeśli masz aktywny klaster debugowania, możesz zweryfikować logikę, wybierając pozycję Odśwież , aby wyświetlić dane wyjściowe wyrażenia w porównaniu z użytymi danymi wejściowymi. Istnieje więcej niż jedna prawidłowa odpowiedź na temat tego, jak można osiągnąć tę logikę przy użyciu języka wyrażeń przepływu danych.

Po zakończeniu pracy z wyrażeniem wybierz pozycję Zapisz i zakończ .
Pobierz podgląd danych, aby sprawdzić, czy filtr działa poprawnie.
Kolejną transformacją, którą dodasz, jest przekształcenie Aggregate pod Modyfikatorem schematu.
Nadaj agregacji nazwę AggregateComedyRatings. Na karcie Grupuj według zaznacz rok z listy rozwijanej, aby pogrupować agregacje według roku wydania filmu.
Przejdź do karty Agregacje . W polu tekstowym po lewej stronie nadaj kolumnie agregacji nazwę AverageComedyRating. Wybierz odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregacji za pomocą konstruktora wyrażeń.
Aby uzyskać średnią kolumny Ocena, użyj avg() funkcji agregującej. Ponieważ ocena jest ciągiem i avg() przyjmuje dane wejściowe liczbowe, musimy przekonwertować wartość na liczbę za pośrednictwem toInteger() funkcji. To wyrażenie wygląda następująco:

avg(toInteger(Rating))

Po zakończeniu wybierz pozycję Zapisz i zakończ .
Przejdź do karty Podgląd danych, aby wyświetlić dane wyjściowe przekształcenia. Zwróć uwagę, że istnieją tylko dwie kolumny: rok i AverageComedyRating.
Następnie chcesz dodać transformację ujścia pod Miejsce docelowe.
Nazwij zlew Zlew. Wybierz Nowy, aby utworzyć zbiór danych wyjściowych.
Wybierz Azure Data Lake Storage Gen2. Wybierz Kontynuuj.

Screenshot przedstawiający kafelek Azure Data Lake Storage Gen2, który można wybrać.
Wybierz OddzielanyTekst. Wybierz Kontynuuj.
Nadaj zestawowi danych ujścia nazwę MoviesSink. W przypadku połączonej usługi wybierz połączoną usługę ADLS Gen2 utworzoną w kroku 6. Wprowadź folder wyjściowy do zapisania danych. W tym samouczku zapisujemy dane do folderu "output" w kontenerze "sample-data". Folder nie musi istnieć wcześniej i można go dynamicznie tworzyć. Ustaw Pierwszy wiersz jako nagłówek na prawda i wybierz Brak dla Importuj schemat. Wybierz Zakończ.

Teraz ukończyłeś tworzenie przepływu danych. Możesz go uruchomić w swoim pipeline.

Uruchamianie i monitorowanie Przepływ danych

Można debugować potok danych przed jego opublikowaniem. W tym kroku uruchomisz debugowanie potoku przepływu danych. Chociaż podgląd danych nie zapisuje danych, przebieg debugowania zapisuje dane w miejscu docelowym ujścia.

Przejdź do kanwy potoku. Wybierz opcję Debug, aby uruchomić debugowanie.
Debugowanie potoku działań przepływu danych używa aktywnego klastra debugowania, ale inicjalizacja nadal trwa co najmniej minutę. Postęp można śledzić za pomocą karty Dane wyjściowe . Po pomyślnym zakończeniu przebiegu umieść kursor nad przebiegiem i wybierz ikonę okularów, aby otworzyć okienko monitorowania.
W okienku monitorowania wybierz przycisk Etapy, aby wyświetlić liczbę wierszy oraz czas poświęcony na każdy krok transformacji.
Wybierz przekształcenie, aby uzyskać szczegółowe informacje o kolumnach i partycjonowaniu danych.

Jeśli poprawnie wykonano czynności opisane w tym samouczku, powinieneś mieć zapisane 83 wiersze i 2 kolumny w folderze docelowym. Możesz zweryfikować poprawność danych, sprawdzając swoje miejsce magazynowe blobów.

Pipeline w tym samouczku uruchamia przepływ danych, który agreguje średnią ocen komedii z lat 1910 do 2000 i zapisuje dane w ADLS. Nauczyłeś się, jak:

Tworzenie fabryki danych.
Utwórz potok z aktywnością Przepływ danych.
Utwórz przepływ danych mapowania z czterema przekształceniami.
Uruchomienie próbne pipeline'u.
Monitorowanie działania Przepływ danych

Dowiedz się więcej o języku wyrażeń przepływu danych.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-07