Udostępnij za pośrednictwem


Samouczek: przekształcanie danych przy użyciu przepływów mapowania danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.

W tym samouczku użyjesz interfejsu użytkownika Azure Data Factory (UX), aby utworzyć potok, który kopiuje i przekształca dane ze źródła usługi Azure Data Lake Storage (ADLS) Gen2 do ujścia usługi ADLS Gen2 przy użyciu przepływu danych mapowania. Wzorzec konfiguracji w tym samouczku można rozszerzyć podczas przekształcania danych przy użyciu przepływu mapowania danych

Ten samouczek jest przeznaczony do mapowania przepływów danych ogólnie. Przepływy danych są dostępne zarówno w Azure Data Factory, jak i potokach Synapse Pipelines. Jeśli dopiero zaczynasz korzystać z przepływów danych w usłudze Azure Synapse Pipelines, postępuj zgodnie z instrukcjami Przepływ danych używając Azure Synapse Pipelines.

W tym samouczku wykonasz te kroki:

  • Tworzenie fabryki danych.
  • Utwórz przepływ danych przy użyciu działania Przepływ danych.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Uruchomienie próbne pipeline'u.
  • Monitorowanie działania Przepływ danych

Wymagania wstępne

  • Subskrypcja Azure. Jeśli nie masz subskrypcji Azure, przed rozpoczęciem utwórz konto free Azure.
  • Konto Azure Data Lake Storage Gen2. Magazyn usługi ADLS jest używany jako źródło danych i odbiornik danych. Jeśli nie masz konta magazynu, zobacz Utwórz konto magazynu Azure aby uzyskać instrukcje tworzenia konta.
  • Pobierz MoviesDB.csv tutaj. Aby pobrać plik z GitHub, skopiuj zawartość do wybranego edytora tekstów, aby zapisać lokalnie jako plik .csv. Przekaż plik do konta magazynowego w kontenerze o nazwie "sample-data".

Tworzenie fabryki danych

W tym kroku utworzysz fabrykę danych i otworzysz środowisko użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.

  1. Otwórz Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko w przeglądarkach internetowych Microsoft Edge i Google Chrome.

  2. W górnym menu wybierz pozycję Utwórz zasób>Analytics>Data Factory :

    Wybór Data Factory w panelu

  3. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych Azure musi być unikatowa na całym świecie. Jeśli zostanie wyświetlony komunikat o błędzie dotyczącym wartości nazwy, wprowadź inną nazwę dla fabryki danych. (na przykład twojanazwa ADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.

    Nowy komunikat o błędzie fabryki danych z powodu zduplikowanej nazwy.

  4. Wybierz Azure subskrypcję w której chcesz utworzyć fabrykę danych.

  5. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    1. Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.

    2. Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

    Aby dowiedzieć się więcej o grupach zasobów, zobacz Użyj grupy zasobów do zarządzania zasobami Azure.

  6. W obszarze Wersja wybierz pozycję V2.

  7. W obszarze Region wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (na przykład Azure Storage i SQL Database) i obliczenia (na przykład Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.

  8. Wybierz Przegląd + Utwórz, a następnie wybierz Utwórz.

  9. Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w Centrum powiadomień. Wybierz Przejdź do zasobu, aby przejść do strony Data Factory.

  10. Wybierz pozycję Uruchom studio , aby uruchomić studio usługi Data Factory na osobnej karcie.

Utwórz potok z aktywnością przepływu danych

W tym kroku utworzysz potok zawierający działanie Przepływ danych.

  1. Na stronie głównej Azure Data Factory wybierz pozycję Orchestrate.

    Screenshot przedstawiający stronę główną Azure Data Factory.

  2. Teraz otwiera się możliwość dla nowej rury. Na karcie Ogólne dla właściwości potoku wprowadź TransformFilmy jako Nazwa potoku.

  3. W okienku Działania rozwiń akordeon Przenieś i Przekształć . Przeciągnij i upuść działanie Przepływ danych z okienka do kanwy potoku.

    Screenshot przedstawiający kanwę potoku, na której można usunąć działanie Przepływ danych.

  4. Nadaj przepływowi danych nazwę DataFlow1.

  5. Na górnym pasku kanwy potoku przesuń suwak debugowania Przepływ danych. Tryb debugowania umożliwia interaktywne testowanie logiki transformacji względem dynamicznego klastra Spark. Klastry Przepływ danych potrzebują od 5 do 7 minut na rozgrzanie, a użytkownikom zaleca się włączyć debugowanie przed rozpoczęciem pracy nad rozwojem aplikacji Przepływ danych. Aby uzyskać więcej informacji, zobacz Tryb debugowania.

    Zrzut ekranu przedstawiający przełącznik umożliwiający włączenie debugowania przepływu danych.

Tworzenie logiki przekształcania na kanwie przepływu danych

W tym kroku utworzysz przepływ danych, który pobiera moviesDB.csv w magazynie usługi ADLS i agreguje średnią ocenę komedii z 1910 do 2000 roku. Następnie zapiszesz ten plik z powrotem do magazynu usługi ADLS.

  1. W panelu poniżej kanwy przejdź do obszaru Ustawienia działania przepływu danych i wybierz pozycję Nowy, znajdującą się obok pola przepływu danych. Spowoduje to otwarcie kanwy przepływu danych.

    Zrzut ekranu przedstawiający sposób otwierania edytora przepływu danych z edytora potoków.

  2. W okienku Właściwości w obszarze Ogólne nadaj przepływowi danych nazwę TransformFilms.

  3. Na kanwie przepływu danych dodaj źródło, wybierając pole Dodaj źródło .

    Zrzut ekranu przedstawiający pole Dodaj źródło.

  4. Nazwij źródłową bazę danych MoviesDB. Wybierz pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.

    Zrzut ekranu przedstawiający miejsce wybrania pozycji Nowy po nadaniu nazwy źródła.

  5. Wybierz Azure Data Lake Storage Gen2. Wybierz Kontynuuj.

    Screenshot pokazujący, gdzie znajduje się kafelek Azure Data Lake Storage Gen2.

  6. Wybierz OddzielanyTekst. Wybierz Kontynuuj.

    Zrzut ekranu przedstawiający kafelek DelimitedText.

  7. Nadaj zestawowi danych nazwę MoviesDB. W rozwijanej liście usługi wybierz opcję Nowy.

    Zrzut ekranu przedstawiający listę rozwijaną połączonych usług.

  8. Na ekranie tworzenia połączonej usługi nadaj usłudze ADLS Gen2 nazwę połączonej usłudze ADLSGen2 i określ metodę uwierzytelniania. Następnie wprowadź poświadczenia połączenia. W tym samouczku używamy klucza konta do nawiązywania połączenia z naszym kontem magazynowym. Możesz wybrać pozycję Testuj połączenie , aby sprawdzić, czy poświadczenia zostały wprowadzone poprawnie. Po zakończeniu wybierz pozycję Utwórz.

    Zrzut ekranu panelu służącego do utworzenia nowej połączonej usługi dla Azure Data Lake Storage.

  9. Po powrocie do ekranu tworzenia zbioru danych, wprowadź lokalizację pliku w polu nazwaną Ścieżka pliku. W tym samouczku plik moviesDB.csv znajduje się w kontenerze sample-data. Ponieważ plik ma nagłówki, zaznacz pozycję Pierwszy wiersz jako nagłówek. Wybierz pozycję Z połączenia/magazynu, aby zaimportować schemat nagłówka bezpośrednio z pliku przechowywanego w magazynie. Po zakończeniu wybierz przycisk OK.

    Zrzut ekranu przedstawiający okienko w celu utworzenia zestawu danych.

  10. Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych źródłowej transformacji i wybierz Odśwież, aby uzyskać migawkę danych. Możesz użyć podglądu danych, aby sprawdzić, czy transformacja jest poprawnie skonfigurowana.

    Zrzut ekranu pokazujący, gdzie można wyświetlić podgląd danych, aby sprawdzić, czy transformacja została prawidłowo skonfigurowana.

  11. Obok węzła źródłowego na kanwie przepływu danych wybierz ikonę plusa, aby dodać nową transformację. Pierwszą dodaną transformacją jest filtr.

    Zrzut ekranu przedstawiający kanwę przepływu danych.

  12. Nadaj transformacji filtrowi nazwę FilterYears. Wybierz pole wyrażenia obok pozycji Filtruj, a następnie pozycję Otwórz konstruktor wyrażeń. W tym miejscu należy określić warunek filtrowania.

    Zrzut ekranu przedstawiający pole do filtrowania według wyrażenia.

  13. Konstruktor wyrażeń przepływu danych umożliwia interaktywne tworzenie wyrażeń używanych w różnych przekształceniach. Wyrażenia mogą zawierać wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz konstruktor wyrażeń Przepływ danych.

    W tym samouczku chcesz filtrować filmy komedii gatunkowej, które pojawiły się między latami 1910 i 2000. Ponieważ rok jest obecnie ciągiem, musisz przekonwertować go na liczbę całkowitą przy użyciu toInteger() funkcji . Użyj operatorów większy lub równy (>=) i mniejszy lub równy (<=), aby porównać z literałami roku 1910 i 2000. Połącz te wyrażenia razem z operatorem i (&&). Wyrażenie wygląda następująco

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Aby dowiedzieć się, które filmy są komediami, możesz użyć rlike() funkcji , aby znaleźć wzorzec "Komedia" w gatunkach kolumn. Połącz wyrażenie rlike z porównaniem roku, aby uzyskać:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Jeśli masz aktywny klaster debugowania, możesz zweryfikować logikę, wybierając pozycję Odśwież , aby wyświetlić dane wyjściowe wyrażenia w porównaniu z użytymi danymi wejściowymi. Istnieje więcej niż jedna prawidłowa odpowiedź na temat tego, jak można osiągnąć tę logikę przy użyciu języka wyrażeń przepływu danych.

    Zrzut ekranu przedstawiający konstruktora wyrażeń filtru.

    Po zakończeniu pracy z wyrażeniem wybierz pozycję Zapisz i zakończ .

  14. Pobierz podgląd danych, aby sprawdzić, czy filtr działa poprawnie.

    Zrzut ekranu przedstawiający pobrany podgląd danych.

  15. Kolejną transformacją, którą dodasz, jest przekształcenie Aggregate pod Modyfikatorem schematu.

    Zrzut ekranu przedstawiający modyfikator schematu agregacji.

  16. Nadaj agregacji nazwę AggregateComedyRatings. Na karcie Grupuj według zaznacz rok z listy rozwijanej, aby pogrupować agregacje według roku wydania filmu.

    Zrzut ekranu przedstawiający opcję roku na karcie Grupuj według w ustawieniach agregacji.

  17. Przejdź do karty Agregacje . W polu tekstowym po lewej stronie nadaj kolumnie agregacji nazwę AverageComedyRating. Wybierz odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregacji za pomocą konstruktora wyrażeń.

    Zrzut ekranu przedstawiający opcję rok na karcie Agregacje w obszarze Ustawienia agregacji.

  18. Aby uzyskać średnią kolumny Ocena, użyj avg() funkcji agregującej. Ponieważ ocena jest ciągiem i avg() przyjmuje dane wejściowe liczbowe, musimy przekonwertować wartość na liczbę za pośrednictwem toInteger() funkcji. To wyrażenie wygląda następująco:

    avg(toInteger(Rating))

    Po zakończeniu wybierz pozycję Zapisz i zakończ .

    Zrzut ekranu przedstawiający zapisane wyrażenie.

  19. Przejdź do karty Podgląd danych, aby wyświetlić dane wyjściowe przekształcenia. Zwróć uwagę, że istnieją tylko dwie kolumny: rok i AverageComedyRating.

    Zrzut ekranu przedstawiający zagregowany podgląd.

  20. Następnie chcesz dodać transformację ujścia pod Miejsce docelowe.

    Zrzut ekranu pokazujący, gdzie dodać transformację 'sink' w obszarze Miejsce docelowe.

  21. Nazwij zlew Zlew. Wybierz Nowy, aby utworzyć zbiór danych wyjściowych.

    Zrzut ekranu przedstawiający miejsce, w którym można nazwać ujście i utworzyć nowy zestaw danych ujścia.

  22. Wybierz Azure Data Lake Storage Gen2. Wybierz Kontynuuj.

    Screenshot przedstawiający kafelek Azure Data Lake Storage Gen2, który można wybrać.

  23. Wybierz OddzielanyTekst. Wybierz Kontynuuj.

    Zrzut ekranu przedstawiający okienko w celu wybrania typu zestawu danych.

  24. Nadaj zestawowi danych ujścia nazwę MoviesSink. W przypadku połączonej usługi wybierz połączoną usługę ADLS Gen2 utworzoną w kroku 6. Wprowadź folder wyjściowy do zapisania danych. W tym samouczku zapisujemy dane do folderu "output" w kontenerze "sample-data". Folder nie musi istnieć wcześniej i można go dynamicznie tworzyć. Ustaw Pierwszy wiersz jako nagłówek na prawda i wybierz Brak dla Importuj schemat. Wybierz Zakończ.

    Zrzut ekranu przedstawiający stronę tworzenia ujścia z pierwszym wierszem jako zaznaczonym nagłówkiem.

Teraz ukończyłeś tworzenie przepływu danych. Możesz go uruchomić w swoim pipeline.

Uruchamianie i monitorowanie Przepływ danych

Można debugować potok danych przed jego opublikowaniem. W tym kroku uruchomisz debugowanie potoku przepływu danych. Chociaż podgląd danych nie zapisuje danych, przebieg debugowania zapisuje dane w miejscu docelowym ujścia.

  1. Przejdź do kanwy potoku. Wybierz opcję Debug, aby uruchomić debugowanie.

    Zrzut ekranu przedstawiający kanwę potoku z wyróżnionym elementem Debug.

  2. Debugowanie potoku działań przepływu danych używa aktywnego klastra debugowania, ale inicjalizacja nadal trwa co najmniej minutę. Postęp można śledzić za pomocą karty Dane wyjściowe . Po pomyślnym zakończeniu przebiegu umieść kursor nad przebiegiem i wybierz ikonę okularów, aby otworzyć okienko monitorowania.

    Zrzut ekranu pokazujący stan zakończonego pipeline'u, z wyróżnionymi akcjami wyjściowymi.

  3. W okienku monitorowania wybierz przycisk Etapy, aby wyświetlić liczbę wierszy oraz czas poświęcony na każdy krok transformacji.

    Zrzut ekranu przedstawiający panel monitorowania z wyróżnionym przyciskiem „Etapy”.

    Zrzut ekranu przedstawiający okienko monitorowania, w którym można zobaczyć liczbę wierszy i czasu spędzonego w każdym kroku transformacji.

  4. Wybierz przekształcenie, aby uzyskać szczegółowe informacje o kolumnach i partycjonowaniu danych.

    Zrzut ekranu przedstawiający okienko monitorowania przekształceń.

Jeśli poprawnie wykonano czynności opisane w tym samouczku, powinieneś mieć zapisane 83 wiersze i 2 kolumny w folderze docelowym. Możesz zweryfikować poprawność danych, sprawdzając swoje miejsce magazynowe blobów.

Pipeline w tym samouczku uruchamia przepływ danych, który agreguje średnią ocen komedii z lat 1910 do 2000 i zapisuje dane w ADLS. Nauczyłeś się, jak:

  • Tworzenie fabryki danych.
  • Utwórz potok z aktywnością Przepływ danych.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Uruchomienie próbne pipeline'u.
  • Monitorowanie działania Przepływ danych

Dowiedz się więcej o języku wyrażeń przepływu danych.