Udostępnij za pośrednictwem


Uruchamianie notesu usługi Databricks za pomocą działania notesu usługi Databricks w usłudze Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.

W tym samouczku użyjesz portalu Azure do utworzenia potoku Azure Data Factory, który wykonuje notatnik Databricks w klastrze zadania Databricks. Przekazuje również parametry Azure Data Factory do notatnika Azure Databricks podczas wykonywania.

W tym samouczku wykonasz następujące kroki:

  • Tworzenie fabryki danych.

  • Utwórz potok, który używa aktywności notesu Databricks.

  • Uruchom potok.

  • Monitoruj przebieg potoku.

Jeśli nie masz subskrypcji Azure, przed rozpoczęciem utwórz konto free.

Uwaga

Aby uzyskać szczegółowe informacje na temat używania działania notesu usługi Databricks, w tym używania bibliotek i przekazywania parametrów wejściowych i wyjściowych, zapoznaj się z dokumentacją działania notesu usługi Databricks.

Wymagania wstępne

  • Azure Databricks środowisko robocze. Utwórz obszar roboczy usługi Databricks lub użyj istniejącego. Tworzysz notatnik Python w swoim obszarze roboczym Azure Databricks. Następnie uruchamiasz notatnik i przekazujesz do niego parametry przy użyciu Azure Data Factory.

Tworzenie fabryki danych

  1. Uruchom Microsoft Edge lub Google Chrome przeglądarki internetowej. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko w przeglądarkach internetowych Microsoft Edge i Google Chrome.

  2. Wybierz Utwórz zasób w menu portalu Azure, a następnie wybierz pozycję Analytics>Data Factory:

    Zrzut ekranu przedstawiający wybór usługi Data Factory w okienku Nowy.

  3. Na stronie Utwórz usługę Data Factory, na karcie Podstawy, wybierz Subskrypcję Azure, w której chcesz utworzyć Data Factory.

  4. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    1. Wybierz istniejącą grupę zasobów z listy rozwijanej.

    2. Wybierz pozycję Utwórz nową i wprowadź nazwę nowej grupy zasobów.

    Aby dowiedzieć się więcej o grupach zasobów, zobacz Za pomocą grup zasobów do zarządzania zasobami Azure.

  5. W obszarze Region wybierz lokalizację fabryki danych.

    Lista zawiera tylko lokalizacje obsługiwane przez usługę Data Factory oraz lokalizacje, w których będą przechowywane dane meta Azure Data Factory. Skojarzone magazyny danych (takie jak Azure Storage i Azure SQL Database) i obliczenia (takie jak Azure HDInsight), których usługa Data Factory używa, może działać w innych regionach.

  6. W polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych Azure musi być unikatowa na całym świecie. Jeśli zostanie wyświetlony następujący błąd, zmień nazwę fabryki danych (na przykład użyj <nazwy>ADFTutorialDataFactory). Artykuł Usługa Data Factory — reguły nazewnictwa zawiera reguły nazewnictwa artefaktów usługi Data Factory.

    Zrzut ekranu przedstawiający błąd, gdy nazwa jest niedostępna.

  7. W obszarze Wersja wybierz pozycję V2.

  8. Wybierz pozycję Dalej: Konfiguracja usługi Git, a następnie zaznacz pole wyboru Skonfiguruj usługę Git później .

  9. Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz po zakończeniu walidacji.

  10. Po zakończeniu tworzenia wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych . Wybierz kafelek Otwórz Azure Data Factory Studio, aby uruchomić aplikację interfejsu użytkownika Azure Data Factory na osobnej karcie przeglądarki.

    Zrzut ekranu przedstawiający stronę główną usługi Azure Data Factory z kafelkiem Otwórz Azure Data Factory Studio.

Tworzenie połączonych usług

W tej sekcji utworzysz połączoną usługę Databricks. Ta połączona usługa zawiera informacje o połączeniu z klastrem usługi Databricks:

Tworzenie połączonej usługi Azure Databricks

  1. Na stronie głównej przejdź do karty Zarządzanie w panelu po lewej stronie.

    Zrzut ekranu przedstawiający kartę Zarządzanie.

  2. Wybierz pozycję Połączone usługi w obszarze Połączenia, a następnie wybierz pozycję + Nowy.

    Zrzut ekranu przedstawiający sposób tworzenia nowego połączenia.

  3. W oknie Nowa połączona usługa wybierz Compute>Azure Databricks a następnie wybierz Continue.

    Zrzut ekranu przedstawiający sposób określania połączonej usługi Databricks.

  4. W oknie Nowa połączona usługa wykonaj następujące kroki:

    1. W polu Nazwa wprowadź AzureDatabricks_LinkedService.

    2. Wybierz odpowiedni obszar roboczy usługi Databricks, w którym uruchomisz notes.

    3. W obszarze Wybierz klaster wybierz Nowy klaster zadań.

    4. W przypadku adresu URL obszaru roboczego usługi Databricks informacje powinny być wypełniane automatycznie.

    5. W przypadku typu Uwierzytelnianie, jeśli wybierzesz Token dostępu, wygeneruj go z obszaru roboczego Azure Databricks. Procedurę można znaleźć tutaj. W przypadku tożsamości zarządzanej tożsamości usługi i przydzielonej tożsamości zarządzanej przez użytkownika, przyznaj rolę Contributor obu tożsamościom w menu Kontrola dostępu zasobu Azure Databricks.

    6. W polu Wersja klastra wybierz wersję, której chcesz użyć.

    7. W polu Typ węzła klastra wybierz pozycję Standard_D3_v2 w kategorii Ogólnego przeznaczenia (HDD) dla tego samouczka.

    8. Dla Pracowników wpisz 2.

    9. Wybierz pozycję Utwórz.

      Zrzut ekranu pokazujący konfigurację nowej usługi połączonej Azure Databricks.

Stwórz pipeline

  1. Wybierz przycisk + (znak plus), a następnie wybierz pozycję Potok w menu.

    Zrzut ekranu przedstawiający przyciski tworzenia nowego potoku.

  2. Utwórz parametr do użycia w potoku. Później przekażesz ten parametr do działania notesu usługi Databricks. W pustym pipeline wybierz kartę Parametry, następnie wybierz + Nowy i nadaj mu nazwę 'name'.

    Zrzut ekranu przedstawiający sposób tworzenia nowego parametru.

    Zrzut ekranu przedstawiający sposób tworzenia parametru name.

  3. W przyborniku Działania rozwiń pozycję Databricks. Przeciągnij działanie Notes z przybornika Działania na powierzchnię projektanta potoku.

    Zrzut ekranu przedstawiający sposób przeciągania notatnika na powierzchnię projektanta.

  4. W oknie właściwości działania DatabricksNotebook na dole, wykonaj następujące kroki:

    1. Przejdź do karty Azure Databricks.

    2. Wybierz AzureDatabricks_LinkedService (utworzoną w poprzedniej procedurze).

    3. Przejdź do karty Ustawienia.

    4. Użyj opcji Przeglądaj, aby wybrać Ścieżkę notesu usługi Databricks. W tym miejscu utworzymy notes i określimy ścieżkę. Otrzymasz ścieżkę notatnika, wykonując kilka następnych kroków.

      1. Uruchom obszar roboczy Azure Databricks.

      2. Utwórz nowy folder w miejscu pracy i nadaj mu nazwę adftutorial.

      3. Utwórz nowy notes. Nadajmy mu nazwę mynotebook. Kliknij prawym przyciskiem myszy folder adftutorial , a następnie wybierz polecenie Utwórz.

      4. W nowo utworzonym notesie „mynotebook” dodaj następujący kod:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. Ścieżka notesu w tym przypadku to /adftutorial/mynotebook.

  5. Przełącz się z powrotem do narzędzia tworzenia interfejsu użytkownika usługi Data Factory. Przejdź do karty Ustawienia w działaniu Notebook1 .

    a. Dodaj parametr do działania Notes. Używasz tego samego parametru, który wcześniej dodałeś do potoku.

    Zrzut ekranu przedstawiający sposób dodawania parametru.

    b. Nadaj parametrowi nazwę input i podaj wartość jako wyrażenie @pipeline().parameters.name.

  6. Aby zweryfikować pipeline, wybierz przycisk Weryfikuj na pasku narzędzi. Aby zamknąć okno weryfikacji, wybierz przycisk Zamknij .

    Zrzut ekranu przedstawiający weryfikację potoku.

  7. Wybierz opcję Publikuj wszystko. Interfejs użytkownika usługi Data Factory publikuje jednostki (połączone usługi i potok) w usłudze Azure Data Factory.

    Zrzut ekranu przedstawiający, jak opublikować nowe jednostki w Data Factory.

Wyzwól uruchomienie potoku

Wybierz pozycję Dodaj wyzwalacz na pasku narzędzi, a następnie wybierz pozycję Wyzwól teraz.

Zrzut ekranu przedstawiający sposób wybierania polecenia

W oknie dialogowym Pipeline run pojawia się zapytanie o parametr name. Jako parametru użyj w tym miejscu wartości /path/filename. Wybierz przycisk OK.

Zrzut ekranu przedstawiający sposób podawania wartości parametrów nazwy.

Monitorowanie działania potoku

  1. Przejdź do karty Monitor. Upewnij się, że zobaczysz przebieg potoku. Utworzenie klastra zadań usługi Databricks, w którym jest wykonywany notatnik, trwa około 5–8 minut.

    Zrzut ekranu przedstawiający sposób monitorowania potoku.

  2. Okresowo wybieraj opcję Odśwież, aby sprawdzić status uruchomienia potoku.

  3. Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz link pipeline1 w kolumnie Nazwa potoku.

  4. Na stronie Uruchomienia działań wybierz Dane wyjściowe w kolumnie Nazwa działania, aby wyświetlić dane wyjściowe każdego działania, a link do dzienników usługi Databricks można znaleźć w okienku Dane wyjściowe dla bardziej szczegółowych dzienników Spark.

  5. Możesz wrócić do widoku przebiegów potoku, wybierając Wszystkie przebiegi potoku w menu okruszków u góry strony.

Sprawdzanie danych wyjściowych

Możesz zalogować się do obszaru roboczego Azure Databricks, przejść do Job Runs i zobaczyć stan Job jako w oczekiwaniu na wykonanie, uruchomiony lub zakończony.

Możesz wybrać nazwę zadania i przejść, aby wyświetlić dalsze szczegóły. Po pomyślnym uruchomieniu można zweryfikować przekazane parametry i dane wyjściowe notesu Python.

Podsumowanie

Potok w tym przykładzie uruchamia aktywność Notatnika Databricks i przekazuje do niego parametr. Nauczyłeś się jak:

  • Tworzenie fabryki danych.

  • Utwórz potok, który używa działania notesu Databricks.

  • Uruchom potok.

  • Monitoruj przebieg potoku.