Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Bezserwerowe obliczenia dla przepływów pracy umożliwiają uruchamianie zadania bez konfigurowania i wdrażania infrastruktury. W przypadku bezserwerowych zasobów obliczeniowych koncentrujesz się na implementowaniu potoków przetwarzania i analizy danych, a Azure Databricks efektywnie zarządza zasobami obliczeniowymi, w tym optymalizowanie i skalowanie zasobów obliczeniowych dla obciążeń. Skalowanie automatyczne i narzędzie Photon są automatycznie włączone dla zasobów obliczeniowych, które uruchamiają zadanie.
Bezserwerowe obliczenia dla przepływów pracy automatycznie i stale optymalizują infrastrukturę, taką jak typy wystąpień, pamięć i aparaty przetwarzania, aby zapewnić najlepszą wydajność na podstawie określonych wymagań dotyczących przetwarzania obciążeń.
Usługa Databricks automatycznie uaktualnia wersję środowiska Databricks Runtime w celu obsługi ulepszeń i uaktualnień platformy przy jednoczesnym zapewnieniu stabilności zadań. Aby wyświetlić bieżącą wersję środowiska Databricks Runtime używaną przez bezserwerowe obliczenia dla przepływów pracy, zobacz Informacje o wersji obliczeniowej bezserwerowej.
Ponieważ uprawnienia do tworzenia klastra nie są wymagane, wszyscy użytkownicy obszaru roboczego mogą używać bezserwerowych obliczeń do uruchamiania przepływów pracy.
Na tej stronie opisano używanie interfejsu użytkownika zadań lakeflow do tworzenia i uruchamiania zadań, które używają bezserwerowych obliczeń. Można również zautomatyzować tworzenie i uruchamianie zadań, które używają bezserwerowych zasobów obliczeniowych przy użyciu interfejsu API zadań, pakietów deklaratywnej automatyzacji i zestawu SDK usługi Databricks dla Python.
- Aby dowiedzieć się więcej o używaniu interfejsu API zadań do tworzenia i uruchamiania zadań korzystających z bezserwerowych obliczeń, zobacz Zadania w dokumentacji interfejsu API REST.
- Aby dowiedzieć się więcej o tworzeniu i uruchamianiu zadań bezserwerowych przy użyciu pakietów automatyzacji deklaratywnej, zobacz Tworzenie zadania przy użyciu pakietów deklaratywnej automatyzacji.
- Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań bezserwerowych przy użyciu zestawu SDK usługi Databricks dla Python, zobacz zestaw SDK usługi Databricks dla Python.
Wymagania
- Przestrzeń robocza Azure Databricks musi mieć włączony Unity Catalog.
- Ponieważ przetwarzanie bezserwerowe dla przepływów pracy korzysta z standardowego trybu dostępu, obciążenia muszą obsługiwać ten tryb dostępu.
- Obszar roboczy usługi Databricks musi znajdować się w obsługiwanym regionie na potrzeby przetwarzania bezserwerowego.
Tworzenie zadania przy użyciu obliczeń bezserwerowych
Uwaga
Ponieważ przetwarzanie bezserwerowe dla przepływów zadań zapewnia, że wystarczające zasoby są przydzielane do uruchamiania obciążeń roboczych, może wystąpić dłuższy czas uruchamiania przy wykonywaniu zadania wymagającego dużej ilości pamięci lub obejmującego wiele zadań.
Przetwarzanie bezserwerowe jest obsługiwane w przypadku notesu, skryptu Python, dbt, Python wheel i typów zadań JAR. Domyślnie obliczenia bezserwerowe są wybierane jako typ obliczeniowy podczas tworzenia zadania i dodawania jednego z tych obsługiwanych typów zadań.
Ważne
Używanie przetwarzania bezserwerowego dla zadań JAR jest w publicznej wersji zapoznawczej.
Usługa Databricks zaleca używanie obliczeń bezserwerowych dla wszystkich zadań. Można również określić różne typy zasobów obliczeniowych dla zadań w zadaniu, które mogą być wymagane, jeśli typ zadania nie jest obsługiwany przez bezserwerowe obliczenia dla przepływów pracy.
Aby zarządzać wychodzącymi połączeniami sieciowymi dla swoich zadań, zobacz Co to jest kontrola ruchu wychodzącego w środowisku bezserwerowym?
Konfigurowanie istniejącego zadania do używania bezserwerowych obliczeń
Istniejące zadanie można przełączyć, aby używać bezserwerowych obliczeń dla obsługiwanych typów zadań podczas edytowania zadania. Aby przełączyć się na obliczenia bezserwerowe, wykonaj jedną z następujących czynności:
- W bocznym panelu szczegóły zadania, kliknij Zamień w obszarze Compute, a następnie kliknij przycisk Nowy, wprowadź lub zaktualizuj dowolne ustawienia, i kliknij pozycję Aktualizuj.
- Kliknij
w menu rozwijanym Compute i wybierz Serverless.
Planowanie notatnika przy użyciu obliczeń bezserwerowych
Oprócz używania interfejsu użytkownika zadań do tworzenia i planowania zadania przy użyciu obliczeń bezserwerowych można utworzyć i uruchomić zadanie korzystające z bezserwerowych obliczeń bezpośrednio z notesu usługi Databricks. Zobacz Tworzenie i zarządzanie zaplanowanymi zleceniami notatnika.
Wybierz politykę bezserwerowego użytkowania dla swojej usługi bezserwerowej
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Zasady użycia bezserwerowego umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń.
Jeśli obszar roboczy używa zasad użycia bezserwerowego do przypisywania użycia bezserwerowego, możesz wybrać politykę użycia bezserwerowego swojego zadania, korzystając z ustawienia polityki budżetowej w interfejsie użytkownika szczegółów zadania. Jeśli przypisano tylko jedną zasadę użycia bezserwerowego, zasady zostaną automatycznie wybrane dla nowych zadań.
Uwaga
Po przypisaniu zasad użycia bezserwerowego, istniejące zadania nie są automatycznie oznaczane tą zasadą. Jeśli chcesz przypisać im politykę, musisz ręcznie zaktualizować istniejące zadania.
Aby uzyskać więcej informacji na temat zasad użycia bezserwerowych, zobacz Użycie atrybutów z zasadami użycia bezserwerowego.
Wybieranie trybu wydajności
Możesz wybrać szybkość uruchamiania zadań bezserwerowych zadania przy użyciu ustawienia Zoptymalizowane pod kątem wydajności na stronie szczegółów zadania.
Gdy optymalizacja pod kątem wydajności jest wyłączona, zadanie używa standardowego trybu wydajności. Ten tryb wykorzystuje mniejsze zasoby obliczeniowe w celu zmniejszenia kosztów, dzięki czemu jest odpowiedni dla obciążeń, które mogą tolerować nieco wyższe opóźnienie uruchamiania od 4 do 6 minut, w zależności od dostępności zasobów obliczeniowych i zoptymalizowanego planowania.
Po włączeniu optymalizacji wydajności zadanie rozpoczyna się i przebiega sprawniej. Ten tryb jest przeznaczony dla czasowo wrażliwych obciążeń.
Oba tryby używają tej samej jednostki SKU, ale standardowy tryb wydajności zużywa mniej jednostek DBU, odzwierciedlając niższe użycie zasobów obliczeniowych.
Aby skonfigurować ustawienie Zoptymalizowane pod kątem wydajności w interfejsie użytkownika, zadanie musi mieć co najmniej jedno zadanie bezserwerowe. To ustawienie ma wpływ tylko na zadania bezserwerowe w ramach zadania.
Uwaga
Tryb standardowej wydajności nie jest obsługiwany dla jednorazowych uruchomień utworzonych przy użyciu punktu końcowego runs/submit.
Ustawianie parametrów konfiguracji platformy Spark
Aby zautomatyzować konfigurację platformy Spark na obliczeniach bezserwerowych, usługa Databricks zezwala na ustawianie tylko określonych parametrów konfiguracji platformy Spark. Aby uzyskać listę dozwolonych parametrów, zobacz Obsługiwane parametry konfiguracji platformy Spark.
Parametry konfiguracji platformy Spark można ustawić tylko na poziomie sesji. Aby to zrobić, zapisz je w notesie i dodaj notes do zadania zawartego w tej samej pracy, która wykorzystuje te parametry. Zobacz Ustaw właściwości konfiguracji Spark w Azure Databricks.
Konfigurowanie środowisk i zależności
Aby dowiedzieć się, jak zainstalować biblioteki i zależności przy użyciu obliczeń bezserwerowych, zobacz Konfigurowanie środowiska bezserwerowego.
Konfigurowanie dużej pamięci na potrzeby zadań notebooka
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Zadania notesu można skonfigurować tak, aby używały większego rozmiaru pamięci. W tym celu skonfiguruj ustawienie Pamięć w panelu bocznym Środowisko notesu. Zobacz Use high memory serverless compute (Korzystanie z obliczeń bezserwerowych z dużą ilością pamięci).
Duża ilość pamięci jest dostępna tylko dla typów zadań notebooka.
Konfigurowanie automatycznej optymalizacji obliczeń bezserwerowych w celu uniemożliwiania ponawiania prób
Bezserwerowe obliczenia dla przepływów pracy do automatycznej optymalizacji automatycznie optymalizują zasoby obliczeniowe wykorzystywane do uruchamiania i ponawiania zadań, które zakończyły się niepowodzeniem. Automatyczna optymalizacja jest domyślnie włączona, a usługa Databricks zaleca pozostawienie jej włączonej, aby zapewnić pomyślne uruchomienie krytycznych obciążeń co najmniej raz. Jeśli jednak masz obciążenia, które muszą być wykonywane co najwyżej raz, na przykład zadania, które nie są idempotentne, możesz wyłączyć automatyczną optymalizację podczas dodawania lub edytowania zadania:
-
Obok pozycji Ponawianie kliknij przycisk Dodaj (lub
, jeśli zasady ponawiania już istnieją). - W oknie dialogowym Zasady ponawiania prób odznacz Włącz automatyczną optymalizację bezserwerową (może obejmować dodatkowe ponowienia prób).
- Kliknij przycisk Potwierdź.
- Jeśli dodajesz zadanie, kliknij pozycję Utwórz zadanie. Jeśli edytujesz zadanie, kliknij pozycję Zapisz zadanie.
Monitorowanie kosztów zadań, które używają bezserwerowych obliczeń dla przepływów pracy
Można monitorować koszt zadań korzystających z bezserwerowych zasobów obliczeniowych w przepływach pracy, wykonując zapytanie do tabeli systemowej kosztu użycia . Ta tabela jest aktualizowana w celu uwzględnienia atrybutów użytkownika i obciążenia dotyczących kosztów bezserwerowych. Zobacz Referencję do tabeli rozliczeń użycia.
Aby uzyskać informacje na temat bieżących cen i wszelkich promocji, zobacz stronę Cennik przepływów pracy.
Wyświetlanie szczegółów zapytania dla wykonania zadań
Szczegółowe informacje o czasie wykonywania można wyświetlić dla instrukcji w Spark, takich jak metryki i plany zapytań.
Aby uzyskać dostęp do szczegółów zapytania z poziomu interfejsu użytkownika zadań, wykonaj następujące kroki:
Na pasku bocznym obszaru roboczego Azure Databricks kliknij pozycję Zadania i Potoki.
Opcjonalnie wybierz filtr Zadania .
Kliknij nazwę zadania, które chcesz wyświetlić.
Kliknij konkretny przebieg, który chcesz wyświetlić.
Kliknij pozycję Oś czasu , aby wyświetlić przebieg jako oś czasu z podziałem na poszczególne zadania.
Kliknij strzałkę obok nazwy zadania, aby wyświetlić zapytania i ich czasy wykonania.
Kliknij oświadczenie, aby otworzyć panel szczegółów zapytania. Zobacz Wyświetlanie szczegółów zapytania, aby dowiedzieć się więcej o informacjach dostępnych w tym panelu.
Aby wyświetlić historię zapytań dla zadania:
- W sekcji Obliczenia panelu bocznego Wykonywania zadania kliknij Historia zapytań.
- Zostaniesz przekierowany do historii zapytań, wstępnie przefiltrowanej na podstawie identyfikatora uruchomienia zadania, w którym uczestniczyłeś/aś.
Aby uzyskać informacje na temat korzystania z historii zapytań, zobacz historię zapytań dla potoków i historię zapytań.
Ograniczenia
Aby uzyskać listę bezserwerowych obliczeń dotyczących ograniczeń przepływów pracy, zobacz ograniczenia obliczeniowe bezserwerowe w informacjach o wersji obliczeniowej bezserwerowej.