Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule przedstawiono podstawowe składniki, które należy zrozumieć, aby efektywnie korzystać z Azure Databricks.
Konta i obszary robocze
W Azure Databricks workspace to wdrożenie Azure Databricks w chmurze, które działa jako środowisko dla twojego zespołu w celu uzyskania dostępu do zasobów usługi Databricks. Twoja organizacja może wybrać wiele obszarów roboczych lub tylko jeden, w zależności od potrzeb.
Konto Azure Databricks account reprezentuje jedną jednostkę, która może zawierać wiele obszarów roboczych. Konta z włączonym Unity Catalog mogą być używane do centralnego zarządzania użytkownikami i ich dostępem do danych we wszystkich obszarach roboczych konta.
Rozliczenia: jednostki obliczeniowe Databricks (jednostki DBU)
Azure Databricks fakturuje na podstawie jednostek Databricks (DBU), które są jednostkami mocy obliczeniowej na godzinę w zależności od typu instancji maszyny wirtualnej.
Zobacz stronę cennika Azure Databricks.
Uwierzytelnianie i autoryzacja
W tej sekcji opisano pojęcia, które należy znać podczas zarządzania tożsamościami Azure Databricks i ich dostępem do zasobów Azure Databricks.
Użytkownik
Unikatowa osoba, która ma dostęp do systemu. Tożsamości użytkowników są reprezentowane przez adresy e-mail. Zobacz Zarządzanie użytkownikami.
Podmiot usługi
Tożsamość usługi do wykorzystania z zadaniami, zautomatyzowanymi narzędziami i systemami, takimi jak skrypty, aplikacje i platformy CI/CD. Jednostki usługi są reprezentowane przez identyfikator aplikacji. Zobacz Zasady usługi.
Grupa
Kolekcja tożsamości. Grupy upraszczają zarządzanie tożsamościami, ułatwiając przypisywanie dostępu do obszarów roboczych, danych i innych zabezpieczanych obiektów. Wszystkie tożsamości usługi Databricks można przypisać do grup. Zobacz Grupy.
Lista kontroli dostępu (ACL)
Lista uprawnień dołączonych do obszaru roboczego, klastra, zadania, tabeli lub eksperymentu. Lista ACL określa, którzy użytkownicy lub procesy systemowe otrzymują dostęp do obiektów, a także jakie operacje są dozwolone w zasobach. Każdy wpis w typowej liście ACL określa temat i operację. Zobacz Listy kontroli dostępu.
Osobisty token dostępu (PAT)
Osobisty token dostępu to ciąg znaków używanych do uwierzytelniania wywołań interfejsu API REST, połączeń z partnerami technologicznymi oraz innych narzędzi. Zobacz Uwierzytelnianie za pomocą tokenów dostępu osobistego Azure Databricks (starsza wersja).
Microsoft Entra ID tokeny mogą być również używane do uwierzytelniania w interfejsie API REST.
interfejsy Azure Databricks
W tej sekcji opisano interfejsy uzyskiwania dostępu do zasobów w Azure Databricks.
interfejs użytkownika
Interfejs użytkownika Azure Databricks jest interfejsem graficznym umożliwiającym interakcję z funkcjami, takimi jak foldery obszaru roboczego i zawarte w nich obiekty, obiekty danych i zasoby obliczeniowe.
Databricks One
Databricks One to uproszczony interfejs Azure Databricks przeznaczony dla użytkowników biznesowych. Zapewnia on pojedynczy punkt wejścia do wyświetlania pulpitów nawigacyjnych sztucznej inteligencji/analizy biznesowej, zadawania pytań dotyczących danych przy użyciu usługi Genie i korzystania z usługi Databricks Apps bez przechodzenia do pojęć dotyczących obszaru roboczego technicznego. Zobacz Co to jest usługa Databricks One?.
interfejs API REST
Interfejs API REST Databricks udostępnia punkty końcowe do modyfikowania lub żądania informacji o koncie Azure Databricks i obiektach obszaru roboczego. Zobacz dokumentację konta i dokumentację obszaru roboczego.
SQL REST API
Interfejs API REST SQL umożliwia automatyzowanie zadań na obiektach SQL. Zobacz API SQL.
CLI
Interfejs wiersza polecenia usługi Databricks jest hostowany w GitHub. Interfejs wiersza polecenia został zbudowany na bazie REST API Databricks.
Zarządzanie danymi
W tej sekcji opisano narzędzia i obiekty logiczne używane do organizowania i zarządzania danymi na Azure Databricks. Zobacz obiekty Database w Azure Databricks.
Katalog Unity
Unity Catalog to zintegrowane rozwiązanie do zarządzania zasobami danych i sztucznej inteligencji na Azure Databricks, które zapewnia scentralizowaną kontrolę dostępu, audyt, śledzenie pochodzenia i funkcje odkrywania danych w przestrzeniach roboczych Databricks. Zobacz Unity Catalog.
Katalog
Katalogi są kontenerem najwyższego poziomu do organizowania i izolowania danych na Azure Databricks. Katalogi można udostępniać między obszarami roboczymi w tym samym regionie i na tym samym koncie. Zobacz Czym są katalogi w Azure Databricks?.
Schemat
Schematy, znane również jako bazy danych, są zawarte w wykazach i zapewniają bardziej szczegółowy poziom organizacji. Zawierają one obiekty bazy danych i zasoby sztucznej inteligencji, takie jak woluminy, tabele, funkcje i modele. Zobacz Jak są schematy w Azure Databricks?.
Stół
Tabele organizują i zarządzają dostępem do danych strukturalnych. Wykonujesz zapytania do tabel za pomocą Apache Spark SQL i API Apache Spark. Zobacz tabele Azure Databricks.
Widok
Widok jest obiektem tylko do odczytu pochodzącym z jednej lub więcej tabel i widoków. Widoki zapisują zapytania zdefiniowane w odniesieniu do tabel. Zobacz Co to jest widok?.
Głośność
Woluminy reprezentują logiczny wolumin magazynu w chmurowym magazynie obiektów i organizują oraz zarządzają dostępem do danych nietabelarycznych. Usługa Databricks zaleca używanie woluminów do zarządzania wszystkimi dostępami do danych innych niż tabelaryczne w magazynie obiektów w chmurze. Zobacz Czym są woluminy Unity Catalog?.
Tabele Delta
Domyślnie wszystkie tabele utworzone w Azure Databricks to tabele Delta. Tabele delty są oparte na projekcie Delta Lake open source— strukturze magazynu tabel ACID o wysokiej wydajności w magazynach obiektów w chmurze. Tabela Delta przechowuje dane w formie katalogu plików w chmurowym magazynie obiektów i rejestruje metadane tabeli w magazynie metadanych w ramach katalogu i schematu.
Magazyn metadanych
Unity Catalog udostępnia metastore na poziomie konta, który rejestruje metadane dotyczące danych, sztucznej inteligencji i uprawnień do katalogów, schematów i tabel. Zobacz Metastore.
Azure Databricks udostępnia przestarzały magazyn metadanych Hive dla klientów, którzy nie przyjęli Unity Catalog. Zobacz Kontrola dostępu do tabel magazynu metadanych Hive (starsza wersja).
Eksplorator wykazu
Eksplorator wykazu umożliwia eksplorowanie danych i zasobów sztucznej inteligencji oraz zarządzanie nimi, w tym schematy (bazy danych), tabele, modele, woluminy (dane inne niż tabelaryczne), funkcje i zarejestrowane modele uczenia maszynowego. Służy do znajdowania obiektów danych i właścicieli, rozumienia relacji danych między tabelami oraz zarządzania uprawnieniami i udostępnianiem. Zobacz Co to jest Eksplorator wykazu?.
Katalog główny systemu plików DBFS.
Ważne
Przechowywanie i uzyskiwanie dostępu do danych przy użyciu DBFS root lub zamontowań DBFS jest przestarzałym wzorcem i nie jest zalecane przez Databricks. Zamiast tego Databricks zaleca użycie Unity Catalog do zarządzania dostępem do wszystkich danych. Zobacz Unity Catalog.
Katalog root DBFS jest domyślnie dostępny dla wszystkich użytkowników. Zobacz Co to jest DBFS?.
Zarządzanie obliczeniami
W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać obliczenia w Azure Databricks.
Klaster
Zestaw zasobów obliczeniowych i konfiguracji, na których są uruchamiane notesy i zadania. Istnieją dwa typy klastrów: uniwersalne i zadaniowe. Zobacz Compute.
- Klaster ogólnego przeznaczenia jest tworzony przy użyciu interfejsu użytkownika, interfejsu wiersza polecenia lub interfejsu API REST. Działanie klastra ogólnego przeznaczenia można ręcznie przerwać i uruchomić ponownie. Wielu użytkowników może współużytkować takie klastry do interakcyjnej analizy.
- Harmonogram zadań Azure Databricks tworzy nowy klaster zadań, gdy uruchamiasz zadanie na nowym klastrze zadań, i kończy działanie klastra po zakończeniu zadania. Nie można ponownie uruchomić klastra zadań.
Pula
Zestaw niewykorzystywanych, ale gotowych do użycia instancji, które zmniejszają czas uruchamiania klastra i automatycznego skalowania. Po przypisaniu do puli klaster przydziela swoje węzły sterownika i robocze z puli. Zobacz Dokumentację konfiguracji puli.
Jeśli pula nie ma dostatecznych zasobów bezczynnych, aby obsłużyć żądanie klastra, rozszerza się, przydzielając nowe instancje od dostawcy instancji. Po zakończeniu działania dołączonego klastra, używane instancje są zwracane do puli i mogą być ponownie użyte przez inny klaster.
Środowisko uruchomieniowe usługi Databricks
Zestaw podstawowych składników uruchamianych w klastrach zarządzanych przez Azure Databricks. Zobacz Compute. Azure Databricks ma następujące środowiska uruchomieniowe:
- Środowisko Databricks Runtime obejmuje platformę Apache Spark, ale także dodaje wiele składników i aktualizacji, które znacząco zwiększają użyteczność, wydajność i bezpieczeństwo analizy danych big data.
- Databricks Runtime dla Machine Learning jest oparta na środowisku Databricks Runtime i udostępnia wstępnie utworzoną infrastrukturę machine learning zintegrowaną ze wszystkimi możliwościami obszaru roboczego Azure Databricks. Zawiera wiele popularnych bibliotek, w tym TensorFlow, Keras, PyTorch i XGBoost.
Interfejs użytkownika zadań i potoków
Interfejs użytkownika obszaru roboczego Zadania i potoki zapewnia dostęp do interfejsów użytkownika dla zadań, deklaratywnych potoków Lakeflow Spark i Lakeflow Connect, które umożliwiają orkiestrację i harmonogramowanie przepływów pracy.
Stanowiska
Nieinterakcyjny mechanizm organizowania i planowania notesów, bibliotek i innych zadań. Zobacz Zadania lakeflow
Pipelines
Potoki deklaratywne platformy Lakeflow Spark zapewniają deklaratywną strukturę do tworzenia niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych. Zobacz Lakeflow Spark Declarative Pipelines.
Obciążenie
Obciążenie to ilość możliwości przetwarzania potrzebnej do wykonania zadania lub grupy zadań. Azure Databricks identyfikuje dwa typy obciążeń: związane z inżynierią danych (zadanie) i związane z analizą danych (uniwersalne).
- Inżynieria danych (zautomatyzowane) obciążenie jest uruchamiane w klastrze zadań, który harmonogram zadań Azure Databricks tworzy dla każdego obciążenia.
- Analiza danych Obciążenie (interaktywne) jest uruchamiane w klastrze ogólnego przeznaczenia. Obciążenia interaktywne zwykle uruchamiają polecenia w notatniku Azure Databricks . Jednak uruchomienie zadania w istniejącym klastrze all-purpose jest również traktowane jako obciążenie interakcyjne.
Kontekst wykonywania
Stan środowiska pętli REPL (czytanie, ewaluacja, drukowanie) dla każdego obsługiwanego języka programowania. Obsługiwane języki to Python, R, Scala i SQL.
Inżynieria danych
Narzędzia do inżynierii danych ułatwiają współpracę między analitykami danych, inżynierami danych, analitykami danych i inżynierami uczenia maszynowego.
Obszar roboczy
workspace to środowisko do uzyskiwania dostępu do wszystkich zasobów Azure Databricks. Obszar roboczy organizuje obiekty (notesy, biblioteki, pulpity nawigacyjne i eksperymenty) w folderach oraz zapewnia dostęp do obiektów danych i zasobów obliczeniowych.
Notatnik
Internetowy interfejs do tworzenia przepływów pracy w data science i uczeniu maszynowym, które mogą zawierać polecenia, wizualizacje i tekst narracyjny. Zobacz Notesy usługi Databricks.
Biblioteka
Pakiet kodu dostępny dla notesu lub zadania uruchomionego w klastrze. Środowiska uruchomieniowe usługi Databricks obejmują wiele bibliotek, a także możesz przesłać swoje. Zobacz Instalowanie bibliotek.
Folder Git (dawniej Repos)
Folder, którego zawartość jest wersjonowana razem poprzez synchronizację ze zdalnym repozytorium Git. Foldery Git w Databricks integrują się z Git, aby zapewnić kontrolę wersji dla twoich projektów.
SI i uczenie maszynowe
Usługa Databricks udostępnia zintegrowane kompleksowe środowisko z usługami zarządzanymi do tworzenia i wdrażania aplikacji sztucznej inteligencji i uczenia maszynowego.
Mozaika AI
Nazwa marki produktów i usług firmy Databricks Mosaic AI Research, zespołu naukowców i inżynierów odpowiedzialnych za największe przełomy w generowaniu sztucznej inteligencji. Produkty mozaiki sztucznej inteligencji obejmują funkcje uczenia maszynowego i sztucznej inteligencji w usłudze Databricks. Zobacz Mozaika Research.
Środowisko uruchomieniowe uczenia maszynowego
Aby ułatwić opracowywanie modeli uczenia maszynowego i sztucznej inteligencji, usługa Databricks udostępnia środowisko Databricks Runtime dla Machine Learning, które automatyzuje tworzenie zasobów obliczeniowych przy użyciu wstępnie utworzonej infrastruktury machine learning i uczenia głębokiego, w tym najpopularniejszych bibliotek ML i DL. Ma również wbudowaną, wstępnie skonfigurowaną obsługę procesora GPU, w tym sterowniki i biblioteki pomocnicze. Zapoznaj się z informacjami o najnowszych wersjach środowiska uruchomieniowego w notatkach o wersjach i zgodności Databricks Runtime.
Eksperyment
Kolekcja przebiegów MLflow do tworzenia agentów, aplikacji LLM i modeli uczenia maszynowego. Zobacz Organizowanie przebiegów trenowania przy użyciu eksperymentów MLflow.
Funkcje
Funkcje są ważnym składnikiem modeli uczenia maszynowego. Magazyn funkcji umożliwia udostępnianie i odnajdywanie funkcji w całej organizacji, a także zapewnia, że ten sam kod obliczeniowy funkcji jest używany do trenowania i wnioskowania modelu. Zobacz Databricks Feature Store.
Generatywne modele sztucznej inteligencji
Usługa Databricks obsługuje eksplorację, opracowywanie i wdrażanie modeli generacyjnych sztucznej inteligencji, w tym:
- Plac zabaw dla sztucznej inteligencji to środowisko w obszarze roboczym przypominające czat, w którym można testować, stymulować i porównywać LLM. Zobacz Chat with LLMs and prototype generative AI apps using AI Playground (Czat z modułami LLM i prototypowymi aplikacjami generacyjnymi sztucznej inteligencji przy użyciu platformy AI Playground).
- Wbudowany zestaw wstępnie skonfigurowanych modeli podstawowych, dla których można wykonywać zapytania:
- Zobacz Interfejsy API modelu płatności za token.
- Zobacz [Zalecane] Wdrażanie modeli bazowych z Unity Catalog aby wdrożyć modele bazowe jednym kliknięciem.
- Modele LLM hostowane przez strony trzecie, nazywane
modelami zewnętrznymi . Te modele mają być używane zgodnie z rzeczywistymi wymaganiami. - Możliwości dostosowywania modelu podstawowego w celu zoptymalizowania jego wydajności dla określonej aplikacji (często nazywanego dostrajaniem). Zobacz Dostosowywanie modelu podstawowego.
Rejestr modeli
Databricks oferuje hostowaną wersję MLflow Model Registry w katalogu Unity. Modele zarejestrowane w katalogu Unity dziedziczą scentralizowaną kontrolę dostępu, pochodzenie, wyszukiwanie i dostęp między różnymi obszarami roboczymi. Zobacz Zarządzanie cyklem życia modelu w katalogu Unity.
Obsługa modelu
Usługa Mosaic AI Model Serving udostępnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań. Każdy model, który oferujesz, jest dostępny jako interfejs REST API, który można zintegrować z aplikacją internetową lub kliencką. Korzystając z usługi Mosaic AI Model Serving, można wdrażać własne modele, modele podstawowe lub modele innych firm hostowane poza usługą Databricks. Zobacz Wdrażanie modeli przy użyciu usługi Mozaika AI Model Serving.
Magazynowanie danych
Magazynowanie danych odnosi się do zbierania i przechowywania danych z wielu źródeł, dzięki czemu można je szybko uzyskać w celu uzyskania dostępu do szczegółowych informacji biznesowych i raportowania. Usługa Databricks SQL to kolekcja usług, które zapewniają możliwości magazynowania danych i wydajność istniejących magazynów danych. Zobacz Architektura magazynowania danych.
Zapytanie
Zapytanie jest prawidłową instrukcją SQL, która umożliwia interakcję z danymi. Zapytania można tworzyć przy użyciu edytora SQL platformy lub łączyć się przy użyciu łącznika SQL, sterownika lub interfejsu API. Zobacz Uzyskiwanie dostępu do zapisanych zapytań i zarządzanie nimi , aby dowiedzieć się więcej o sposobie pracy z zapytaniami.
SQL Warehouse
Zasób obliczeniowy, na którym są uruchamiane zapytania SQL. Istnieją trzy typy magazynów SQL: klasyczne, pro i bezserwerowe. Azure Databricks zaleca korzystanie z magazynów bezserwerowych tam, gdzie są dostępne. Zobacz Typy usługi SQL Warehouse , aby porównać dostępne funkcje dla każdego typu magazynu.
Historia zapytań
Lista wykonanych zapytań i ich właściwości wydajności. Historia zapytań umożliwia monitorowanie wydajności zapytań, co ułatwia identyfikowanie wąskich gardeł i optymalizowanie czasów wykonywania zapytań. Zobacz Historia zapytań.
Wizualizacja
Graficzna prezentacja wyniku uruchomienia zapytania. Zobacz Wizualizacje w notesach usługi Databricks i edytorze SQL.
Panel sterowania
Prezentacja wizualizacji danych i komentarzy. Możesz używać pulpitów do automatycznego wysyłania raportów do dowolnej osoby w Twoim koncie Azure Databricks. Użyj kodu Genie, aby ułatwić tworzenie wizualizacji na podstawie monitów języka naturalnego. Zobacz Panele sterowania. Panel można również utworzyć z notesu. Zobacz Dashboardy w notatnikach.