Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden grundlegende Komponenten vorgestellt, die Sie verstehen müssen, um Azure Databricks effektiv zu verwenden.
Konten und Arbeitsbereiche
In Azure Databricks ist ein workspace eine Azure Databricks Bereitstellung in der Cloud, die als Umgebung für Ihr Team fungiert, um auf Databricks-Ressourcen zuzugreifen. Je nach Anforderung kann Ihre Organisation ganz nach Bedarf entweder mehrere Arbeitsbereiche verwenden oder nur einen einzelnen.
Ein Azure Databricks account stellt eine einzelne Entität dar, die mehrere Arbeitsbereiche enthalten kann. Mithilfe von Konten, die für Unity Catalog aktiviert sind, können Benutzer und ihr Zugriff auf Daten zentral in allen Arbeitsbereichen im Konto verwaltet werden.
Abrechnung: Databricks-Einheiten (DBUs)
Azure Databricks berechnet die Kosten basierend auf Databricks-Einheiten (DBUs), die Einheiten der Verarbeitungskapazität pro Stunde entsprechend dem VM-Instanztyp darstellen.
Weitere Informationen finden Sie auf der Azure Databricks Preisseite.
Authentifizierung und Autorisierung
In diesem Abschnitt werden Konzepte beschrieben, die Sie wissen müssen, wenn Sie Azure Databricks Identitäten und deren Zugriff auf Azure Databricks Ressourcen verwalten.
Benutzer
Eine Einzelperson mit Zugriff auf das System. Benutzeridentitäten werden durch E-Mail-Adressen dargestellt. Weitere Informationen finden Sie unter Verwalten von Benutzern.
Dienstprinzipal
Eine Dienstidentität zur Verwendung mit Aufträgen, automatisierten Tools und Systemen wie Skripts, Apps und CI/CD-Plattformen. Dienstprinzipale werden durch eine Anwendungs-ID dargestellt. Siehe Dienstprinzipale.
Gruppe
Eine Sammlung von Identitäten. Gruppen vereinfachen die Identitätsverwaltung und erleichtern die Zuweisung des Zugriffs auf Arbeitsbereiche, Daten und andere sicherungsfähige Objekte. Alle Databricks-Identitäten können als Mitglieder von Gruppen zugewiesen werden. Siehe Gruppen.
Zugriffssteuerungsliste (Access Control List, ACL)
Eine Liste der Berechtigungen, die an den Arbeitsbereich, den Cluster, den Auftrag, die Tabelle oder das Experiment angefügt sind. Eine Zugriffskontrollliste gibt an, welchen Benutzern oder Systemprozessen Zugriff auf die Objekte gewährt wird, sowie welche Vorgänge auf den Vermögenswerten erlaubt sind. In einer typischen ACL umfasst jeder Eintrag ein Subjekt und einen Vorgang. Siehe Zugriffssteuerungslisten.
Persönliches Zugriffstoken (Personal Access Token, PAT)
Ein persönliches Zugriffstoken ist eine Zeichenfolge zum Authentifizieren von REST-API-Aufrufen, Technologiepartnerverbindungen und anderen Tools. Siehe Authentifizierung mit persönlichen Azure Databricks Zugriffstokens (veraltet).
Microsoft Entra ID Token können auch zur Authentifizierung bei der REST-API verwendet werden.
Azure Databricks Schnittstellen
In diesem Abschnitt werden die Schnittstellen für den Zugriff auf Ihre Ressourcen in Azure Databricks beschrieben.
Benutzeroberfläche
Die Azure Databricks UI ist eine grafische Benutzeroberfläche für die Interaktion mit Features wie Arbeitsbereichsordnern und deren enthaltenen Objekten, Datenobjekten und Rechenressourcen.
Databricks One
Databricks One ist eine vereinfachte Azure Databricks Schnittstelle, die für Geschäftsbenutzer entwickelt wurde. Sie bietet einen einzigen Einstiegspunkt zum Anzeigen von KI/BI-Dashboards, zum Stellen von Datenfragen mithilfe von Genie und zum Verwenden von Databricks-Apps, ohne in technische Arbeitsbereichskonzepte zu navigieren. Siehe Was ist Databricks One?.
REST-API
Die Databricks-REST-API stellt Endpunkte zum Ändern oder Anfordern von Informationen zu Azure Databricks Konto- und Arbeitsbereichsobjekten bereit. Siehe Kontoreferenz und Arbeitsbereichsreferenz.
SQL-REST-API
Mit der SQL REST-API können Sie Aufgaben für SQL-Objekte automatisieren. Weitere Informationen finden Sie unter SQL-API.
Befehlszeilenschnittstelle (CLI)
Die Databricks CLI wird auf GitHub gehostet. Die CLI basiert auf der Databricks-REST-API.
Datenverwaltung
In diesem Abschnitt werden die Tools und logischen Objekte beschrieben, die zum Organisieren und Steuern von Daten in Azure Databricks verwendet werden. Siehe Database-Objekte in Azure Databricks.
Unity-Katalog
Unity Catalog ist eine einheitliche Governance-Lösung für Daten- und KI-Ressourcen auf Azure Databricks, die zentrale Zugriffssteuerung, Überwachung, Linien und Datenermittlungsfunktionen in Databricks-Arbeitsbereichen bereitstellt. Siehe Was ist Unity Catalog?.
Katalog
Kataloge sind der Container der höchsten Ebene zum Organisieren und Isolieren von Daten auf Azure Databricks. Sie können Kataloge innerhalb derselben Region und desselben Kontos über Arbeitsbereiche hinweg freigeben. Siehe Was sind Kataloge in Azure Databricks?.
Schema
Schemas, auch als Datenbanken bezeichnet, sind in Katalogen enthalten und bieten eine differenziertere Organisationsebene. Sie enthalten Datenbankobjekte und KI-Objekte, z. B. Volumes, Tabellen, Funktionen und Modelle. Siehe What are schemas in Azure Databricks?.
Tabelle
Tabellen organisieren und steuern den Zugriff auf strukturierte Daten. Tabellen werden über Apache Spark SQL und Apache Spark-APIs abgefragt. Siehe Azure Databricks Tables.
Sicht
Eine Sicht ist ein schreibgeschütztes Objekt, das aus einer oder mehreren Tabellen und Sichten in einem Metastore abgeleitet ist. Ansichten speichern Abfragen, die für Tabellen definiert sind. Siehe Was ist eine Ansicht?.
Lautstärke
Volumes stellen ein logisches Speichervolumen in einem Cloudobjektspeicherort dar und organisieren und steuern den Zugriff auf nicht tabellarische Daten. Databricks empfiehlt die Verwendung von Volumes zum Verwalten des gesamten Zugriffs auf nicht tabellarische Daten im Cloudobjektspeicher. Weitere Informationen finden Sie unter Was sind Unity Catalog-Volumes?.
Delta-Tabellen
Standardmäßig sind alle in Azure Databricks erstellten Tabellen Delta-Tabellen. Delta-Tabellen basieren auf dem Delta Lake Open Source Projekt, einem Framework für hochleistungsfähigen ACID-Tabellenspeicher über Cloudobjektspeicher. Eine Delta-Tabelle speichert Daten als Datenverzeichnis im Cloudobjektspeicher und registriert Tabellenmetadaten im Metaspeicher innerhalb eines Katalogs und Schemas.
Metastore
Unity Catalog stellt einen Metaspeicher auf Kontoebene bereit, der Metadaten zu Daten, KI und Berechtigungen für Kataloge, Schemas und Tabellen registriert. Siehe Metastore.
Azure Databricks stellt einen legacy-Hive-Metaspeicher für Kunden bereit, die den Unity-Katalog nicht übernommen haben. Weitere Informationen finden Sie unter Hive-Metastore-Tabellenzugriffssteuerung (Legacy).
Katalog-Explorer
Mit dem Katalog-Explorer können Sie Daten und KI-Ressourcen, einschließlich Schemas (Datenbanken), Tabellen, Modelle, Volumes (nicht tabellarische Daten), Funktionen und registrierte ML-Modelle, untersuchen und verwalten. Sie können es verwenden, um Datenobjekte und Besitzer zu finden, Datenbeziehungen über Tabellen hinweg zu verstehen und Berechtigungen und Freigaben zu verwalten. Siehe Was ist der Katalog-Explorer?.
DBFS-Stamm
Wichtig
Das Speichern und der Zugriff auf Daten mithilfe des DBFS-Root oder DBFS-Mounts ist ein veraltetes Muster und wird von Databricks nicht empfohlen. Databricks empfiehlt stattdessen die Verwendung des Unity Catalog, um den Zugriff auf alle Daten zu verwalten. Siehe Was ist Unity Catalog?.
Der DBFS-Stamm ist ein Speicherort, der standardmäßig für alle Benutzer verfügbar ist. Weitere Informationen unter Was ist DBFS?.
Berechnungsmanagement
In diesem Abschnitt werden Konzepte beschrieben, die Sie kennen müssen, um Berechnungen in Azure Databricks auszuführen.
Kluster
Eine Reihe von Berechnungsressourcen und Konfigurationen, mit denen Sie Notebooks und Aufträge ausführen. Es gibt zwei Arten von Clustern: Allzweckcluster und Jobcluster. Siehe Compute.
- Sie können einen Allzweck-Cluster über die Benutzeroberfläche, mithilfe der CLI oder per REST-API erstellen. Sie können einen Universalcluster manuell beenden und neu starten. Diese Cluster können von mehreren Benutzern gemeinsam verwendet werden, um an interaktiven Analysen zusammenzuarbeiten.
- Der Azure Databricks Auftragsplaner erstellt a auftragscluster wenn Sie einen Auftrag auf einem neuen Auftragscluster ausführen und beendet den Cluster, wenn der Auftrag abgeschlossen ist. Auftragscluster können nicht neu gestartet werden.
Swimmingpool
Eine Reihe sofort einsatzbereiter Instanzen, die sich im Leerlauf befinden und die Zeit für den Clusterstart und die automatische Skalierung verkürzen. Wenn ein Cluster an einen Pool angefügt wird, werden seine Treiber- und Workerknoten aus dem Pool zugeordnet. Siehe Poolkonfigurationsreferenz.
Wenn der Pool nicht über ausreichende Leerlaufressourcen verfügt, um die Anforderung des Clusters aufzunehmen, wird der Pool erweitert, indem neue Instanzen vom Instanzanbieter zugeordnet werden. Wenn ein angefügter Cluster beendet wird, werden die verwendeten Instanzen an den Pool zurückgegeben und können von einem anderen Cluster wiederverwendet werden.
Databricks-Runtime
Die Gruppe der Kernkomponenten, die auf den von Azure Databricks verwalteten Clustern ausgeführt werden. Siehe Compute. Azure Databricks hat die folgenden Laufzeiten:
- Databricks Runtime umfasst Apache Spark sowie eine Reihe von Komponenten und Updates, die die Benutzerfreundlichkeit, Leistung und Sicherheit von Big Data-Analysen erheblich verbessern.
- Databricks Runtime für Machine Learning basiert auf Databricks Runtime und bietet vorgefertigte machine learning Infrastruktur, die in alle Funktionen des Azure Databricks Arbeitsbereichs integriert ist. und umfasst mehrere gängige Bibliotheken, darunter TensorFlow, Keras, PyTorch und XGBoost.
UI für Jobs und Pipelines
Die
Aufträge
Ein nicht interaktiver Mechanismus zum Orchestrieren und Planen von Notebooks, Bibliotheken und anderen Aufgaben Siehe Lakeflow Jobs
Rohrleitungen
Lakeflow Spark Declarative Pipelines bieten ein deklaratives Framework für die Erstellung zuverlässiger, wartungsfähiger und testbarer Datenverarbeitungspipelines. Siehe Lakeflow Spark Declarative Pipelines.
Arbeitsbelastung
Workload ist die Menge der Verarbeitungsfunktion, die zum Ausführen einer Aufgabe oder Gruppe von Aufgaben erforderlich ist. Azure Databricks identifiziert zwei Arten von Workloads: Datentechnik (Auftrag) und Datenanalyse (allzweckübergreifend).
- Data engineering Eine (automatisierte) Workload wird auf a job cluster ausgeführt, den der Azure Databricks Auftragsplaner für jede Workload erstellt.
- Datenanalyse: Eine (interaktive) Workload wird in einem Universalcluster ausgeführt. Interaktive Workloads führen in der Regel Befehle in einem Azure Databricks notebook aus. Das Ausführen eines Auftrags in einem vorhandenen Universalcluster wird allerdings ebenfalls als interaktive Workload behandelt.
Ausführungskontext
Der Status für eine Read-Eval-Print-Loop-(REPL-)Umgebung für jede unterstützte Programmiersprache. Die unterstützten Sprachen sind Python, R, Scala und SQL.
Datentechnik
Data Engineering Tools unterstützen die Zusammenarbeit zwischen Datenwissenschaftlern, Dateningenieuren, Datenanalysten und Machine Learning-Ingenieuren.
Arbeitsbereich
Ein workspace ist eine Umgebung für den Zugriff auf alle Ihre Azure Databricks Ressourcen. In einem Arbeitsbereich werden Objekte (Notebooks, Bibliotheken, Dashboards und Experimente) in Ordnern strukturiert, und er ermöglicht den Zugriff auf Datenobjekte und Computeressourcen.
Notebook
Eine webbasierte Schnittstelle zum Erstellen von Data Science- und Machine Learning-Workflows, die ausführungsfähige Befehle, Visualisierungen und narrativen Text enthalten können. Siehe Databricks-Notizbücher.
Bibliothek
Ein Paket mit Code, das für das Notebook oder den Auftrag verfügbar ist, das bzw. der in Ihrem Cluster ausgeführt wird. Databricks-Runtimes enthalten zahlreiche Bibliotheken, und Sie können auch eigene Bibliotheken hochladen. Siehe Installieren von Bibliotheken.
Git-Ordner (früher Repos)
Ein Ordner, dessen Inhalte mittels Synchronisierung mit einem Git-Remoterepository gemeinsam versioniert werden. Databricks-Git-Ordner sind in Git integriert und stellen die Quellcode- und Versionskontrolle für Ihre Projekte bereit.
KI und Machine Learning
Databricks bietet eine integrierte End-to-End-Umgebung mit verwalteten Diensten für die Entwicklung und Bereitstellung von KI- und Machine Learning-Anwendungen.
Mosaic Künstliche Intelligenz
Der Markenname für Produkte und Dienstleistungen von Databricks Mosaic AI Research, einem Team von Forschern und Ingenieuren, die für Databricks größte Durchbrüche bei der generativen KI verantwortlich sind. Mosaic AI-Produkte umfassen die ML- und KI-Features in Databricks. Siehe Mosaic Recherche.
Machine-Learning-Laufzeit
Um Ihnen bei der Entwicklung von ML- und KI-Modellen zu helfen, stellt Databricks eine Databricks-Runtime für Machine Learning bereit, die die Berechnungserstellung mit vordefinierten machine learning und Deep Learning-Infrastruktur automatisiert, einschließlich der am häufigsten verwendeten ML- und DL-Bibliotheken. Darüber hinaus verfügt die Lösung über integrierte, vorkonfigurierte GPU-Unterstützung, einschließlich Treibern und unterstützenden Bibliotheken. Navigieren Sie zu Informationen zu den neuesten Laufzeitversionen von Databricks Runtime– Versionshinweisen und Kompatibilitätsversionen.
Experiment
Eine Sammlung von MLflow-Läufen zur Entwicklung von Agenten, LLM-Anwendungen und ML-Modellen. Weitere Informationen finden Sie unter Organisieren von Trainingsausführungen mit MLflow-Experimenten.
Funktionen
Features sind eine wichtige Komponente von ML-Modellen. Ein Featurespeicher ermöglicht die Ermittlung und gemeinsame Nutzung von Features in Ihrer gesamten Organisation und stellt zudem sicher, dass für Modelltraining und Rückschlüsse der gleiche Featureberechnungscode verwendet wird. Siehe Databricks Feature Store.
Generative KI-Modelle
Databricks unterstützt die Erforschung, Entwicklung und den Einsatz von generativen KI-Modellen, einschließlich:
- Ein KI-Spielplatz, eine Umgebung ähnlich einem Chat innerhalb des Arbeitsbereichs, in der Sie LLMs testen, anstoßen und vergleichen können. Siehe Chatten mit LLMs und prototypischen generativen KI-Apps mit KI-Playground.
- Ein integrierter Satz von vorkonfigurierten Grundlagenmodellen, die Sie abfragen können:
- Siehe Pay-per-Token Foundation Model-APIs.
- Weitere Informationen zu Foundation-Modellen, die Sie mit einem einzigen Klick bereitstellen können, finden Sie unter [Empfohlen] Bereitstellen von Foundation-Modellen aus dem Unity-Katalog.
- Von Drittanbietern gehostete LLMs, die als externe Modelle bezeichnet werden. Diese Modelle sind dafür gedacht, so verwendet zu werden, wie sie sind.
- Die Fähigkeiten, ein Basismodell anzupassen und seine Leistung für Ihre spezifische Anwendung zu optimieren (oft als Feinabstimmung bezeichnet). Siehe Foundation Model Fine-Tuning.
Modellregistrierung
Databricks stellt eine gehostete Version der MLflow-Modellregistrierung in Unity Catalog bereit. Modelle, die im Unity-Katalog registriert sind, erben zentrale Zugriffssteuerung, Linienführung und arbeitsbereichübergreifende Ermittlung und Zugriff. Weitere Informationen dazu finden Sie unter Verwalten des Lebenszyklus von Modellen in Unity Catalog.
Modellbereitstellung
Mosaic AI Model Serving bietet eine einheitliche Schnittstelle zum Bereitstellen, Steuern und Abfragen Ihrer bereitgestellten KI-Modelle. Jedes von Ihnen bereitgestellte Modell ist als REST-API verfügbar, die Sie in Ihre Web- oder Clientanwendung integrieren können. Mit Mosaic AI Model Serving können Sie eigene Modelle, Foundationmodelle oder Drittanbietermodelle bereitstellen, die außerhalb von Databricks gehostet werden. Weitere Informationen finden Sie unter Bereitstellen von Modellen mit der Mosaic AI-Modellbereitstellung.
Data Warehousing
Data Warehousing bezieht sich auf das Sammeln und Speichern von Daten aus mehreren Quellen, sodass schnell auf Geschäftserkenntnisse und Berichte zugegriffen werden kann. Databricks SQL ist die Sammlung von Diensten, die Data Warehouse-Funktionen und Leistung für Ihre vorhandenen Data Lakes bereitstellen. Siehe Data Warehouse-Architektur.
Abfrage
Eine Abfrage ist eine gültige SQL-Anweisung, mit der Sie mit Ihren Daten interagieren können. Sie können Abfragen mithilfe des in-plattformbasierten SQL-Editors erstellen oder eine Verbindung mittels SQL-Connector, Treiber oder API herstellen. Weitere Informationen zum Arbeiten mit Abfragen finden Sie unter Access und Verwalten gespeicherter Abfragen.
SQL Warehouse
Eine Berechnungsressource, für die Sie SQL-Abfragen ausführen. Es gibt drei Arten von SQL-Lagerhäusern: Klassisch, Pro und Serverless. Azure Databricks empfiehlt die Verwendung serverloser Lagerhäuser, sofern verfügbar. Lesen Sie SQL-Lagertypen, um die verfügbaren Features für jeden Lagertyp zu vergleichen.
Abfrageverlauf
Eine Liste der ausgeführten Abfragen und deren Leistungsmerkmale. Mit dem Abfrageverlauf können Sie die Abfrageleistung überwachen, Engpässe erkennen und Abfragelaufzeiten optimieren. Weitere Informationen finden Sie unter Abfrageverlauf.
Visualisierung
Eine grafische Darstellung des Ergebnisses der Ausführung einer Abfrage. Siehe Visualisierungen in Databricks-Notizbüchern und SQL-Editor.
Dashboard
Eine Präsentation von Datenvisualisierungen und Kommentaren. Sie können Dashboards verwenden, um Automatisch Berichte an alle Personen in Ihrem Azure Databricks Konto zu senden. Verwenden Sie den Genie Code, um Visualisierungen basierend auf Aufforderungen in natürlicher Sprache zu erstellen. Siehe Dashboards. Sie können auch ein Dashboard aus einem Notizbuch erstellen. Weitere Informationen finden Sie unter Dashboards in Notebooks.