Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera förhandsversioner av Azure Databricks.
:::note Efterlevnad
Den hanterade SharePoint-anslutningsappen stöder användning på arbetsytor med alternativet Konfigurera utökade säkerhets- och efterlevnadsinställningar aktiverade.
:::
Den här sidan visar hur du skapar en hanterad Microsoft SharePoint-inmatningspipeline med Lakeflow Connect.
Innan du börjar
Om du vill skapa inmatningspipelinen måste du först uppfylla följande krav:
Arbetsytan måste vara aktiverad för Unity Catalog.
Serverlös beräkning måste vara aktiverad för din arbetsyta. Se Krav för serverlös beräkning.
Om du planerar att skapa en ny anslutning: Du måste ha
CREATE CONNECTIONbehörigheter för metaarkivet. Se avsnitt Hantera privilegier i Unity Catalog.Om anslutningsappen stöder UI-baserad pipelineredigering kan en administratör skapa anslutningen och pipelinen samtidigt genom att slutföra stegen på den här sidan. Men om de användare som skapar pipelines använder API-baserad pipelineredigering eller inte är administratörsanvändare, måste en administratör först skapa anslutningen i Catalog Explorer. Se Anslut till hanterade inmatningskällor.
Om du planerar att använda en befintlig anslutning: Du måste ha
USE CONNECTIONbehörighet ellerALL PRIVILEGESför anslutningsobjektet.Du måste ha
USE CATALOGbehörigheter i målkatalogen.Du måste ha
USE SCHEMAochCREATE TABLEbehörigheter för ett befintligt schema ellerCREATE SCHEMAbehörigheter i målkatalogen.
Om du vill mata in från SharePoint måste du först konfigurera autentiseringsmetoder som stöds. Se Översikt över konfiguration av SharePoint-inmatning.
Skapa en inmatningspipeline
Databricks-anteckningsbok
Importera följande notebook-fil till din arbetsyta:
Lämna standardvärdena i cell 1. Ändra inte den här cellen.
Om du vill importera alla drivrutiner på SharePoint-webbplatsen, ändrar du schemaspecifikationen i cell 2. Om du bara vill importera vissa enheter på din SharePoint-webbplats, tar du bort cell 2 och ändrar tabellspecifikationen i cell 3 i stället.
Ändra inte
channel. Detta måste varaPREVIEW.Klicka på Kör alla.
Databricks kommandoradsgränssnitt (CLI)
Kör följande kommando:
databricks pipelines create --json "<pipeline definition or json file path>"
Mallar för pipelinedefinitioner
Om du vill mata in alla enheter på SharePoint-webbplatsen använder du schemats specifikationsformat för din pipelinedefinition. Om du bara vill importera vissa enheter använder du definitionsformatet för tabellspecifikation på SharePoint-webbplatsen i stället. Ändra inte channel. Detta måste vara PREVIEW.
Schemaspecifikationsvärden som ska ändras:
-
name: Ett unikt namn för pipelinen. -
connection_name: Unity Catalog-anslutningen som lagrar autentiseringsinformationen för SharePoint. -
source_schema: Ditt SharePoint-webbplats-ID. -
destination_catalog: Ett namn på målkatalogen som ska innehålla inmatade data. -
destination_schema: Ett namn på målschemat som ska innehålla inmatade data. -
scd_type: SCD-metoden som ska användas:SCD_TYPE_1ellerSCD_TYPE_2. Standardvärdet är SCD typ 1. Mer information finns i Aktivera historikspårning (SCD-typ 2).
Mall för schemaspecifikation:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
Tabellspecifikationsvärden som ska ändras:
-
name: Ett unikt namn för pipelinen. -
connection_name: Unity Catalog-anslutningen som lagrar autentiseringsinformationen för SharePoint. -
source_schema: SharePoint-webbplats-ID. -
source_table: SharePoint-disknamn. -
destination_catalog: där du vill lagra data -
destination_catalog: Ett namn på målkatalogen som ska innehålla inmatade data. -
destination_schema: Ett namn på målschemat som ska innehålla inmatade data. -
scd_type: SCD-metoden som ska användas:SCD_TYPE_1ellerSCD_TYPE_2. Standardvärdet är SCD typ 1. Mer information finns i Aktivera historikspårning (SCD-typ 2).
Mall för tabellspecifikation:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
Vanliga mönster
För avancerade pipelinekonfigurationer, se Vanliga mönster för hanterade inmatningspipelines.
Nästa steg
- Starta, schemalägga och ange aviseringar för din pipeline. Se Vanliga pipelineunderhållsuppgifter.
- Du kan parsa rådata till text, segmentera tolkade data, skapa inbäddningar från segmenten med mera. Du kan sedan använda
readStreami utdatatabellen direkt i din nedströmspipeline. Se Nedströms-RAG-användningsfall.