Mata in data från SharePoint

Viktigt!

Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera förhandsversioner av Azure Databricks.

:::note Efterlevnad

Den hanterade SharePoint-anslutningsappen stöder användning på arbetsytor med alternativet Konfigurera utökade säkerhets- och efterlevnadsinställningar aktiverade.

:::

Den här sidan visar hur du skapar en hanterad Microsoft SharePoint-inmatningspipeline med Lakeflow Connect.

Innan du börjar

Om du vill skapa inmatningspipelinen måste du först uppfylla följande krav:
- Arbetsytan måste vara aktiverad för Unity Catalog.
- Serverlös beräkning måste vara aktiverad för din arbetsyta. Se Krav för serverlös beräkning.
- Om du planerar att skapa en ny anslutning: Du måste ha CREATE CONNECTION behörigheter för metaarkivet. Se avsnitt Hantera privilegier i Unity Catalog.
  
  Om anslutningsappen stöder UI-baserad pipelineredigering kan en administratör skapa anslutningen och pipelinen samtidigt genom att slutföra stegen på den här sidan. Men om de användare som skapar pipelines använder API-baserad pipelineredigering eller inte är administratörsanvändare, måste en administratör först skapa anslutningen i Catalog Explorer. Se Anslut till hanterade inmatningskällor.
- Om du planerar att använda en befintlig anslutning: Du måste ha USE CONNECTION behörighet eller ALL PRIVILEGES för anslutningsobjektet.
- Du måste ha USE CATALOG behörigheter i målkatalogen.
- Du måste ha USE SCHEMA och CREATE TABLE behörigheter för ett befintligt schema eller CREATE SCHEMA behörigheter i målkatalogen.
Om du vill mata in från SharePoint måste du först konfigurera autentiseringsmetoder som stöds. Se Översikt över konfiguration av SharePoint-inmatning.

Skapa en inmatningspipeline

Databricks-anteckningsbok

Importera följande notebook-fil till din arbetsyta:

Hämta anteckningsbok
Lämna standardvärdena i cell 1. Ändra inte den här cellen.
Om du vill importera alla drivrutiner på SharePoint-webbplatsen, ändrar du schemaspecifikationen i cell 2. Om du bara vill importera vissa enheter på din SharePoint-webbplats, tar du bort cell 2 och ändrar tabellspecifikationen i cell 3 i stället.

Ändra inte channel. Detta måste vara PREVIEW.
Klicka på Kör alla.

Databricks kommandoradsgränssnitt (CLI)

Kör följande kommando:

databricks pipelines create --json "<pipeline definition or json file path>"

Mallar för pipelinedefinitioner

Om du vill mata in alla enheter på SharePoint-webbplatsen använder du schemats specifikationsformat för din pipelinedefinition. Om du bara vill importera vissa enheter använder du definitionsformatet för tabellspecifikation på SharePoint-webbplatsen i stället. Ändra inte channel. Detta måste vara PREVIEW.

Schemaspecifikationsvärden som ska ändras:

name: Ett unikt namn för pipelinen.
connection_name: Unity Catalog-anslutningen som lagrar autentiseringsinformationen för SharePoint.
source_schema: Ditt SharePoint-webbplats-ID.
destination_catalog: Ett namn på målkatalogen som ska innehålla inmatade data.
destination_schema: Ett namn på målschemat som ska innehålla inmatade data.
scd_type: SCD-metoden som ska användas: SCD_TYPE_1 eller SCD_TYPE_2. Standardvärdet är SCD typ 1. Mer information finns i Aktivera historikspårning (SCD-typ 2).

Mall för schemaspecifikation:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "catalog": "<YOUR_DATABRICKS_CATALOG>",
 "schema": "<YOUR_DATABRICKS_SCHEMA>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

Tabellspecifikationsvärden som ska ändras:

name: Ett unikt namn för pipelinen.
connection_name: Unity Catalog-anslutningen som lagrar autentiseringsinformationen för SharePoint.
source_schema: SharePoint-webbplats-ID.
source_table: SharePoint-disknamn.
destination_catalog: där du vill lagra data
destination_catalog: Ett namn på målkatalogen som ska innehålla inmatade data.
destination_schema: Ett namn på målschemat som ska innehålla inmatade data.
scd_type: SCD-metoden som ska användas: SCD_TYPE_1 eller SCD_TYPE_2. Standardvärdet är SCD typ 1. Mer information finns i Aktivera historikspårning (SCD-typ 2).

Mall för tabellspecifikation:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "catalog": "<YOUR_DATABRICKS_CATALOG>",
 "schema": "<YOUR_DATABRICKS_SCHEMA>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

Vanliga mönster

För avancerade pipelinekonfigurationer, se Vanliga mönster för hanterade inmatningspipelines.

Nästa steg

Starta, schemalägga och ange aviseringar för din pipeline. Se Vanliga pipelineunderhållsuppgifter.
Du kan parsa rådata till text, segmentera tolkade data, skapa inbäddningar från segmenten med mera. Du kan sedan använda readStream i utdatatabellen direkt i din nedströmspipeline. Se Nedströms-RAG-användningsfall.

Ytterligare resurser

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-04

Dela via

Mata in data från SharePoint

Innan du börjar

Skapa en inmatningspipeline

Databricks-anteckningsbok

Databricks kommandoradsgränssnitt (CLI)

Mallar för pipelinedefinitioner

Vanliga mönster

Nästa steg

Ytterligare resurser

Feedback

Ytterligare resurser