Dela via


Mata in data från SharePoint

Viktigt!

Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera förhandsversioner av Azure Databricks.

:::note Efterlevnad

Den hanterade SharePoint-anslutningsappen stöder användning på arbetsytor med alternativet Konfigurera utökade säkerhets- och efterlevnadsinställningar aktiverade.

:::

Den här sidan visar hur du skapar en hanterad Microsoft SharePoint-inmatningspipeline med Lakeflow Connect.

Innan du börjar

  • Om du vill skapa inmatningspipelinen måste du först uppfylla följande krav:

    • Arbetsytan måste vara aktiverad för Unity Catalog.

    • Serverlös beräkning måste vara aktiverad för din arbetsyta. Se Krav för serverlös beräkning.

    • Om du planerar att skapa en ny anslutning: Du måste ha CREATE CONNECTION behörigheter för metaarkivet. Se avsnitt Hantera privilegier i Unity Catalog.

      Om anslutningsappen stöder UI-baserad pipelineredigering kan en administratör skapa anslutningen och pipelinen samtidigt genom att slutföra stegen på den här sidan. Men om de användare som skapar pipelines använder API-baserad pipelineredigering eller inte är administratörsanvändare, måste en administratör först skapa anslutningen i Catalog Explorer. Se Anslut till hanterade inmatningskällor.

    • Om du planerar att använda en befintlig anslutning: Du måste ha USE CONNECTION behörighet eller ALL PRIVILEGES för anslutningsobjektet.

    • Du måste ha USE CATALOG behörigheter i målkatalogen.

    • Du måste ha USE SCHEMA och CREATE TABLE behörigheter för ett befintligt schema eller CREATE SCHEMA behörigheter i målkatalogen.

  • Om du vill mata in från SharePoint måste du först konfigurera autentiseringsmetoder som stöds. Se Översikt över konfiguration av SharePoint-inmatning.

Skapa en inmatningspipeline

Databricks-anteckningsbok

  1. Importera följande notebook-fil till din arbetsyta:

    Hämta anteckningsbok

  2. Lämna standardvärdena i cell 1. Ändra inte den här cellen.

  3. Om du vill importera alla drivrutiner på SharePoint-webbplatsen, ändrar du schemaspecifikationen i cell 2. Om du bara vill importera vissa enheter på din SharePoint-webbplats, tar du bort cell 2 och ändrar tabellspecifikationen i cell 3 i stället.

    Ändra inte channel. Detta måste vara PREVIEW.

  4. Klicka på Kör alla.

Databricks kommandoradsgränssnitt (CLI)

Kör följande kommando:

databricks pipelines create --json "<pipeline definition or json file path>"

Mallar för pipelinedefinitioner

Om du vill mata in alla enheter på SharePoint-webbplatsen använder du schemats specifikationsformat för din pipelinedefinition. Om du bara vill importera vissa enheter använder du definitionsformatet för tabellspecifikation på SharePoint-webbplatsen i stället. Ändra inte channel. Detta måste vara PREVIEW.

Schemaspecifikationsvärden som ska ändras:

  • name: Ett unikt namn för pipelinen.
  • connection_name: Unity Catalog-anslutningen som lagrar autentiseringsinformationen för SharePoint.
  • source_schema: Ditt SharePoint-webbplats-ID.
  • destination_catalog: Ett namn på målkatalogen som ska innehålla inmatade data.
  • destination_schema: Ett namn på målschemat som ska innehålla inmatade data.
  • scd_type: SCD-metoden som ska användas: SCD_TYPE_1 eller SCD_TYPE_2. Standardvärdet är SCD typ 1. Mer information finns i Aktivera historikspårning (SCD-typ 2).

Mall för schemaspecifikation:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "catalog": "<YOUR_DATABRICKS_CATALOG>",
 "schema": "<YOUR_DATABRICKS_SCHEMA>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

Tabellspecifikationsvärden som ska ändras:

  • name: Ett unikt namn för pipelinen.
  • connection_name: Unity Catalog-anslutningen som lagrar autentiseringsinformationen för SharePoint.
  • source_schema: SharePoint-webbplats-ID.
  • source_table: SharePoint-disknamn.
  • destination_catalog: där du vill lagra data
  • destination_catalog: Ett namn på målkatalogen som ska innehålla inmatade data.
  • destination_schema: Ett namn på målschemat som ska innehålla inmatade data.
  • scd_type: SCD-metoden som ska användas: SCD_TYPE_1 eller SCD_TYPE_2. Standardvärdet är SCD typ 1. Mer information finns i Aktivera historikspårning (SCD-typ 2).

Mall för tabellspecifikation:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "catalog": "<YOUR_DATABRICKS_CATALOG>",
 "schema": "<YOUR_DATABRICKS_SCHEMA>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

Vanliga mönster

För avancerade pipelinekonfigurationer, se Vanliga mönster för hanterade inmatningspipelines.

Nästa steg

Ytterligare resurser