Delen via


Wat is een kopieertaak in Data Factory voor Microsoft Fabric?

De kopieertaak is de go-to oplossing in Microsoft Fabric Data Factory voor vereenvoudigde gegevensverplaatsing van veel bronnen naar veel bestemmingen. Er zijn geen pijplijnen vereist. Met systeemeigen ondersteuning voor meerdere leveringsstijlen, waaronder bulkkopiëren, incrementeel kopiëren en verandering data capture (CDC) replicatie, biedt de kopieertaak de flexibiliteit om een breed scala aan scenario's voor gegevensverplaatsing af te handelen, allemaal via een intuïtieve, gebruiksvriendelijke ervaring. Of u nu nieuw bent in gegevensintegratie of gewoon een snellere manier wilt om uw gegevens naar de juiste bestemming te brengen, Copy job biedt een flexibele en gebruiksvriendelijke oplossing.

Advantages

Enkele voordelen van de kopieertaak ten opzichte van andere methoden voor gegevensverplaatsing zijn:

  • Eenvoudig te gebruiken: het kopiëren van gegevens instellen en bewaken met een eenvoudige, begeleide ervaring - geen technische expertise nodig.
  • Efficiënt: Kopieer alleen nieuwe of gewijzigde gegevens uit de laatste uitvoering om tijd en resources te besparen, met minimale handmatige stappen.
  • Flexibel: Kies welke gegevens u wilt verplaatsen, kolommen toewijzen, instellen hoe gegevens worden geschreven en taken plannen om één keer of regelmatig uit te voeren.
  • Hoge prestaties: verplaats snel en betrouwbaar grote hoeveelheden gegevens dankzij een serverloos, schaalbaar systeem.

Schermopname van de kopieertaak en het deelvenster met resultaten.

U kunt ook de strategie voor gegevensverplaatsing bezoeken om te zien hoe de kopieertaak zich verhoudt tot spiegeling en kopieeractiviteit in pijplijnen.

Concepten

Kopieermodi (volledige kopie, incrementele kopie)

U kunt kiezen hoe uw gegevens van de bron naar de bestemming worden gekopieerd:

  • Volledige kopie: telkens wanneer de taak wordt uitgevoerd, worden alle gegevens van uw bron naar uw bestemming gekopieerd.
  • Incrementeel kopiëren: de eerste uitvoering kopieert alles en de volgende uitvoeringen verplaatsen alleen nieuwe of gewijzigde gegevens sinds de laatste uitvoering.

Incrementeel kopiëren (CDC, watermerk)

Bij incrementeel kopiëren wordt bij elke uitvoering na de eerste volledige kopie (een "volgende lading" genoemd) alleen bepaalde wijzigingen overgedragen. Met de kopieertaak wordt de status van de laatste geslaagde uitvoering automatisch bijgehouden en beheerd, zodat deze weet welke gegevens u vervolgens moet kopiëren.

  • Wanneer een kopieertaak kopieert uit een database met behulp van een incrementele kolom (‘watermerkkolom’), kopieert elke volgende laadbewerking alleen de rijen met een waarde in die kolom die groter is dan die van een rij die eerder is gekopieerd.
  • Wanneer een kopieertaak kopieert van een database waarop CDC is ingeschakeld, kopieert elke volgende laadactie alle rijen die zijn ingevoegd, bijgewerkt of verwijderd sinds de laatste geslaagde uitvoering.
  • Wanneer de kopieertaak bestanden kopieert, worden bij elke volgende taakuitvoering alleen de bestanden gekopieerd die zijn gemaakt of gewijzigd sinds de laatste geslaagde uitvoering.

De kopieertaak ondersteunt de volgende kolomtypen voor watermerken voor incrementele kopie uit een database:

  • ROWVERSION: Een binaire kolom die automatisch wordt gewijzigd wanneer een rij wordt gewijzigd. Het is ideaal voor op SQL gebaseerde systemen met transactionele workloads met hoge doorvoer, omdat elke insert of update betrouwbaar wordt vastgelegd zonder afhankelijk van door de toepassing beheerde tijdstempels.
  • Datum/tijd: datum/tijd-kolommen, zoals LastUpdatedDatetime of ModifiedAt die zowel datum als tijd opslaan. De kopieertaak maakt gebruik van de exacte tijdstempel om incrementele voortgang bij te houden voor taakcycli. Datum/tijd heeft de voorkeur wanneer uw bron wijzigingen bijhoudt met hoge frequentieprecisie.
  • Datum: alleen datumkolommen zoals LastUpdatedDate. Omdat datumwaarden geen tijdcomponent bevatten, past de kopieertaak automatisch vertraagde extractie toe vanaf de laatste dag. Dit zorgt ervoor dat er geen gegevensverlies of overlapping tussen uitvoeringen optreedt, waardoor incrementele tijdvensters veilig worden beheerd. Datum is geschikt voor dagelijkse batchprocessen.
  • Tekenreeks (geïnterpreteerd als datum/tijd): tekenreekskolommen waarvan de waarden kunnen worden geïnterpreteerd als datum/tijd. Hiermee kunt u incrementele kopie gebruiken, zelfs wanneer tijdstempels worden opgeslagen als tekenreeksen, zonder dat u kolommen hoeft te casten of transformeren of schemawijzigingen in de bron hoeft aan te brengen.
  • Integer: Een oplopend nummer dat de wijzigingen in de rijen bijhoudt.

Als CDC is ingeschakeld voor uw database, hoeft u geen incrementele kolom te kiezen — de Copy-job detecteert de wijzigingen automatisch.

Als een kopieertaak mislukt, hoeft u zich geen zorgen te maken over gegevensverlies. De kopieertaak wordt altijd hervat vanaf het einde van de laatste geslaagde uitvoering. Een foutmelding verandert niet de toestand die wordt beheerd door de Copy job.

Bekijk meer details over Gegevenswijziging vastleggen (CDC) in de kopieerjob.

Incrementele kopie opnieuw instellen

U hebt de flexibiliteit bij het beheren van incrementele kopieën, inclusief de mogelijkheid om deze opnieuw in te stellen op een volledige kopie tijdens de volgende uitvoering. Dit is ongelooflijk handig als er sprake is van een gegevensverschillen tussen uw bron en bestemming. U kunt de kopieertaak gewoon een volledige kopie laten uitvoeren in de volgende uitvoering om het probleem op te lossen en daarna verder te gaan met incrementele updates.

U kunt de incrementele kopie resetten, zowel per gehele taak als per tabel, waarmee u gedetailleerde controle heeft. U kunt bijvoorbeeld kleinere tabellen opnieuw kopiëren zonder dat dit van invloed is op grotere tabellen. Dit betekent slimmere probleemoplossing, minder onderbreking en efficiëntere gegevensverplaatsing.

In sommige gevallen, wanneer u een kopieertaak bewerkt, bijvoorbeeld wanneer u de incrementele kolom in de brontabel bijwerkt, wordt de incrementele kopie opnieuw ingesteld op een volledige kopie tijdens de volgende uitvoering. Dit zorgt voor gegevensconsistentie tussen de bron en de bestemming.

Methoden bijwerken (toevoegen, overschrijven, samenvoegen, SCD-type 2)

U kunt ook bepalen hoe gegevens naar uw bestemming worden geschreven:

Met de kopieertaak worden standaard nieuwe gegevens toegevoegd , zodat u een volledige geschiedenis behoudt. Als u wilt, kunt u ervoor kiezen om samen te voegen (bestaande rijen bijwerken met behulp van een sleutelkolom), overschrijven (bestaande gegevens vervangen) of SCD Type 2 (wijzigingsgeschiedenis behouden met effectieve datums). Als u samenvoegen of SCD-type 2 selecteert, gebruikt de kopieertaak standaard de primaire sleutel, indien aanwezig.

  • Wanneer u naar een database kopieert: nieuwe rijen worden toegevoegd aan uw tabellen. Voor ondersteunde databases kunt u er ook voor kiezen om SCD-type 2 voor bestaande gegevens samen te voegen, te overschrijven of te gebruiken.
  • Wanneer u naar de opslag kopieert: nieuwe gegevens worden opgeslagen als nieuwe bestanden. Als er al een bestand met dezelfde naam bestaat, wordt het vervangen.

Wanneer u een incrementele kopie uitvoert van de bron en samenvoegt in het doel, worden rijen uit de bron ingevoegd of bijgewerkt in het doel. Wanneer u CDC-replicatie uitvoert van de bron en samenvoegt in het doel, worden rijen uit de bron ingevoegd, bijgewerkt of verwijderd in het doel. Wanneer u SCD Type 2 met CDC-replicatie gebruikt, blijven wijzigingen behouden als geversioneerde rijen met effectieve datumbepaling en worden verwijderingen verwerkt als zachte verwijderingen.

Zie meer informatie voor SCD Type 2 in CDC Copy-taak.

Automatische tabelcreatie en truncatie op de bestemming

Met de kopieertaak kunnen automatisch tabellen op de doellocatie worden aangemaakt, als ze daar nog niet aanwezig zijn. Als de doeltabellen al beschikbaar zijn, kunt u ze gewoon als doel selecteren. Met flexibele opties voor kolomtoewijzing kunt u eenvoudig definiëren hoe u schema's van de brontabellen kunt toewijzen aan de doeltabellen.

U kunt er ook voor kiezen om doelgegevens af te korten voordat de volledige gegevensoverdracht wordt uitgevoerd, zodat de bron en bestemming volledig worden gesynchroniseerd zonder duplicaten.

De kopieertaak verwijdert standaard geen gegevens in de bestemming. Wanneer u deze optie inschakelt:

  • Met de eerste uitvoering van incrementele kopie worden alle gegevens in de bestemming afgekapt voordat de volledige gegevensset wordt geladen.
  • Volgende incrementele kopieën blijven gegevens toevoegen of samenvoegen zonder dat dit van invloed is op bestaande records.
  • Indien klanten later de incrementele kopie terugzetten naar een volledige kopie, zal het inschakelen van deze optie de bestemming opnieuw wissen voordat deze opnieuw wordt geladen.

Deze aanpak zorgt ervoor dat uw bestemming schoon, volledig gesynchroniseerd en vrij van duplicaten blijft en een betrouwbare basis biedt voor hun oplossing voor gegevensopname.

Aansluiting Automatisch tabel maken Doelgegevens verwijderen voordat volledige data-invoer plaatsvindt
Azure SQL Database
Azure SQL Managed Instance
AZURE SYNAPSE SQL-pool
Fabric Lakehouse-tafel
Textielmagazijn
Lokaal geïnstalleerde SQL Server
Oracle
Sneeuwvlok
SQL-database in Fabric (previewversie)

Auditkolommen

Auditkolommen zijn extra metagegevenskolommen die de Copy-taak automatisch kan toevoegen aan elke rij die naar de doellocatie wordt geschreven. Wanneer u controlekolommen inschakelt, kan elke rij in uw doeltabel worden verrijkt met informatie zoals:

  • Tijd voor gegevensextractie
  • Pad naar bronbestand
  • Werkruimte-id, taak-id kopiëren, taakuitvoerings-id kopiëren en taaknaam kopiëren
  • Incrementeel venster ondergrens en bovengrens
  • Aangepaste door de gebruiker gedefinieerde waarden

Met auditkolommen krijgt u datageschiedenis op rijniveau zonder aangepaste code, waardoor nalevingsrapportage, debugging van gegevenskwaliteit en het bijhouden van de actualiteit van gegevens wordt ingeschakeld.

Zie meer informatie in Auditkolommen in de kopieeropdracht.

prestatie

De kopieertaak optimaliseert automatisch de kopieerprestaties op basis van het gegevensvolume, zodat u snel gegevensverplaatsing krijgt zonder handmatig af te stemmen. Of u nu een kleine opzoektabel of een groot transactielogboek kopieert, de kopieertaak past automatisch de juiste strategie toe voor elke tabel.

Wanneer u gegevens uit grote tabellen kopieert, kunt u desgewenst ook automatisch partitioneren (preview) inschakelen. Bij automatisch partitioneren analyseert de kopieerfunctie het bronschema en de kenmerken van de gegevens om de meest geschikte partitioneringsstrategie te bepalen. Hiermee wordt automatisch de juiste partitiekolom geselecteerd, worden evenwichtige grenzen berekend en worden parallelle leesbewerkingen uitgevoerd, allemaal zonder gebruikersinvoer. Dit kan de doorvoer voor grote gegevenssets aanzienlijk verhogen. U kunt de toggle voor automatisch partitioneren inschakelen bij Geavanceerde instellingen in uw kopieertaak.

Automatisch partitioneren wordt ondersteund voor incrementele kopie op basis van watermerken, waaronder zowel eerste volledige kopie als incrementele kopie, op de volgende connectors: Amazon RDS voor SQL Server, Azure SQL Database, Azure Synapse Analytics (SQL Pool), Fabric Data Warehouse, SQL Database in Fabric, SQL Server en Azure SQL Managed Instance.

Uitvoeringsopties (uitvoeren, plannen, gebeurtenistrigger)

U hebt volledige flexibiliteit om te bepalen wanneer een kopieertaak wordt uitgevoerd. Deze kan eenmaal of volgens een schemaworden uitgevoerd. Zelfs als een taak is gepland, kunt u op elk gewenst moment Uitvoeren selecteren om deze handmatig te activeren. Bij incrementeel kopiëren zal de handmatig geactiveerde taak nog steeds alleen wijzigingen overdragen sinds de laatste uitvoering.

Met ondersteuning voor meerdere planningen in de kopieertaak krijgt u nog meer controle. Eén kopieertaak kan meerdere planningen hebben, bijvoorbeeld één die dagelijks om 6:00 uur wordt uitgevoerd en een andere wekelijks op zondag. Alle planningen kunnen rechtstreeks binnen dezelfde kopieertaak worden beheerd, waardoor indeling eenvoudiger, schoner en efficiënter wordt.

Als u de kopieertaak in een pijplijn gebruikt, kunt u ook profiteren van de orkestratie- en triggermogelijkheden van de pijplijn. U kunt bijvoorbeeld gebeurtenistriggers gebruiken om een kopieertaakactiviteit te starten wanneer er specifieke gebeurtenissen plaatsvinden, zoals nieuwe bestanden die binnenkomen in een data lake of wijzigingen in een database.

Zie meer informatie voor kopieertaakactiviteit.

Hostingopties (virtueel netwerk, on-premises, cloud)

U kunt de kopieertaak gebruiken om gegevens van elke bron naar een willekeurige bestemming te verplaatsen, ongeacht of uw gegevens zich on-premises, in de cloud of in een virtueel netwerk bevinden. Op de verbindingspagina van de kopieertaak kunt u kiezen uit meerdere hostopties, waaronder een on-premises gateway of een virtuele netwerkgateway, om veilig toegang te krijgen tot gegevens achter een firewall of binnen een virtueel netwerk.

Zie meer details over Secure your data movement with Copy Job and Virtual Network Data Gateway.

Operationalization (GIT/CICD, variabele bibliotheek)

U kunt broncodebeheer, continue integratie, continue implementatie en een samenwerkingsomgeving gebruiken om succesvolle gegevensanalyseprojecten uit te voeren met de copy-taak.

Daarnaast kunt u met ondersteuning voor de Variabele-bibliotheek verbindingen in de kopieer-taak parameteriseren. Deze krachtige mogelijkheid stroomlijnt CI/CD door verbindingswaarden te externaliseren, zodat u dezelfde kopieertaak in meerdere omgevingen kunt implementeren terwijl de variabele bibliotheek de juiste verbinding voor elke fase injecteert.

Zie meer details in CI/CD voor de kopieeropdracht.

Observability

Zie meer informatie in Het bewaken van een kopieertaak en werkruimtebewaking voor een kopieertaak

Regionale beschikbaarheid

De kopieertaak heeft dezelfde regionale beschikbaarheid als Fabric.

Prijzen

U kunt de details in de prijsopdracht Kopiëren ophalen.

Ondersteunde connectors

Met de kopieertaak kunt u uw gegevens verplaatsen tussen cloudgegevensarchieven of van on-premises bronnen die zich achter een firewall bevinden of zich binnen een virtueel netwerk bevinden, waarbij een gateway wordt gebruikt.

Bekijk onze pagina ondersteunde connectors voor de volledige lijst met ondersteunde bronnen en bestemmingen:

Dien uw feedback over Fabric Ideas in en neem deel aan het gesprek over de Fabric Community.

Koppeling van gegevenstypen

Kopieeractiviteiten in pipelines en kopieerjobs vertalen brontypen naar doeltypen volgens de volgende procedure:

  1. Converteer van systeemeigen brongegevenstypen naar tussentijdse gegevenstypen die worden gebruikt door Fabric Data Factory.
  2. Converteer indien nodig automatisch tussentijdse gegevenstypen zodat deze overeenkomen met overeenkomende doeltypen.
  3. Converteer van tussentijdse gegevenstypen naar doeleigen gegevenstypen.

Kopieeractiviteit in pijplijnen en kopieerjob ondersteunen momenteel de volgende tussentijdse gegevenstypen: Boolean, Byte-array, Datetime, DatetimeOffset, Decimal, Double, GUID, Int16, Int32, Int64, SByte, Single, String, Timespan, UInt16, UInt32 en UInt64.

De volgende gegevenstypeconversies worden ondersteund tussen de tussentijdse typen van bron naar bestemming.

Bron\Doel Boolean Bytematrix Datum/tijd Decimaal Float-point GUID (Globaal Unieke Identificatiecode) Geheel getal Snaar / Touwtje TimeSpan
Boolean
Bytematrix
Datum/tijd
Decimaal
Float-point
GUID (Globaal Unieke Identificatiecode)
Geheel getal
Snaar / Touwtje
TimeSpan

(1) Datum/tijd omvat DateTime, DateTimeOffset, Datum en Tijd.

(2) Float-point omvat enkel en dubbel.

(3) Integer omvat SByte, Byte, Int16, UInt16, Int32, UInt32, Int64 en UInt64.

Als u meer wilt weten over de gedetailleerde conversies van gegevenstypen voor een bepaalde connector, raadpleeg het artikel over de configuratie van kopieeractiviteiten voor die connector.

Opmerking

Op dit moment wordt deze conversie van gegevenstypen ondersteund bij het kopiëren tussen tabellaire gegevens. Hiërarchische bronnen/bestemmingen worden niet ondersteund, wat betekent dat er geen door het systeem gedefinieerde gegevenstypeconversie is tussen de tussentijdse bron- en doeltypen.