Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Trabalho de Cópia é a solução principal no Microsoft Fabric Data Factory para a movimentação simplificada de dados de várias fontes para muitos destinos, dispensando pipelines. Com suporte nativo para vários estilos de entrega, incluindo cópia em massa, cópia incremental e replicação CDC (captura de dados de alteração), o trabalho de cópia oferece a flexibilidade para lidar com uma ampla gama de cenários de movimentação de dados, através de uma experiência fácil e intuitiva de utilizar. Se você é novo na integração de dados ou quer apenas uma maneira mais rápida de obter seus dados para onde eles precisam ir, o trabalho de cópia oferece uma solução flexível e fácil de usar.
Advantages
Algumas vantagens do trabalho de cópia em relação a outros métodos de movimentação de dados incluem:
- Fácil de usar: configurar e monitorar a cópia de dados com uma experiência simples e guiada — sem necessidade de conhecimento técnico.
- Eficiente: copie apenas dados novos ou alterados da última execução para economizar tempo e recursos, com etapas manuais mínimas.
- Flexível: escolha quais dados mover, mapear colunas, definir como os dados são gravados e agendar trabalhos para serem executados uma vez ou regularmente.
- Alto desempenho: mova grandes quantidades de dados de forma rápida e confiável, graças a um sistema escalonável e sem servidor.
Você também pode visitar a estratégia de movimentação de dados para ver como a tarefa de cópia se compara com o espelhamento e atividades de cópia em pipelines.
Conceitos
Modos de Cópia (Cópia Completa, Cópia Incremental)
Você pode escolher como seus dados são copiados de origem para destino:
- Cópia completa: sempre que o trabalho é executado, ele copia todos os dados da fonte para o destino.
- Cópia incremental: a primeira execução copia tudo e as execuções subsequentes movem apenas dados novos ou alterados desde a última execução.
Cópia incremental (CDC, Marca d'água)
Na cópia incremental, cada execução após a cópia completa inicial (chamada de "carga subsequente") transfere apenas determinadas alterações. O trabalho de cópia controla e gerencia automaticamente o estado da última execução bem-sucedida, para que ele saiba quais dados copiar a seguir.
- Quando o trabalho Copy copia de um banco de dados usando uma coluna incremental ("coluna de marca d'água"), cada carga subsequente copia apenas linhas com um valor nessa coluna maior do que qualquer linha copiada anteriormente.
- Quando o trabalho copy é copiado de um banco de dados habilitado para CDC, cada carga subsequente copia todas as linhas inseridas, atualizadas ou excluídas desde a última execução bem-sucedida.
- Quando o trabalho copy copia arquivos, cada carga subsequente copia apenas os arquivos criados ou modificados desde a última execução bem-sucedida.
O trabalho de cópia dá suporte aos seguintes tipos de coluna de marca d'água para cópia incremental de um banco de dados:
- ROWVERSION: uma coluna binária que é alterada automaticamente sempre que uma linha é modificada. Ele é ideal para sistemas baseados em SQL com cargas de trabalho transacionais de alta performance, pois cada inserção ou atualização é capturada de forma confiável sem depender de carimbos de data/hora gerenciados pelo aplicativo.
-
Datetime: colunas datetime, como
LastUpdatedDatetimeouModifiedAtque armazenam data e hora. O trabalho de cópia usa o timestamp preciso para monitorar o progresso incremental ao longo das execuções. Datetime é preferida quando a fonte rastreia alterações com alta precisão de frequência. -
Data: colunas somente data, como
LastUpdatedDate. Como os valores de data não incluem um componente de hora, o processo de cópia aplica automaticamente uma extração diferida do último dia. Isso assegura que não haja perda de dados ou sobreposição entre execuções, gerenciando com segurança as janelas incrementais. A data é adequada para processos diários em lotes. - Cadeia de caracteres (interpretada como datetime): colunas de cadeia de caracteres cujos valores podem ser interpretados como datetime. Isso permite que você use a cópia incremental mesmo quando os marcadores temporais são armazenados como cadeias de caracteres, sem precisar converter ou transformar colunas ou fazer alterações no esquema na origem.
- Inteiro: um número crescente que acompanha as alterações de linha.
Se o banco de dados tiver o CDC habilitado, não é necessário escolher uma coluna incremental – a tarefa de cópia detectará automaticamente as alterações.
Se um trabalho de cópia falhar, você não precisará se preocupar com a perda de dados. O trabalho de cópia sempre é retomado do final da última execução bem-sucedida. Uma falha não altera o estado gerenciado pela tarefa de cópia.
Confira mais detalhes sobre a CDC (Captura de Dados de Alteração) no Trabalho de Cópia.
Reiniciar cópia incremental
Você tem a flexibilidade de gerenciar a cópia incremental, incluindo a capacidade de redefini-la para uma cópia completa na próxima vez que for executada. Isso é incrivelmente útil quando há uma discrepância de dados entre a origem e o destino. Você pode simplesmente permitir que o Trabalho de Cópia execute uma cópia completa na próxima execução para resolver o problema e, em seguida, continuar com atualizações incrementais posteriormente.
Você pode redefinir a cópia incremental por trabalho inteiro ou por tabela, oferecendo controle detalhado. Por exemplo, você pode copiar novamente tabelas menores sem afetar as maiores. Isso significa solução de problemas mais inteligente, menos interrupção e movimentação de dados mais eficiente.
Em alguns casos, quando você edita um trabalho de cópia , por exemplo, atualizando a coluna incremental em sua tabela de origem, o trabalho de cópia redefinirá a cópia incremental para uma cópia completa na próxima execução. Isso garante a consistência de dados entre a origem e o destino.
Métodos de atualização (Acréscimo, Substituição, Mesclagem, SCD Tipo 2)
Você também pode decidir como os dados são gravados em seu destino:
Por padrão, Copiar trabalho acrescenta novos dados, para que você mantenha um histórico completo. Se preferir, você pode optar por mesclar (atualizar linhas existentes usando uma coluna de chave), substituir (substituir dados existentes) ou SCD Tipo 2 (preservar o histórico de alterações com datações efetivas). Se você selecionar mesclagem ou SCD Tipo 2, o trabalho de cópia usará a chave primária por padrão, se houver.
- Ao copiar para um banco de dados: novas linhas são adicionadas às suas tabelas. Para bancos de dados com suporte, você também pode optar por mesclar, sobrescrever ou usar o SCD Tipo 2 para dados existentes.
- Ao copiar para o armazenamento: novos dados são salvos como novos arquivos. Se já existir um arquivo com o mesmo nome, ele será substituído.
Ao executar uma cópia incremental da origem e mesclar no destino, as linhas da origem são inseridas ou atualizadas no destino. Ao realizar a replicação CDC a partir da origem e mesclar com o destino, as linhas provenientes da origem são inseridas, atualizadas ou excluídas no destino. Ao usar o SCD Tipo 2 com replicação CDC, as alterações são preservadas como linhas versionadas com data efetiva, e as exclusões são tratadas como exclusões lógicas.
Confira mais detalhes sobre o SCD Tipo 2 no trabalho de Cópia CDC.
Criação e truncamento automáticos de tabelas no destino
O trabalho de cópia poderá criar tabelas automaticamente no destino se elas ainda não existirem. Se as tabelas de destino já estiverem disponíveis, você poderá simplesmente selecioná-las como destino. Com opções flexíveis de mapeamento de coluna, você pode definir facilmente como mapear esquemas das tabelas de origem para as tabelas de destino.
Opcionalmente, você também pode truncar dados de destino antes da carga completa, garantindo que a origem e o destino sejam totalmente sincronizados sem duplicatas.
Por padrão, o trabalho de cópia não exclui nenhum dado no destino. Ao habilitar esta opção:
- A primeira execução da cópia incremental truncará todos os dados no destino antes de carregar o conjunto de dados completo.
- As cópias incrementais subsequentes continuarão a acrescentar ou mesclar dados sem afetar os registros existentes.
- Se os clientes posteriormente reiniciarem a cópia incremental para cópia completa, habilitar essa opção fará com que o sistema limpe novamente o destino antes de iniciar a carga.
Essa abordagem garante que seu destino permaneça limpo, totalmente sincronizado e livre de duplicatas, fornecendo uma base confiável para a solução de ingestão de dados.
| Conector | Criação automática de tabela | Truncar o destino antes de carregar completamente |
|---|---|---|
| banco de dados Azure SQL |
|
|
| Instância Gerenciada de SQL do Azure |
|
|
| Pool de SQL do Azure Synapse |
|
|
| Tabela do Fabric Lakehouse |
|
|
| Fabric Warehouse |
|
|
| SQL Server local |
|
|
| Oracle |
|
|
| Snowflake |
|
|
| Banco de Dados SQL no Fabric (Versão Prévia) |
|
|
Colunas de auditoria
As colunas de auditoria são colunas de metadados adicionais que a tarefa Copy pode acrescentar automaticamente a cada linha gravada no destino. Quando você habilita colunas de auditoria, cada linha em sua tabela de destino pode ser enriquecida com informações como:
- Tempo de extração de dados
- Caminho do arquivo de origem
- ID do espaço de trabalho, ID do trabalho de cópia, ID de execução do trabalho de cópia e nome do trabalho de cópia
- Limite inferior e limite superior para janela incremental
- Valores personalizados definidos pelo usuário
Com colunas de auditoria, você obtém rastreio de origem dos dados em nível de linha sem código personalizado, habilitando relatórios de conformidade, depuração de qualidade de dados e monitoramento da atualidade da ingestão.
Veja mais detalhes em Colunas de auditoria na tarefa de cópia.
Desempenho
O trabalho de cópia otimiza automaticamente o desempenho da cópia com base no volume de dados, de modo que você obtém movimentação rápida de dados sem ajuste manual. Se você estiver copiando uma tabela de pesquisa pequena ou um log de transações grande, a tarefa de cópia aplicará a estratégia certa para cada tabela automaticamente.
Ao copiar dados de tabelas grandes, você também pode habilitar o particionamento automático (versão prévia). Com o particionamento automático, a tarefa de cópia analisa o esquema de origem e as características dos dados para determinar a estratégia de particionamento ideal. Ele seleciona automaticamente a coluna de partição certa, calcula limites equilibrados e executa leituras paralelas , tudo sem nenhuma entrada do usuário. Isso pode aumentar drasticamente a taxa de transferência para grandes conjuntos de dados. Você pode ativar o alternador de particionamento automático em configurações avançadas em sua tarefa de cópia.
O particionamento automático tem suporte para cópia incremental baseada em marca d'água, incluindo cópia completa inicial e cópia incremental, nos seguintes conectores: Amazon RDS para SQL Server, Banco de Dados SQL do Azure, Azure Synapse Analytics (Pool de SQL), Fabric Data Warehouse, Banco de Dados SQL no Fabric, SQL Server e Instância Gerenciada de SQL do Azure.
Opções de execução (Executar, Agendar, Gatilho de Evento)
Você tem total flexibilidade para decidir quando um trabalho de cópia é executado– ele pode ser executado uma vez ou em um agendamento. Mesmo que um trabalho esteja agendado, você ainda poderá selecionar Executar a qualquer momento para acioná-lo manualmente. Na cópia incremental, a tarefa manualmente iniciada ainda transferirá apenas as alterações desde a última executada.
Com suporte para vários agendamentos no trabalho de cópia, você obtém um controle ainda maior. Um único trabalho de cópia pode ter vários agendamentos , por exemplo, um em execução diariamente às 6h e outro em execução semanalmente aos domingos. Todos os agendamentos podem ser gerenciados diretamente no mesmo trabalho de cópia, tornando a orquestração mais simples, limpa e eficiente.
Se você usar a atividade de trabalho de cópia em um pipeline, também poderá aproveitar as funcionalidades de orquestração e gatilho do pipeline. Por exemplo, você pode usar gatilhos de evento para iniciar uma atividade de trabalho de cópia quando ocorrerem eventos específicos, como novos arquivos chegando em um data lake ou alterações em um banco de dados.
Confira mais detalhes sobre a atividade de trabalho de cópia.
Opções de hospedagem (rede virtual, local, nuvem)
Você pode usar o trabalho de cópia para mover dados de qualquer fonte para qualquer destino, seja localmente, na nuvem ou em uma rede virtual. Na página de conexão da tarefa de cópia, é possível escolher entre várias opções de host, incluindo um gateway on-premises ou um gateway de rede virtual, para acessar com segurança dados protegidos por um firewall ou dentro de uma rede virtual.
Veja mais detalhes para proteger sua movimentação de dados com o Copy Job e o Virtual Network Data Gateway.
Operacionalização(GIT/CICD, biblioteca de variáveis)
Você pode usar controle de versão, integração contínua, deploy contínuo e um ambiente colaborativo para executar projetos de análise de dados bem-sucedidos com a função Copy job.
Além disso, com o suporte à biblioteca de variáveis, você pode parametrizar conexões no Trabalho de Cópia. Essa funcionalidade avançada simplifica CI/CD externalizando valores de conexão, permitindo que você implante o mesmo Trabalho de Cópia em vários ambientes, enquanto a biblioteca variável injeta a conexão correta para cada estágio.
Veja mais detalhes em CI/CD para a tarefa de cópia.
Observability
Veja mais detalhes em Como monitorar um trabalho de cópia e Monitoramento de workspace para um trabalho de cópia
Disponibilidade de região
O trabalho de cópia tem a mesma disponibilidade regional que o Fabric.
Preços
Você pode obter os detalhes no trabalho de cópia de preços.
Conectores com suporte
Com a tarefa de cópia, você pode mover seus dados entre armazenamentos de dados na nuvem ou de fontes locais que estão por trás de um firewall ou dentro de uma rede virtual utilizando um gateway.
Consulte nossa página de conectores com suporte para obter a lista completa de fontes e destinos com suporte:
Envie seus comentários sobre ideias do Fabric e participe da conversa na Comunidade do Fabric.
Mapeamento de tipo de dados
A atividade de cópia em pipelines e a tarefa de cópia realizam o mapeamento de tipos de origem para tipos de destino com o seguinte fluxo:
- Converter de tipos de dados nativos de origem em tipos de dados provisórios usados pelo Fabric Data Factory.
- Converta automaticamente o tipo de dados provisório conforme necessário para corresponder aos tipos de destino correspondentes.
- Converter de tipos de dados provisórios em tipos de dados nativos de destino.
Atualmente, a atividade de cópia em pipelines e trabalho de cópia dá suporte aos seguintes tipos de dados provisórios: Boolean, Byte, Byte array, Datetime, DatetimeOffset, Decimal, Double, GUID, Int16, Int32, Int64, SByte, Single, String, Timespan, UInt16, UInt32 e UInt64.
As conversões de tipo de dados a seguir estão disponíveis entre os tipos intermediários da origem ao destino.
| Origem\Destino | booleano | Matriz de bytes | Data/Hora | Decimal | Ponto flutuante | GUID | Integer | String | TimeSpan |
|---|---|---|---|---|---|---|---|---|---|
| booleano | ✓ | ✓ | ✓ | ✓ | |||||
| Matriz de bytes | ✓ | ✓ | |||||||
| Data/Hora | ✓ | ✓ | |||||||
| Decimal | ✓ | ✓ | ✓ | ✓ | |||||
| Ponto flutuante | ✓ | ✓ | ✓ | ✓ | |||||
| GUID | ✓ | ✓ | |||||||
| Integer | ✓ | ✓ | ✓ | ✓ | |||||
| String | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| TimeSpan | ✓ | ✓ |
(1) Data/Hora inclui DateTime, DateTimeOffset, Data e Hora.
(2) O ponto flutuante inclui os tipos Single e Double.
(3) Integer inclui SByte, Byte, Int16, UInt16, Int32, UInt32, Int64 e UInt64.
Para saber mais sobre as conversões de tipo de dados detalhadas para um conector específico, acesse o artigo de configuração da atividade de cópia para esse conector daqui.
Observação
Atualmente, há suporte para essa conversão de tipo de dados durante a cópia entre dados tabulares. Não há suporte para fontes/destinos hierárquicos, o que significa que não há conversão de tipo de dados definida pelo sistema entre tipos provisórios de origem e destino.