Partilhar via


Conceitos de Streaming Estruturado

O Apache Spark Structured Streaming é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento exato uma vez usando as APIs familiares do Spark. O Streaming Estruturado permite expressar a computação em dados de streaming da mesma forma que expressa uma computação em lote em dados estáticos. O mecanismo de streaming estruturado executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de streaming chegam.

Para um tutorial passo a passo, veja Executar a sua primeira carga de trabalho de Streaming Estruturado.

Ler a partir de um fluxo de dados

Use Structured Streaming para ingerir dados de forma incremental de fontes de dados suportadas.

Feature Descrição
Carregador Automático Processe de forma incremental e eficiente novos ficheiros de dados à medida que chegam ao armazenamento na cloud.
Leituras e escritas em streaming na tabela Delta Use as tabelas Delta Lake como fontes e destinos de fluxo com garantias de processamento de exatamente uma vez.
Conectores padrão Ligue-se a barramentos de mensagens, filas e aplicações de empresa usando conectores padrão.
Tamanho micro-lote Limite as taxas de entrada para manter tamanhos de lote consistentes e evitar atrasos no processamento.

Gravar num destino de dados

Configure como o Structured Streaming entrega os dados aos sistemas-alvo.

Feature Descrição
Pontos de verificação Armazenar o estado de processamento para permitir tolerância a falhas e semântica de entrega exata uma vez.
Modo de saída Escolha entre os modos de acrescentar, atualizar e completar para consultas de streaming com estado.
Intervalos de gatilho Defina intervalos de gatilho para equilibrar latência e custo para as suas necessidades de processamento.
Modo em tempo real em Streaming Estruturado Processar dados para cargas de trabalho em tempo real com latência de ponta a ponta tão baixa quanto cinco milissegundos.

Processamento com estado e sem estado

Consultas sem estado processam linhas sem manter estado. Consultas com estado mantêm o estado intermédio para agregações, junções e deduplicação.

Feature Descrição
Consultas de streaming sem estado Otimize consultas que processem dados sem manter o estado intermédio.
Marcas de água Controlar quanto tempo o Structured Streaming espera por dados que chegam tarde em operações com estado.
Transmissão com estado Gerir agregações, junções fluxo-fluxo e deduplicação com operadores com estado.

Monitorizar e gerir

Acompanhar o desempenho das consultas, aplicar otimizações e governar o acesso a dados para cargas de trabalho de Streaming Estruturado em produção.

Feature Descrição
Monitorizar com o StreamingQueryListener Acompanhe o progresso das consultas e métricas de desempenho usando a interface Spark e a API do ouvinte.
Catálogo Governar com Unidade Configure o Unity Catalog para cargas de trabalho em streaming com governação e controlo de acessos.