Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Apache Spark Structured Streaming é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento exato uma vez usando as APIs familiares do Spark. O Streaming Estruturado permite expressar a computação em dados de streaming da mesma forma que expressa uma computação em lote em dados estáticos. O mecanismo de streaming estruturado executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de streaming chegam.
Para um tutorial passo a passo, veja Executar a sua primeira carga de trabalho de Streaming Estruturado.
Ler a partir de um fluxo de dados
Use Structured Streaming para ingerir dados de forma incremental de fontes de dados suportadas.
| Feature | Descrição |
|---|---|
| Carregador Automático | Processe de forma incremental e eficiente novos ficheiros de dados à medida que chegam ao armazenamento na cloud. |
| Leituras e escritas em streaming na tabela Delta | Use as tabelas Delta Lake como fontes e destinos de fluxo com garantias de processamento de exatamente uma vez. |
| Conectores padrão | Ligue-se a barramentos de mensagens, filas e aplicações de empresa usando conectores padrão. |
| Tamanho micro-lote | Limite as taxas de entrada para manter tamanhos de lote consistentes e evitar atrasos no processamento. |
Gravar num destino de dados
Configure como o Structured Streaming entrega os dados aos sistemas-alvo.
| Feature | Descrição |
|---|---|
| Pontos de verificação | Armazenar o estado de processamento para permitir tolerância a falhas e semântica de entrega exata uma vez. |
| Modo de saída | Escolha entre os modos de acrescentar, atualizar e completar para consultas de streaming com estado. |
| Intervalos de gatilho | Defina intervalos de gatilho para equilibrar latência e custo para as suas necessidades de processamento. |
| Modo em tempo real em Streaming Estruturado | Processar dados para cargas de trabalho em tempo real com latência de ponta a ponta tão baixa quanto cinco milissegundos. |
Processamento com estado e sem estado
Consultas sem estado processam linhas sem manter estado. Consultas com estado mantêm o estado intermédio para agregações, junções e deduplicação.
| Feature | Descrição |
|---|---|
| Consultas de streaming sem estado | Otimize consultas que processem dados sem manter o estado intermédio. |
| Marcas de água | Controlar quanto tempo o Structured Streaming espera por dados que chegam tarde em operações com estado. |
| Transmissão com estado | Gerir agregações, junções fluxo-fluxo e deduplicação com operadores com estado. |
Monitorizar e gerir
Acompanhar o desempenho das consultas, aplicar otimizações e governar o acesso a dados para cargas de trabalho de Streaming Estruturado em produção.
| Feature | Descrição |
|---|---|
| Monitorizar com o StreamingQueryListener | Acompanhe o progresso das consultas e métricas de desempenho usando a interface Spark e a API do ouvinte. |
| Catálogo Governar com Unidade | Configure o Unity Catalog para cargas de trabalho em streaming com governação e controlo de acessos. |