Filtrar e ingerir no Azure Data Explorer usando o editor sem código do Stream Analytics

Este artigo descreve como você pode usar o editor sem código para criar um trabalho do Stream Analytics com facilidade. Ele lê continuamente nos Hubs de Eventos, filtra os dados de entrada e grava os resultados continuamente no Azure Data Explorer.

Pré-requisitos

  • Os recursos Hubs de Eventos do Azure e Azure Data Explorer precisam estar acessíveis publicamente e não podem estar protegidos por um firewall nem por uma Rede Virtual do Azure
  • Os dados nos Hubs de Eventos devem ser serializados no formato JSON, CSV ou Avro.

Desenvolver um job de Stream Analytics para filtrar e ingerir dados em tempo real

  1. No portal do Azure, localize e selecione a instância dos Hubs de Eventos do Azure.

  2. Selecione Funcionalidades>Processar Dados e depois clique em Iniciar no cartão Filtrar e armazenar dados no Azure Data Explorer.

    Captura de tela mostrando o cartão de Filtrar e Ingerir para o Azure Data Lake Storage Gen2, onde você seleciona Iniciar.

  3. Insira um nome para o trabalho do Stream Analytics e selecione Criar.

    Captura de tela mostrando onde inserir um nome de trabalho.

  4. Especifique o tipo de Serialização dos dados na janela Hubs de Eventos e o Método de autenticação que o trabalho usará para se conectar aos Hubs de Eventos. Depois, selecione Conectar.
    Captura de tela mostrando a configuração da conexão dos Hubs de Eventos.

  5. Quando a conexão for estabelecida com êxito e você tiver fluxos de dados para a instância dos Hubs de Eventos, você verá duas coisas imediatamente:

    • Os campos presentes nos dados de entrada. Você pode escolher Adicionar campo ou selecionar o símbolo de três pontos ao lado de um campo para remover, renomear ou alterar o tipo.
      Captura de tela mostrando a lista de campos dos Hubs de Eventos em que você pode remover, renomear ou alterar o tipo de campo.
    • Um exemplo dinâmico dos dados de entrada na tabela Visualização de dados na exibição de diagrama. Ele é atualizado automaticamente com regularidade. Você pode selecionar Pausar visualização de streaming para ver uma exibição estática dos dados de entrada de exemplo.
      Captura de tela mostrando os dados de exemplo em Versão Prévia dos Dados.
  6. Selecione o bloco Filtrar para agregar os dados. Na área Filtro, selecione um campo para filtrar os dados de entrada com uma condição.

    Captura de tela que mostra a configuração do operador de filtro.

  7. Selecione o bloco Gerenciar. No painel de configuração Gerenciar campos, escolha os campos que você quer enviar ao hub de eventos. Se você quiser adicionar todos os campos, clique em Adicionar todos os campos.

    Captura de tela que mostra a configuração do operador Gerenciar campo.

  8. Selecione o bloco Azure Data Explorer. No painel de configuração, preencha os parâmetros necessários e se conecte.

    Observação

    A tabela precisa existir no banco de dados selecionado e o esquema de tabela precisa corresponder exatamente ao número de campos e seus tipos gerados pela visualização de dados.

    Captura de tela que mostra a configuração de saída do Kusto.

  9. Opcionalmente, selecione Obter visualização estática/Atualizar visualização estática para ver a visualização de dados que será enviada ao hub de eventos.
    Captura de tela mostrando a opção Obter visualização estática/Atualizar visualização estática.

  10. Selecione Salvar e depois escolha Iniciar o trabalho do Stream Analytics.
    Captura de tela mostrando as opções Salvar e Iniciar.

  11. Para iniciar o trabalho, especifique:

    • O número de unidades de streaming (SUs) com as quais o trabalho é executado. As SUs representam a quantidade de computação e memória alocada para o trabalho. Recomenda-se que você comece com três e depois ajuste conforme necessário.
    • Tratamento de erros de dados de saída – permite que você especifique o comportamento desejado quando a saída de um trabalho para seu destino falhar devido a erros de dados. Por padrão, a tarefa tenta novamente até que a operação de gravação seja bem-sucedida. Você também pode optar por remover esses eventos de saída.
      Captura de tela mostrando as opções de trabalho Iniciar Stream Analytics em que você pode alterar o tempo de saída, definir o número de unidades de streaming e selecionar as opções de tratamento de erro dos dados de saída.
  12. Depois de selecionar Iniciar, o trabalho começará a ser executado em até dois minutos e as métricas serão abertas na seção da guia abaixo.

    Captura de tela que mostra os dados de métricas do trabalho depois que ele é iniciado.

    Você também pode ver o trabalho na seção Processar Dados na guia Trabalhos do Stream Analytics. Selecione Abrir métricas para monitorá-las ou interrompê-las e reiniciá-las, conforme o necessário.

    Captura de tela da guia Trabalhos do Stream Analytics em que você vê o status dos trabalhos em execução.

Considerações ao usar o recurso de replicação geográfica dos Hubs de Eventos do Azure

Os Hubs de Eventos do Azure lançaram recentemente a versão prévia pública do recurso de replicação geográfica. Esse recurso é diferente do recurso de recuperação de desastres geográficos dos Hubs de Eventos do Azure.

Quando o tipo de failover é Forçado e a consistência de replicação é Assíncrona, uma tarefa do Stream Analytics não garante uma saída exatamente uma vez para os Hubs de Eventos do Azure.

O Azure Stream Analytics, como produtor com um hub de eventos como saída, pode observar um atraso de marca d'água na tarefa durante a duração do failover e durante a limitação imposta pelos Hubs de Eventos caso o atraso de replicação entre o primário e o secundário atinja o máximo configurado.

O Azure Stream Analytics, como consumidor com os Hubs de Eventos como entrada, pode experienciar um atraso de marca d'água na tarefa durante a duração do failover e pode pular dados ou encontrar dados duplicados após a conclusão do failover.

Devido a essas ressalvas, reinicie o trabalho do Stream Analytics com a hora de início apropriada logo após a conclusão do failover dos Hubs de Eventos. Além disso, como o recurso de replicação geográfica dos Hubs de Eventos está em versão prévia pública, não use esse padrão para trabalhos de produção do Stream Analytics neste momento. O comportamento atual do Stream Analytics será aprimorado antes da disponibilidade geral do recurso de replicação geográfica dos Hubs de Eventos para uso em trabalhos de produção do Stream Analytics.

Próximas etapas

Saiba mais sobre o Azure Stream Analytics e como monitorar o trabalho criado.