Compartilhar via


Gerenciar IA

Este artigo fornece diretrizes para gerenciar cargas de trabalho de IA em todo o ciclo de vida. As organizações obtêm um desempenho consistente de IA quando estabelecem processos operacionais estruturados, implementam a governança de implantação adequada e mantêm práticas abrangentes de monitoramento.

Diagrama que mostra as seis fases da adoção da IA: Estratégia, Plano, Pronto, Governar, Proteger, Gerenciar.

Gerenciar operações de IA

As estruturas operacionais fornecem estrutura para gerenciar projetos complexos de IA. Essas estruturas garantem a consistência entre as equipes de desenvolvimento e reduzem erros que atrasam os ciclos de entrega. Você deve estabelecer processos operacionais claros para obter um gerenciamento de carga de trabalho de IA confiável. Veja como:

  1. Estabeleça um centro de excelência de IA para diretrizes estratégicas. Um centro de excelência de IA fornece supervisão estratégica e orientação técnica para implantações de IA em toda a organização. Esse grupo garante que as abordagens de IA estejam alinhadas com os objetivos de negócios e os requisitos técnicos. Use seu centro de excelência de IA para avaliar qual abordagem de gerenciamento atende às necessidades da sua organização e criar padrões de implantação que dão suporte à governança e à inovação.

  2. Selecione a estrutura operacional certa para o tipo de carga de trabalho. Cargas de trabalho de IA diferentes exigem diferentes abordagens operacionais que afetam processos de equipe e decisões de ferramentas. Essa escolha define sua metodologia de desenvolvimento e a integração do stack tecnológico. Use estruturas de MLOps para fluxos de trabalho de aprendizado de máquina e GenAIOps para cargas de trabalho de IA generativa.

  3. Padronizar ferramentas de desenvolvimento em todas as equipes. Ferramentas consistentes eliminam problemas de compatibilidade entre ambientes de equipe e reduzem as curvas de aprendizado para desenvolvedores. Essa abordagem impede problemas de integração e acelera os ciclos de desenvolvimento. Defina e padronize o uso de SDKs e APIs para fins de consistência entre as equipes de desenvolvimento. Para obter mais informações, consulte Escolher o SDK certo para dar suporte ao seu caso de uso

  4. Crie ambientes sandbox dedicados para experimentação. Os ambientes de área restrita permitem testes seguros sem afetar os sistemas de produção e fornecem liberdade às equipes para testar novas abordagens. Esses ambientes impedem que o código experimental afete cargas de trabalho estáveis. Use um ambiente de área restrita que permaneça distinto dos ambientes de desenvolvimento, teste e produção no ciclo de vida de desenvolvimento de IA. Mantenha a consistência em ambientes de desenvolvimento, teste e produção para evitar alterações disruptivas durante a migração entre ambientes.

  5. Simplifique as operações quando possível. Novos recursos facilitam a personalização e a implantação de agentes e modelos ajustados sem experiência especializada. O ajuste fino tradicional exige que especialistas em ciência de dados curem conjuntos de dados e desenvolvam pipelines específicos para cada tarefa, o que cria complexidade operacional. Use Ajustes do Copilot (versão prévia) em Microsoft 365 para ajustar modelos para tarefas internas sem a necessidade de conhecimento especializado.

Gerenciar a implantação de IA

O gerenciamento de implantação de IA define quem pode implantar recursos de IA e rege esses pontos de extremidade. Uma abordagem estruturada garante que as organizações balanceem a velocidade de desenvolvimento com os requisitos de governança. Você deve estabelecer uma autoridade de implantação clara para obter um gerenciamento de recursos de IA consistente. Veja como:

  1. Conceda a autoridade de implantação de equipes de carga de trabalho dentro dos limites de governança definidos. As equipes de carga de trabalho aceleram o desenvolvimento quando controlam a implantação de recursos de IA sem esperar por processos de aprovação central. Essa autonomia reduz gargalos e permite resposta rápida aos requisitos de negócios, mantendo os padrões organizacionais. Use Azure Policy para impor a governança de forma consistente em ambientes de carga de trabalho e criar políticas de IA que resolvam lacunas de governança. Para Microsoft Foundry, implante uma instância por unidade de negócios e use projetos do Foundry para cada caso de uso dentro da unidade de negócios, em vez de criar um recurso compartilhado centralizado entre unidades de negócios.

  2. Defina políticas de implantação de IA claras para ambas as abordagens de gerenciamento. As políticas de IA fornecem guardrails que impedem a descompasso de configuração e as lacunas de segurança, garantindo a conformidade com os padrões organizacionais. Essas políticas reduzem o risco de uso não autorizado de recursos de IA. Crie políticas de IA para impor as configurações de filtro de conteúdo e impedir o uso de modelos não permitidos e, em seguida, comunique essas políticas claramente a todas as equipes. Realize auditorias regulares para garantir a conformidade.

  3. Crie pipelines de integração e entrega contínuas para implantação. Os pipelines automatizados reduzem erros manuais e garantem implantações consistentes entre ambientes, fornecendo processos repetíveis que capturam problemas antecipadamente. Esses pipelines mantêm padrões de qualidade durante todo o desenvolvimento. Crie pipelines de dados que abrangem verificações de qualidade de código, testes de unidade e integração e fluxos de experimentação. Inclua etapas de implantação de produção com processos manuais de aprovação para promover liberações. Mantenha a separação entre modelos e interfaces de cliente para garantir atualizações de componente independentes.

Gerenciar modelos de IA

O gerenciamento de modelos de IA envolve estruturas de governança, monitoramento contínuo e manutenção de desempenho ao longo do tempo. Esse processo ajuda as organizações a alinhar modelos com padrões éticos, acompanhar o desempenho do modelo e garantir que os sistemas de IA permaneçam eficazes e alinhados com os objetivos de negócios. Você deve estabelecer processos abrangentes de gerenciamento de modelos para obter um desempenho de IA confiável. Veja como:

  1. Defina uma linha de base de medida de IA para acompanhamento de desempenho. As linhas de base de medida garantem que os modelos de IA estejam alinhados com os objetivos de negócios e os padrões éticos. Essas linhas de base fornecem critérios objetivos para avaliar o desempenho do modelo e a conformidade responsável de IA em sua organização. Estabeleça KPIs relacionados a princípios de IA responsáveis, como imparcialidade, transparência e precisão, e mapeie esses KPIs para cargas de trabalho de IA específicas.

  2. Identifique rapidamente as causas raiz dos problemas de desempenho. A visibilidade de cada estágio de interações de IA ajuda a isolar problemas e implementar ações corretivas com eficiência, evitando falhas em cascata entre sistemas. Por exemplo, determine se os erros de chatbot se originam da criação de prompts ou da compreensão do contexto do modelo. Use ferramentas internas como Azure Monitor e Application Insights para identificar gargalos de desempenho e anomalias proativamente.

  3. Treinar novamente modelos de IA com base em critérios de desempenho. Os modelos se degradam ao longo do tempo devido a alterações de dados e exigem o retreinamento para manter a relevância. O retreinamento regular garante que os sistemas de IA permaneçam atualizados com as necessidades de negócios e os padrões de dados. Agende o treinamento novamente com base nas métricas de desempenho do modelo ou nos requisitos de negócios para manter os sistemas de IA relevantes. Avalie os custos iniciais de treinamento para avaliar a frequência de retreinamento ideal, pois a retreinamento pode ser cara. Mantenha o controle de versão para modelos e garanta mecanismos de reversão para versões com baixo desempenho.

  4. Estabeleça processos de promoção de modelo com portões de qualidade. Os portões de qualidade garantem que apenas os modelos validados atinjam ambientes de produção. Esses processos impedem que modelos de baixo desempenho afetem operações de negócios e mantenham padrões de qualidade consistentes. Use critérios de desempenho para promover modelos treinados, ajustados e retreinados para ambientes mais altos. Defina critérios de desempenho exclusivos para cada aplicativo e estabeleça fluxos de trabalho de promoção claros que incluem etapas de teste e validação.

  5. Rastreie os cronogramas de desativação de modelos para evitar interrupções no serviço. O controle de desativação do modelo impede problemas de desempenho quando o suporte do fornecedor termina. As organizações que perdem datas de desativação enfrentam problemas inesperados de degradação ou compatibilidade do serviço. Monitore as datas de desativação de modelos pré-treinados para manter a funcionalidade quando os fornecedores descontinuarem os serviços. Por exemplo, atualize modelos de IA generativos antes da substituição para manter a funcionalidade do sistema. Use o portal do Foundry para exibir as datas de desativação do modelo para todas as implantações.

Gerenciar custos de IA

O gerenciamento de custos de IA garante que as organizações controlem as despesas, mantendo o desempenho em computação, armazenamento e uso de token. As organizações precisam de estratégias estruturadas de supervisão e otimização de custos para evitar excessos de orçamento e maximizar a eficiência dos recursos. Você deve estabelecer processos abrangentes de gerenciamento de custos para alcançar gastos previsíveis de IA. Veja como:

  1. Implemente as melhores práticas de gerenciamento de custos para cada ferramenta Foundry. Diferentes ferramentas do Foundry têm modelos de preços exclusivos e recursos de otimização que afetam o custo total de propriedade. Noções básicas sobre estruturas de custo específicas do serviço ajuda as organizações a selecionar as opções mais econômicas para suas cargas de trabalho. Por exemplo, siga as diretrizes de gerenciamento de custos para o Foundry para otimizar as despesas para cada tipo de serviço.

  2. Monitore os padrões de uso para maximizar a eficiência de cobrança. Entender os pontos de interrupção de custo impede encargos desnecessários e ajuda as organizações a otimizar a alocação de recursos. O acompanhamento de padrões de uso revela oportunidades para ajustar modelos e arquitetura para melhor desempenho de custo. Monitore tokens por minuto (TPM) e solicitações por minuto (RPM) para entender os padrões de uso e ajuste modelos e arquitetura com base nesses padrões. Use limites de preço fixo para serviços como geração de imagem ou ajuste fino por hora para evitar encargos inesperados. Considere modelos de cobrança baseados em compromisso para padrões de uso consistentes para reduzir os custos gerais.

  3. Estabeleça alertas e monitoramento de custos automatizados. Alertas automatizados evitam excessos de orçamento notificando as equipes sobre encargos inesperados antes de afetarem os orçamentos do projeto. Esses alertas permitem o gerenciamento proativo de custos e ajudam as organizações a manter o controle financeiro sobre iniciativas de IA. Configure alertas de orçamento em Gerenciamento de Custos do Azure para acompanhar os gastos em relação aos limites predefinidos e estabelecer estratégias de orçamento que se alinhem aos objetivos de negócios. Crie alertas em vários limites para fornecer um aviso antecipado sobre aumentos de custos.

Gerenciar dados de IA

O gerenciamento de dados de IA garante a precisão, a integridade e a conformidade em todo o ciclo de vida da IA. As organizações precisam de processos estruturados de controle de qualidade e governança de dados para manter o desempenho confiável da IA. Você deve estabelecer práticas abrangentes de gerenciamento de dados para obter resultados consistentes de IA. Veja como:

  1. Crie e mantenha conjuntos de dados dourados para validação consistente. Os conjuntos de dados golden fornecem parâmetros de comparação padronizados para testar modelos de IA em diferentes ambientes e versões. Esses conjuntos de dados autoritativos garantem critérios de avaliação consistentes e ajudam a detectar a degradação do desempenho ao longo do tempo. Desenvolva conjuntos de dados dourados que representam seus padrões de dados de produção e use esses conjuntos de dados para teste e validação regulares em todas as cargas de trabalho de IA. Atualize conjuntos de dados dourados regularmente para refletir os requisitos de negócios atuais e os padrões de dados.

  2. Implemente pipelines de dados seguros com controles de integridade. A integridade do pipeline de dados evita a corrupção e garante um desempenho confiável do modelo de IA. Os pipelines seguros protegem informações confidenciais e mantêm a qualidade dos dados desde a coleta até o pré-processamento e armazenamento. Crie pipelines de dados personalizados que incluem verificações de validação em cada estágio e implemente controles de segurança para proteger dados em todo o processo de pipeline. Use testes automatizados para verificar a qualidade e a consistência dos dados antes de alimentar dados em modelos de IA.

  3. Monitore as classificações de confidencialidade de dados e responda às alterações. As classificações de confidencialidade de dados mudam devido aos requisitos de negócios e atualizações regulatórias. As organizações devem acompanhar essas alterações e atualizar os sistemas de IA adequadamente para manter a conformidade e a segurança. Desenvolva processos para identificar quando a confidencialidade de dados muda e implementar procedimentos para remover ou substituir dados confidenciais em sistemas de IA downstream. Use Microsoft Defender para Nuvem e Microsoft Purview para rotular e gerenciar dados confidenciais em toda a sua organização. Quando ocorrerem alterações de confidencialidade, identifique todos os modelos de IA que usam os dados afetados e retreinem modelos com conjuntos de dados que excluam as informações confidenciais reclassificadas.

Gerenciar a continuidade dos negócios de IA

O gerenciamento de continuidade de negócios protege os sistemas de IA contra interrupções e garante uma recuperação rápida quando ocorrem incidentes. As organizações precisam de estratégias de várias regiões e procedimentos de recuperação testados para manter a disponibilidade do serviço de IA. O planejamento efetivo de continuidade impede interrupções estendidas que afetam as operações de negócios. Você deve estabelecer processos abrangentes de continuidade de negócios para obter resiliência confiável do sistema de IA. Veja como:

  1. Implemente o monitoramento contínuo em todos os componentes de IA. As cargas de trabalho de IA mudam ao longo do tempo devido à evolução de dados, atualizações de modelo ou mudanças no comportamento do usuário. O monitoramento contínuo detecta essas alterações antecipadamente e impede a degradação do desempenho que afeta os resultados dos negócios. Monitore implantações de IA, modelos de IA e dados de IA para garantir que as cargas de trabalho permaneçam alinhadas com KPIs estabelecidos. Realize auditorias regulares para avaliar os sistemas de IA em relação a princípios e métricas de IA responsáveis definidos.

  2. Implante sistemas de IA em várias regiões para alta disponibilidade. As implantações de várias regiões impedem pontos únicos de falha e garantem que os serviços de IA permaneçam acessíveis durante interrupções regionais. Essa abordagem fornece redundância geográfica que protege contra falhas de infraestrutura e desastres naturais. Implante sistemas de IA generativos e tradicionais em várias regiões de Azure e implemente a redundância necessária para modelos treinados e ajustados para evitar o treinamento novamente durante interrupções. Use Azure Front Door ou Gerenciador de Tráfego do Azure para rotear o tráfego entre regiões automaticamente.

  3. Teste planos de recuperação de desastre regularmente para validar a eficácia. O teste regular identifica lacunas nos procedimentos de recuperação e garante que as equipes possam restaurar os sistemas de IA efetivamente durante incidentes reais. Esses testes validam que todos os componentes funcionam juntos corretamente após a recuperação e ajudam as organizações a refinar seus procedimentos de resposta. Execute testes trimestrais de planos de recuperação de desastre que incluem processos de restauração de dados e procedimentos de validação para todos os componentes de IA. Documente os resultados do teste e atualize os procedimentos de recuperação com base nas lições aprendidas em cada ciclo de teste.

  4. Implemente o controle de versão para todos os componentes do sistema de IA. Os sistemas de controle de versão rastreiam as alterações e permitem a restauração rápida de configurações anteriores durante cenários de recuperação. Essa abordagem fornece trilhas de auditoria para modificações e garante que as equipes possam identificar e reverter alterações problemáticas com eficiência. Use o Git para gerenciar alterações em modelos, pipelines de dados e configurações do sistema em todas as cargas de trabalho de IA. Implemente a auditoria automatizada que acompanha as alterações do modelo e do sistema para que as equipes possam identificar e reverter rapidamente alterações não planejadas que afetam o desempenho.

  5. Crie estratégias de backup automatizadas para ativos de IA. Os backups automatizados garantem que os componentes críticos de IA permaneçam protegidos sem intervenção manual. Essas estratégias impedem a perda de dados e reduzem o tempo de recuperação quando os sistemas precisam de restauração após incidentes. Estabeleça agendamentos de backup automatizados para modelos treinados, conjuntos de dados e arquivos de configuração usando Backup do Azure ou Armazenamento do Azure com opções com redundância geográfica. Armazene backups em regiões separadas das implantações primárias para garantir a disponibilidade durante interrupções regionais.

  6. Documente procedimentos de recuperação com responsabilidades claras. A documentação clara garante que as equipes possam executar procedimentos de recuperação consistentemente durante situações de alto estresse. Os procedimentos documentados reduzem o tempo de recuperação e impedem erros que ocorrem quando as equipes operam sem diretrizes estabelecidas. Crie runbooks que definem procedimentos de recuperação passo a passo para diferentes cenários de falha e atribuam funções e responsabilidades específicas aos membros da equipe para cada tarefa de recuperação. Atualize a documentação regularmente para refletir as alterações nos processos de recuperação e arquitetura de IA.

Próxima etapa