A recente interrupção dos serviços da OpenAI, que ocorreu em 11 de dezembro de 2024, trouxe à tona os desafios complexos enfrentados pela infraestrutura tecnológica em evolução constante. Causada pela implementação de um novo serviço de telemetria, a interrupção afetou serviços cruciais e destacou a importância da engenharia robusta e estratégias de recuperação rápida. Neste artigo, vamos detalhar as causas, impactos e soluções aplicadas pela OpenAI para mitigar futuros eventos similares.
Causa da Interrupção
A interrupção dos serviços foi originada devido à implementação de um novo serviço de telemetria destinado a coletar métricas do Kubernetes, que se propunha a aumentar a confiabilidade dos sistemas da OpenAI. No entanto, o serviço gerou operações intensivas de API que sobrecarregaram os servidores API do Kubernetes, resultando na queda do plano de controle em várias grandes clusters da OpenAI. Essa sobrecarga afetou sistemas críticos, como a resolução de DNS, um componente vital para a conversão de endereços IP para nomes de domínios.
Impacto do Serviço de Telemetria
As operações API geradas pelo novo serviço de telemetria foram tão intensas que resultaram em falhas em cascata nos sistemas cruciais da OpenAI. Inicialmente, o cache de DNS ajudou a mitigar o impacto, fornecendo registros em cache. No entanto, quando o cache expirou, as consultas DNS em tempo real sobrecarregaram ainda mais o servidor DNS, agravando o problema.
Esforços de Recuperação e Medidas Preventivas
O processo de recuperação foi dificultado pelo fato de que os engenheiros de plantão foram inicialmente impedidos de acessar o plano de controle do Kubernetes devido à carga excessiva. Para resolver o problema, a OpenAI reduziu as operações da API, bloqueou o acesso à rede das APIs de administração do Kubernetes e aumentou a escala dos servidores API do Kubernetes. Eventualmente, o serviço de telemetria defeituoso foi revertido. Como medidas preventivas, a OpenAI está melhorando os lançamentos graduais com monitoramento aprimorado, realizando testes de injeção de falhas para garantir que o plano de dados do Kubernetes possa funcionar sem o plano de controle por períodos prolongados, e implementando um mecanismo de “break-glass” para permitir que os engenheiros acessem os servidores API do Kubernetes em quaisquer circunstâncias.
Perguntas para Discussão
- Como a engenharia pode evoluir para prevenir falhas similares no futuro?
- Quais são os impactos de implementar serviços de telemetria sem testes abrangentes?
- Qual o papel da automação na recuperação de desastres em sistemas complexos como os da OpenAI?
A interrupção não só serve como uma lição valiosa para a OpenAI, mas também para o setor de engenharia como um todo. Este incidente destaca a necessidade crítica de desenvolvimento contínuo de soluções que possam lidar com demandas tecnológicas crescentes, especialmente em áreas de avanço rápido como a inteligência artificial. Se você está interessado em explorar as últimas novidades e atualizações no setor de engenharia, não perca nosso evento “What’s New”, um espaço para descobrir as tendências e inovações mais recentes.
Via: TechCrunch