BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Notícias Uma evolução na experimentação do caos: Kolton Andrus na ChaosConf 2018

Uma evolução na experimentação do caos: Kolton Andrus na ChaosConf 2018

Favoritos

Na inauguração da ChaosConf em San Francisco (EUA), Kolton Andrus mostrou a evolução da experimentação do caos nos últimos oito anos. Andrus argumentou que os aspectos humanos e organizacionais de lidar com o fracasso não devem ser ignorados, e também que as ferramentas devem suportar o direcionamento dos níveis de aplicação e solicitação de testes de injeção de falha para minimizar o "raio da explosão de caos".

Andrus, CEO da Gremlin, abriu o evento discutindo a variedade de experimentos de caos que desenvolveu ao longo do tempo, e classificou as experiências de "nível 0" como uma preparação para falhas de host na nuvem. Isso requer baixa maturidade e normalmente usa ferramentas como o Chaos Monkey para injetar aleatoriamente falhas de host em um sistema. À medida que a prática amadurece, a implementação de experimentos de "nível 1" e "nível 1.5" torna-se mais disciplinada, com foco adicional em experimentar falhas de rede. Isso requer experiência em rede e maturidade operacional mais avançada.

Kolton Andrus Chaos Engineering evolution

Os aspectos humanos e organizacionais do manuseio de falhas também recebem um foco maior no nível 1.5. A experimentação aqui é geralmente obtida executando "gamedays" que fornecem treinamento e simulam falhas para observar como as pessoas reagem em uma situação realista. Andrus advertiu que nem todas as organizações percebem o valor de desenvolver respostas organizacionais para o fracasso e treinar seu time apropriadamente:

Muitas das empresas em que trabalhei implementam seus treinamentos de plantão no estilo "aqui está seu pager e seu dashboard - boa sorte". Isso não é aceitável.

Em seguida, Andrus argumentou que testes de host e de nível de rede nas camadas 3 e 4 do OSI não são suficientes para muitas organizações que desejam executar experimentos de caos, pois é necessária uma granularidade mais precisa para limitar o impacto desejado e testar os aplicativos com segurança. Segundo Andrus, "as operadoras geralmente acham que são termos de solicitações" e, para que dados e metadados em nível de solicitação sejam usados para controlar seletivamente testes e experimentos, o reconhecimento no nível de aplicativo (camada 7) é necessário nas ferramentas.

Neste ponto da palestra, foi anunciado o novo produto ALFI (Application Level Failure Injection) da Gremlin. O ALFI suporta a experimentação "nível 2", facilitando a precisão no nível da solicitação para direcionar o impacto de uma experiência. Isso é conseguido especificando "coordenadas" dentro do sistema e combinando experimentos para serem executados com um conjunto de alvos. As coordenadas incluem problemas de aplicativos, como identificador de usuários ou testes A/B, e preocupações com plataformas, como serviço ou região geográfica. Um engenheiro também pode definir suas próprias coordenadas usando uma implementação personalizada.

Andrus concluiu sua palestra afirmando que as coordenadas direcionadas podem ser usadas para minimizar o potencial "raio de explosão" de um experimento e também para simular interrupções de produção sem perturbar todo o sistema. As experiências devem ser escalonadas com segurança de maneira iterativa:

  1. Validar a experiência do usuário (UX) com um usuário ou dispositivo de teste.
  2. Rode para 1% do tráfego e meça o impacto.
  3. Repita para 10% do tráfego.
  4. Escale para 25%, 50%, e 100%.

As interrupções também podem ser reproduzidas usando um padrão similar:

1. Quando ocorrer uma interrupção, defina uma hipótese sobre o motivo.
2. Crie uma experiência que seja executada, por exemplo, em uma única conta de usuário de teste.
3. Faça login como um usuário de teste e carregue a página/aplicativo.
4. Encontre os logs/evidências e valide a hipótese.
5. Crie um pull request para corrigir o problema.

Mais detalhes sobre a primeira ChaosConf podem ser encontrados no site da conferência, e as gravações de vídeo de todas as palestras estão disponíveis no canal YouTube da Gremlin chamado "ChaosConf 2018".

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT