Résilience grâce à un chaos ciblé: la plate-forme de défaillance en tant que service de Gremlin aide les ingénieurs à éviter les catastrophes de manière proactive

TL; DR: Les techniques d’ingénierie du chaos de Gremlin permettent aux utilisateurs d’identifier en toute sécurité et de manière proactive les faiblesses de leurs systèmes – et de les corriger avant qu’elles ne deviennent un problème. En mettant intentionnellement l’accent sur les systèmes de diverses manières, l’entreprise transforme finalement l’échec en résilience. Avec des ressources supplémentaires offertes par la communauté Gremlin, la société crée des opportunités pour les utilisateurs du monde entier de créer des logiciels plus fiables.


Aussi contre-intuitif que cela puisse sembler casser intentionnellement votre technologie au nom de la fiabilité, une nouvelle approche de DevOps suggère de faire exactement cela. L’ingénierie du chaos, une méthode disciplinée pour injecter des dommages dans un système afin de mettre en évidence les faiblesses, a un impact sur la façon dont nous améliorons la fiabilité dans l’espace de génie logiciel.

En fait, la popularité de la discipline a grimpé en flèche au cours des dernières années. Il y a à peine dix ans, lorsque Kolton Andrus a rejoint Amazon en tant qu’ingénieur de développement logiciel, l’approche n’avait toujours pas de nom officiel..

«L’un de mes premiers projets a impliqué cette idée de tests de panne proactifs pour l’infrastructure», a déclaré Kolton. “Nous avons fait nos devoirs et construit un système de libre-service robuste avec de nombreux modes de défaillance différents, une API, une interface utilisateur – toute la gamme.”

Le système s’est avéré efficace pour aider les développeurs à identifier et à résoudre les faiblesses autour des partitions réseau et de la cohérence, ce qui a amélioré la disponibilité et la disponibilité. Après quatre ans, Kolton a apporté ce qu’il a appris chez Amazon à Netflix, où il s’est concentré sur la construction d’une plate-forme de test de défaillance proactive pour les applications. Selon Kolton, cet effort a pris un temps de disponibilité de 99,9% à 99,99%.

Logo de Gremlin

Gremlin aide les entreprises à éliminer les risques de manière proactive, en évitant les défaillances coûteuses.

Kolton a vu ses premiers succès chez Amazon et Netflix – ainsi que le virage de l’industrie vers le cloud et la conteneurisation – comme des signes que l’ingénierie du chaos se révélerait précieuse en tant que service. En 2016, il a uni ses forces avec l’ancien collègue d’Amazon Matt Fornaciari, et le couple a fondé Gremlin.

Identifiez en toute sécurité et en toute sécurité les faiblesses de votre système

Kolton a déclaré que l’équipe d’ingénierie de Gremlin était composée des meilleurs talents d’Amazon, Google, Netflix et Dropbox. L’entreprise a passé sa première année à construire la plate-forme Gremlin, à la mettre entre les mains des clients, à solliciter des commentaires et à apporter les modifications nécessaires. Il a passé la deuxième année à se concentrer sur l’expansion interne alors que le personnel est passé d’une douzaine de personnes à près de 75.

«Nous en sommes maintenant au point où nous voyons le marché s’ouvrir – les gens adoptent l’idée de l’ingénierie du chaos», a déclaré Kolton. “Nous en sommes à notre troisième itération de construction d’un excellent produit et aidons vraiment les clients à résoudre leurs problèmes.”

Mascotte de Gremlin

Gremlin permet de découvrir facilement et en toute sécurité les faiblesses du système avant qu’elles ne deviennent problématiques.

Kolton a déclaré qu’il ne s’agissait plus de savoir si les entreprises devraient adopter l’ingénierie du chaos, mais de savoir comment. Et c’est là qu’intervient Gremlin.

“Alors que nous nous dirigeons vers un marché plus large et que nous parlons à des ingénieurs qui n’ont pas autant d’expérience dans ce domaine, ce qu’ils recherchent vraiment, c’est des conseils”, a-t-il déclaré. “Et je pense que cela a été formidable pour nous parce que nous savons collectivement comment nous avons réalisé ce que nous avons fait chez Amazon, Netflix, Google ou Dropbox, et maintenant nous le faisons fonctionner dans des entreprises” normales “.”

La plate-forme d’ingénierie du chaos de Gremlin exploite une bibliothèque d’attaques sans cesse croissante pour recréer presque tous les scénarios de défaillance qu’une entreprise peut rencontrer en production et révèle comment la technologie testée se comportera en cas d’échec. Le processus est infaillible: si quelque chose d’inattendu se produit pendant le processus de test, les fonctions de sécurité de Gremlin interrompent automatiquement l’expérience et reviennent par défaut à un état stable.

Construisez des systèmes résistants et évitez les pannes coûteuses

Il ne fait aucun doute que les temps d’arrêt représentent une menace importante pour les entreprises opérant dans un marché de plus en plus en ligne. Selon les estimations de la firme de recherche Gartner, le coût moyen des temps d’arrêt du réseau est de 5 600 $ par minute, ce qui équivaut à 300 000 $ par heure..

En plus des coûts financiers, cela fait aussi perdre du temps. “Je parlais récemment avec un institut de services financiers sur la côte est des États-Unis, ce qui a obligé 75 ingénieurs à passer un appel”, a déclaré Kolton. “Quelle que soit la durée de cet appel, il a été extrêmement coûteux – et puis il y a du temps et des efforts à rechercher les causes profondes pour s’assurer qu’il ne se reproduise plus.”

Avec un outil comme Gremlin, les entreprises peuvent exécuter de faux incidents avec un filet de sécurité en cas de problème. L’approche proactive permet d’éviter des pannes coûteuses et préjudiciables à la réputation. Et si quelque chose ne va pas, mieux vaut être préparé.

Représentation d'un gremlin travaillant au sein de la plateforme

La plateforme sert également d’outil de formation robuste.

“Quand il est deux heures du matin et que vous avez le vice-président au téléphone, vous ne voulez pas poser une question stupide”, a déclaré Kolton. “Mais au milieu de la journée, vous avez la possibilité de vous entraîner dans n’importe quelle situation.”

Kolton a déclaré que les investissements dans la transformation numérique, tels que le passage au cloud ou l’adoption de Kubernetes, ne sont pas bon marché – et l’objectif de Gremlin est de contribuer à les protéger. Dans un article de blog du 11 mars 2019, par exemple, la société a expliqué que les organisations qui envisagent de migrer vers le cloud devraient adopter l’ingénierie du chaos pour tester le comportement du système une fois le trafic inversé. Cela réduira considérablement le risque d’échecs et de pannes inattendus.

Appuyez sur des ressources supplémentaires au sein de la communauté Gremlin

Kolton nous a dit que Gremlin s’est engagé à boire son propre champagne – une expression régulièrement utilisée pour indiquer si une entreprise a suffisamment confiance en ses produits pour les utiliser à l’interne.

“Nous sommes une entreprise axée sur la fiabilité, nous ferions donc mieux d’avoir un produit fiable”, a-t-il déclaré. “Pour nous assurer que nous sommes au sommet de notre jeu, nous exécutons des tests de défaillance complets pour durcir nos versions avant qu’elles ne sortent.”

Gremlin comprend que tout le monde n’est pas confiant dans la conduite d’expériences en production. Kolton nous a dit que de nombreuses entreprises s’inquiètent de leur position par rapport à leurs pairs en matière de fiabilité.

“Ils sont souvent un peu timides car ils pensent qu’ils sont trop loin derrière”, a-t-il déclaré. «Une chose que je dirais à l’industrie est que nous menons tous la même bataille: beaucoup d’entre nous étaient dans la même position dès le début et nous allons de l’avant.»

Kolton a déclaré qu’il aimerait arriver à un point où les entreprises sont disposées à discuter de leurs échecs afin que l’industrie dans son ensemble puisse apprendre des erreurs des autres. À cette fin, la communauté de Gremlin offre les ressources et les opportunités de création de relations dont les entreprises ont besoin pour construire ensemble des systèmes plus résilients..

Entre didacticiels pratiques, rencontres sponsorisées à travers le monde, présentations inspirantes et forums de discussion engageants, ces ressources encouragent la collaboration entre l’industrie. Assurez-vous de garder un œil sur les conférences à venir, les webinaires et plus encore pour une opportunité près de chez vous.

Reproduire et apprendre des pannes du monde réel

Gremlin se prépare actuellement pour Chaos Conf, un événement de l’industrie inclusif pour les praticiens et développeurs d’ingénierie du chaos qui se tiendra le 26 septembre 2019 à San Francisco.

L’événement comprendra également des présentations principales de Dave Rensin, directeur de SRE chez Google; Crystal Hirschorn, vice-président de l’ingénierie et des plates-formes cloud chez Condé Nast; et Kolton lui-même, ainsi qu’un certain nombre de sessions explorant les différents aspects de l’ingénierie du chaos.

Kolton a déclaré que Gremlin annonce également une nouvelle fonctionnalité qui permettra aux utilisateurs de créer leurs propres bibliothèques d’attaques pour aider à reproduire les pannes du monde réel. “Restez à l’écoute pour une grande annonce en septembre”, a-t-il déclaré.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me