El mono del caos de Netflix y la cadena de suministro

Recientemente tuve una conversación con Carlos Crespo, director de operaciones de la empresa matriz de Zara, Inditex, en la que mencionó una herramienta de software creada por Netflix hace más de una década para institucionalizar la resiliencia del sistema. El nombre es pegadizo, y para los líderes de la cadena de suministro que intentan reinventar sus redes de suministro para tiempos turbulentos, es irresistible. Y sin embargo, un GoogleGOOG
la búsqueda de "mono del caos de la cadena de suministro" arrojó exactamente una cita, de 2012.

¿Por qué no estamos aplicando esta idea a la resiliencia de la cadena de suministro?

¿Qué es el Mono del Caos?

Es un herramienta de software, y más ampliamente, un principio de ingeniería que apaga aleatoriamente partes de un sistema complejo que obliga a los operadores a recuperarse en vivo. Algo así como un simulacro de incendio sorpresa, pero a diario, y en formas y lugares aleatorios. La idea es que volverse bueno en la resolución rápida de problemas del sistema es un proceso de aprendizaje que debería beneficiarse de una curva de aprendizaje cada vez más pronunciada.

La historia de fondo es sobre cómo Netflix amplió su negocio de transmisión en Amazon Web Services mientras hacía la transición del envío de DVD a las puertas de los clientes. A primera vista, es un enfoque lógico para la planificación de la redundancia del sistema, como lo que esperaría de la NASA, pero en la práctica explota una norma cultural de Netflix de permitir que los contribuyentes individuales resuelvan sus propios problemas. Como se relata en “Ingeniería del caos” un libro de 2020 de Casey Rosenthal y Nora Jones, pioneras en la práctica en Netflix, se reduce a cinco principios:

  • Construir una hipótesis sobre el comportamiento de estado estacionario
  • Varíe los eventos del mundo real
  • Ejecutar experimentos en producción
  • Automatice los experimentos para que se ejecuten continuamente
  • Minimizar el radio de explosión

La combinación de cultura y proceso en Netflix es importante porque fomentó y aprovechó un enfoque de resolución de problemas de código abierto, mientras que al girar sistemáticamente la rueda de los apagados aleatorios se acelera el aprendizaje en todo el equipo extendido.

Resiliencia de la cadena de suministro e ingeniería del caos

Transformación digital en la cadena de suministro ha estado de moda este año porque ayuda a las cadenas de suministro a respaldar nuevos modelos de negocios e impulsar operaciones sostenibles (ver estudio BCG X), sino también porque promete “resiliencia”. Desafortunadamente, las aplicaciones prácticas de la transformación digital para la resiliencia de la cadena de suministro generalmente se reducen a plataformas para una mejor "visibilidad", respaldadas por un montón de tácticas tradicionales como el almacenamiento en búfer de inventario y el abastecimiento dual. Apuntalando este enfoque hay otra capa de trabajo analítico sobre tiempo de recuperacion por David Simchi-Levi en el MIT, y una ola de simulaciones utilizando gemelos digitales. Todo eso suena genial, pero lo que falta es una forma sistemática de experimentar con fallas reales en la cadena de suministro para aprender la mejor manera de recuperarse en la práctica.

Aplicación de Chaos Monkey a las cadenas de suministro

Los médicos toman el Juramento Hipocrático antes de abrirnos, incluido el famoso "primero no hacer daño". No es una mala idea para cualquiera que aplique los principios de Chaos Monkey a las cadenas de suministro, lo que implica apagar aleatoriamente una máquina real en algún lugar. Esto no es trivial y, hasta donde yo sé, aún no está sucediendo en ninguna parte.

  • El primer principio citado anteriormente dice centrarse en los resultados del sistema en lugar de los atributos internos. Verifique que el sistema funcione en lugar de tratar de entender por qué funciona.
  • El segundo principio dice romper varias cosas de manera realista. No es necesario simular una guerra termonuclear global, simplemente apague un interruptor o pierda un pedido y aprenda qué solución funciona mejor.
  • El tercer principio dice que el mejor lugar para aprender es en producción. Aprender haciendo es mejor que aprender mediante simulación, es decir, los gemelos digitales son geniales, pero pueden no ser suficientes para construir una cultura de resiliencia.
  • El cuarto principio institucionaliza los principios del mono del caos porque permite escalar el proceso de experimentación, lo que lo lleva a una curva de aprendizaje más pronunciada. Utilice la ciencia de datos en la extinción de incendios.
  • Por último, minimice el radio de explosión. Esto significa "no hacer daño" y se traduce en algún tipo de almacenamiento en búfer (inventario, tiempo de entrega, envío acelerado) para evitar que los clientes sientan su experimento. Aprende a gestionar explosiones controladas.

Se podría argumentar que los últimos tres años de COVID, guerra, conflictividad laboral, y la agitación económica ha sido un gran simulacro del mono del caos para todos. La lección de Netflix fue que este tipo de crisis no es solo algo para planificar, sino algo para dominar como un hecho permanente de la vida.

Es posible que la tormenta perfecta nunca termine, así que tal vez deberíamos aprender a vivir con ella.

Fuente: https://www.forbes.com/sites/kevinomarah/2022/12/22/netflix-chaos-monkey-and-supply-chain/