Fils per randaDescobreix la importància dels blameless postmortems per millorar els nostres sistemes.

per David Poblador i Garcia
Imatge destacada per a Quan tot s'apaga: per què cal fer un blameless postmortem

Quan tot s'apaga: per què cal fer un blameless postmortem

Ahir, Espanya i Portugal van patir un dels talls elèctrics més importants dels últims anys. Aquest tipus d'incidents em recorden la importància de les anàlisis posteriors als incidents, conegudes com a blameless postmortems.

Què és un blameless postmortem?

Un blameless postmortem és una revisió estructurada d'un incident que busca entendre què va passar, per què va passar i com evitar que torni a succeir, sense buscar culpables ni assenyalar amb el dit. L'objectiu és identificar oportunitats de millora en processos, sistemes i comunicacions.

Aquest enfocament parteix de la premissa que les persones actuen amb les millors intencions i que els errors són sovint conseqüència de sistemes complexos o informació incompleta. Fins i tot quan un incident és provocat per actors externs amb intencions malicioses, una anàlisi detallada de les causes pot ajudar a fer els sistemes més resilients i madurs, millorant la seva capacitat de resposta i adaptació davant de futures amenaces.

Per què és important evitar la culpa?

Assenyalar amb el dit pot semblar una manera ràpida de resoldre un problema, però té conseqüències negatives:

  • Por a comunicar errors: Si la gent tem represàlies, és menys probable que informi d'incidents o anomalies.

  • Pèrdua d'oportunitats d'aprenentatge: Centrar-se en la culpa pot impedir una anàlisi profunda de les causes arrel.

  • Cultura tòxica: La culpa pot erosionar la confiança i la col·laboració dins dels equips.

En canvi, un enfocament sense culpa fomenta la transparència, l'aprenentatge i la millora contínua.

Com es fa un blameless postmortem?

Seguint les pràctiques recomanades per organitzacions com Spotify, un blameless postmortem inclou:

  1. Recopilació de dades: Cronologia de l'incident, impacte, accions preses i resultats.

  2. Anàlisi de causes: Identificació de factors tècnics, humans i de procés que van contribuir a l'incident.

  3. Accions correctives: Propostes concretes per millorar sistemes i processos.

  4. Comunicació oberta: Compartir els resultats amb tots els interessats per fomentar l'aprenentatge col·lectiu.

A Spotify, per exemple, es promou una cultura de "Failing Forward", on cada incident és una oportunitat per aprendre i millorar els sistemes i processos.

Aplicació al tall elèctric d'ahir

Tot i que encara no es coneixen les causes exactes del tall elèctric d'ahir, aquest tipus d'incidents són oportunitats per aplicar un enfocament sense culpa. En lloc de buscar culpables, les autoritats i empreses implicades poden centrar-se en:

  • Analitzar els sistemes de control i resposta.

  • Revisar protocols de comunicació i coordinació.

  • Identificar millores en la infraestructura i els processos.

L'objectiu hauria de ser que, independentment dels actors implicats, la propera vegada que passi un incident similar, l'impacte sigui menor, la recuperació més ràpida i la comunicació més efectiva.

Altres sistemes que es podrien beneficiar d'aquest enfocament

El caos recurrent a Rodalies de Catalunya és un exemple clar de com una cultura de blameless postmortem podria millorar la situació. Amb un ritme d'incidències enorme, els usuaris pateixen retards, cancel·lacions i manca d'informació. Adoptar aquest enfocament podria ajudar a identificar les causes arrel dels problemes i implementar solucions efectives.

Conclusió

Els errors són inevitables en sistemes complexos. La clau és com responem a aquests errors. Adoptar un enfocament de blameless postmortem ens permet aprendre, millorar i construir sistemes més resilients.

En moments com el d'ahir, és fonamental recordar que la col·laboració i l'aprenentatge són més efectius que la cerca de culpables.

"No es tracta de qui va cometre l'error, sinó de com podem evitar que torni a passar."

Per a més informació sobre blameless postmortems, podeu consultar els següents recursos:

Tags

  • Blameless Postmortem
  • Anàlisis D'incidents
  • Millora Contínua
  • Cultura De Confiança
  • Resiliència