7 de Diciembre de 2021

¿Que es SRE (site reliability engineering)?

Sigue pasando el tiempo y me sigo topando con clientes que jamás escucharon hablar de SRE, es lo que me motivó escribir este artículo corto y conciso de este enfoque de como gestionar infraestructura moderna que venimos adoptando en nuestros clientes desde el 2019.

Me gusta definir SRE como un conjunto de prácticas y modelo de trabajo que permite gestionar infraestrcutura de IT como si fuera software. Fomentando el data-driven-decision a través de KPIs, automatización de tareas y gestión de incidentes basado en la obserbavilidad.

SRE es un enfoque propuesta por Google en 2016, y que se publicó en 2018 en un libro gratuito que no recomiendo bajo ningún punto de vista que es el siguiente Site Reliability Engineering: How Google Runs Production Systems. En cambio si, recomiendo este otro libro gratuito para leer y ver desde los casos de estudio reales.

 

Que pueden encontrar en el siguiente link. El libro anterior no dejo el línk asi les ahorro tiempo 🙂
Este es un grafio que me gusta usar mucho cuando hablo de adopción de SRE y como entra dentro de un esquema de celulas y el rol del DevOps / SRO.

 

 

 

Si quieren seguir profundizando, dejo una charla de Damián García en una IasCode (de ArqConf) y un curso muy copado en español de SRE que damos en GoElevate.

Autor:
Gustavo Brey,

Co-Founder & CGO

Autor:
Gustavo Brey,

Co-Founder & CGO