Secciones bajar

La monitorización es tu mejor amiga

Por RAÚL RIVERO (SOITU.ES)
Actualizado 21-12-2008 17:04 CET

Quien mantenga un sitio conectado a internet, que deba estar funcionando 24x7, sabe de la importancia de las estadísticas y/o monitorización de todos sus sistemas y, sobre todo, aprender a leer el montón de datos que te dan del estado de todo el chiringuito. Pero, ¿podemos ir un poco más allá? ¿Podemos detectar fallos que no están bajo nuestra responsabilidad pero que nos afectan?

Esto viene a colación del grave problema que esta semana hubo —y sigue habiendo— con el corte de varios enlaces submarinos. Más información en:

Y, ¿cómo darte cuenta de que hay problemas en algún sitio remoto de Internet? :) Pues saber exactamente qué pasa, no... pero saber que algo va mal, sí.

Veréis, una de las cosas de las que nosotros sacamos gráficas es de los prefijos que nuestros proveedores de conectividad nos anuncian por BGP. No es un secreto, viendo la traza de nuestro Sistema Autónomo lo podéis ver, que tenemos dos conexiones: Interoute y Cogent. Pues bien, ese día 19 vimos algo como:

Curioso, ¿no? El hecho fue que dejamos de ver más de 2000 y pico prefijos por ambas conexiones. O sea, dejamos de poder llegar —y que llegaran, al menos directamente— más de 2000 subredes. Un efecto parecido ocurrió en la gráfica de Cogent cuando esta y Sprint interrumpieron su interconexión el mes pasado. Esa vez los prefijos sólo se perdieron en Cogent y la gráfica de Interoute ni se inmutó.

Además, poco después, el reencaminamiento de tráfico, que ocurre en casos como estos, hizo que otros caminos se saturasen. Más gráficas... :) porque otra de las cosas de las que sacamos estadísticas, es de nuestra conectividad con los "DNS server roots". Pues bien, la conectividad con el servidor M, en Japón, se degradó considerablemente:

O sea, si con las primeras gráficas podíamos intuir que algo iba mal, la segunda lo dejó claro: Internet, la interconectividad de Internet, estaba teniendo algún problema. En ese punto, ¿puedes hacer algo? Pues no pero, al menos, eres consciente del problema.

¿Paranoia?

Pues sí, puede que un poquito, pero nos gusta tenerlo todo bien monitorizado. Puede que no hasta el punto aturullar a la máquina a agentes pero sí, al menos, al nivel de servicios, tráfico y rendimiento. Consejos:

  • Monitoriza todos tus servicios, por poco importantes que sean o aunque no sean de cara al público. Si los tienes arrancados es que los necesitas, ¿no?.
  • Conecta las alertas a un sistema de SMS. Desafortunadamente, nuestro amigo el móvil siempre nos sigue y los SMS llegan aunque tu correo (por GPRS o UMTS) no lo haga. Luego ya verás qué haces pero, primero, conoce el problema.
  • Haz que tu sistema de alertas no dependa de servicios que puedan fallar. Vamos a ver, puede fallar casi todo pero, por ejemplo, no lo conectes a una BB.DD., que es de lo primero que puede fallar y que hay que monitorizar.
  • Haz gráficas de todo lo puedas. Como has visto, te dan muchísima información y no hace falta estar mirándolas continuamente para ver que algo está pasando, aunque no falle.
  • Ten una página web que, de un solo vistazo, te permita ver el estado global de todo tu sistema, como conjunto. Ya profundizarás con otras gráficas si algo tiene mala pinta.

Y tú, ¿monitorizas tus sistemas?

Di lo que quieras

Aceptar

Si quieres firmar tus comentarios puedes iniciar sesión »

En este espacio aparecerán los comentarios a los que hagas referencia. Por ejemplo, si escribes "comentario nº 3" en la caja de la izquierda, podrás ver el contenido de ese comentario aquí. Así te aseguras de que tu referencia es la correcta. No se permite código HTML en los comentarios.

Di lo que quieras

Lo sentimos, no puedes comentar esta noticia si no eres un usuario registrado y has iniciado sesión.
Si ya lo estás registrado puedes iniciar sesión ahora.

Volver a met Volver a portada
subir Subir al principio de la página