Índice de contenidos
El monitoreo uptime es la diferencia entre enterarte que el sitio está caído por el aviso automático o por el reclamo del primer cliente molesto. Un buen servicio vigila minuto a minuto tu disponibilidad, tiempo de respuesta y comportamiento de funcionalidades críticas, alertando cuando algo se sale de lo esperado.
1. Tabla de contenidos
- Por qué monitorear uptime
- Qué se monitorea exactamente
- Herramientas populares
- Configuración de alertas
- SLA y cómo medir cumplimiento
- Acciones automáticas ante fallas
- Preguntas frecuentes
2. Por qué monitorear uptime
Un sitio caído impacta:
- Ingresos perdidos (ventas, leads)
- Confianza dañada del visitante
- Penalización SEO si Google encuentra caídas repetidas
- Costo de recuperación si el problema se cronifica
Puedes revisar el concepto formal en tiempo de actividad en Wikipedia, que describe métricas estándar (MTBF, MTTR, nines de disponibilidad).
Un monitoreo externo detecta caídas mucho antes que tu equipo o clientes. La diferencia entre 4 horas caído y 15 minutos puede ser millonaria.
3. Qué se monitorea exactamente
Disponibilidad HTTP/HTTPS: cada 1-5 minutos verifica que el sitio responda 200.
Tiempo de respuesta: latencia desde distintas regiones.
Certificado SSL: alerta por vencimiento o cambios.
Contenido específico: verifica que un texto o elemento exista (detecta páginas blancas).
DNS: monitorea resolución y cambios inesperados.
Puertos específicos: SSH, MySQL, Redis, servicios API.
Transacciones completas: flujos críticos (login, checkout) ejecutados sintéticamente.
APIs y endpoints: verifica respuesta correcta y tiempos.
Real User Monitoring (RUM): tiempos de usuarios reales por dispositivo/región.
✅ Checklist del servicio correcto
- ✅ Verificación cada 1-5 minutos (no cada hora)
- ✅ Múltiples ubicaciones geográficas
- ✅ Alertas por correo, SMS, WhatsApp, Slack, webhook
- ✅ Status page público (opcional)
- ✅ Histórico mínimo 90 días
- ✅ Monitoreo de certificados SSL
- ✅ Transacciones sintéticas (login, checkout)
- ✅ Integración con PagerDuty u otro sistema on-call
- ✅ Reportes SLA mensuales
- ✅ Detección de falsos positivos con lógica de confirmación
4. Herramientas populares
Gratuitas o freemium:
- UptimeRobot: 50 monitores gratis cada 5 min. Estándar pyme.
- Freshping: 50 monitores gratis.
- StatusCake: plan gratuito útil.
- Hyperping: gratis hasta 5 monitores.
Premium:
- Pingdom: robusto, tradicional
- Datadog Synthetics: enterprise, integrado con APM
- New Relic: suite completa de observabilidad
- Better Uptime / BetterStack: moderno, con escalado on-call
- Checkly: orientado a desarrolladores con pruebas E2E
- Grafana Cloud: open source + planes pagos
Open source self-hosted:
- Uptime Kuma: muy popular, docker simple
- Upptime: basado en GitHub Actions
- Statping: ligero, status page incluido
5. Configuración de alertas
Una alerta efectiva:
- Precisa: no falsos positivos por blip de 2 segundos
- Escalable: si el primero no responde, pasa al siguiente
- Priorizada: caída total ≠ degradación de 200 ms
- Silenciable: durante ventanas de mantenimiento
- Accionable: con link directo al dashboard y runbook
Buena práctica: alerta solo tras 2 verificaciones consecutivas fallidas (reduce falsos positivos).
> 💡 Tip: configura alertas por WhatsApp o SMS para caídas críticas, y por email para cosas menores. Saturar con notificaciones reduce atención a las verdaderamente urgentes.
6. SLA y cómo medir cumplimiento
Los SLA típicos se expresan en "nines":
- 99% = 3.65 días caído al año
- 99.5% = 1.83 días caído al año
- 99.9% = 8.76 horas caído al año
- 99.95% = 4.38 horas caído al año
- 99.99% = 52 minutos caído al año
- 99.999% = 5 minutos caído al año
Para pymes, 99.9% es objetivo razonable. E-commerce y SaaS críticos apuntan a 99.95-99.99%.
El monitoreo proporciona los números verificables que sustentan cualquier SLA.
7. Acciones automáticas ante fallas
Más allá de alertar, un sistema avanzado puede:
- Reiniciar servicios automáticamente
- Failover a servidor secundario
- Activar modo mantenimiento en CDN
- Escalar recursos cloud
- Ejecutar scripts de rollback si detecta regresión tras despliegue
- Crear tickets automáticos en el sistema de soporte
- Notificar status page pública automáticamente
📌 Consejo: nunca confíes solo en acción automática. Un humano debe validar post-incidente. Los scripts pueden esconder problemas cuando se ejecutan silenciosamente.
8. Costos y recomendación
| Tipo | Mensual |
|---|---|
| UptimeRobot / Hyperping free | Gratis |
| UptimeRobot Pro | 7-50 USD |
| Better Stack, Pingdom | 20-100 USD |
| Datadog, New Relic | 50-500+ USD |
| Self-hosted Uptime Kuma | Solo servidor (5-15 USD) |
Para pymes, UptimeRobot free o Better Stack básico suele bastar. Sitios críticos justifican Datadog o similares.
9. Preguntas frecuentes
¿Con qué frecuencia debe monitorearse?
Cada 1-5 minutos para sitios productivos. Menos frecuencia pierde caídas cortas.
¿Desde dónde debe consultarse?
Al menos 3 ubicaciones geográficas distintas. Caídas locales vs. globales se detectan distinto.
¿Es mejor servicio pago o self-hosted?
Self-hosted si tienes capacidad técnica. Servicio externo si no. Nunca auto-monitorees desde el mismo servidor que vigilas.
¿Cuánto cuesta un buen servicio?
Desde gratis (UptimeRobot free) hasta enterprise. Para la mayoría, 20-100 USD/mes cubre bien.
¿Vale la pena un status page público?
Para productos B2B sí. Transparencia genera confianza; ocultar caídas la destruye cuando aparecen.
10. Conclusión: tranquilidad operativa a costo mínimo
El monitoreo uptime es una de las inversiones con mejor relación costo-beneficio. Gratis hasta barato, detecta problemas antes que los clientes y respalda SLAs con datos reales. No tener monitoreo en 2026 es navegar a ciegas.