Monitoreo y Supervision de Redes

Teoria por Temas

SNMP - Simple Network Management Protocol

Que es: SNMP es un protocolo de capa de aplicacion utilizado para monitorear y gestionar dispositivos de red (routers, switches, servidores, printers, etc). Permite recolectar informacion de rendimiento, detectar fallos y configurar dispositivos de forma remota.

Componentes Fundamentales

SNMP Manager (Gestor/NMS): El sistema central que monitorea y controla. Ejecuta software como Zabbix, Nagios, etc. Envia consultas (GET) y recibe notificaciones (traps).
SNMP Agent (Agente): Software que corre en el dispositivo gestionado. Recopila informacion local, la almacena en la MIB y responde a las consultas del Manager.
MIB (Management Information Base): Base de datos virtual organizada en forma de arbol que contiene todas las variables gestionables (OIDs) del dispositivo.

OID (Object Identifier)

Un OID es un identificador unico en formato de ruta numerica que apunta a una variable especifica dentro de la MIB. Ejemplo: 1.3.6.1.2.1.1.1 = sysDescr (descripcion del sistema). El OID funciona como una "direccion" dentro del arbol de la MIB.

Versiones de SNMP

SNMPv1: Version original. Usa comunidades (contraseñas en texto plano) para autenticacion. Operaciones: Get, GetNext, Set, Trap. Usa UDP puerto 161 y 162. Seguridad muy debil.
SNMPv2c: Mejora las operaciones agregando GetBulkRequest para obtener grandes volumenes de datos en una sola consulta. Sigue usando comunidades (misma debilidad de seguridad).
SNMPv3: Agrega seguridad robusta con tres servicios: Autenticidad (verifica identidad del emisor con HMAC-MD5/SHA), Integridad (garantiza que el mensaje no fue alterado), Privacidad (cifra datos con DES/AES). Usa modelo USM y VACM.

Operaciones SNMP

GetRequest: El manager solicita el valor de una variable especifica.
GetNextRequest: Solicita la siguiente variable en el arbol MIB (para recorrer tablas).
GetBulkRequest (v2c+): Obtiene un bloque grande de datos en una sola operacion, reduciendo el trafico de gestion.
SetRequest: El manager modifica el valor de una variable (configuracion remota).
Trap: Notificacion no solicitada que el agente envia al manager cuando ocurre un evento.
InformRequest (v2c+): Como un Trap pero con confirmacion de recepcion.

Polling vs Traps

Polling: El manager consulta periodicamente. Ventajas: control total, no se pierden datos. Desventajas: consumo de ancho de banda, latencia en deteccion, no escala bien.
Traps: El agente envia notificaciones cuando ocurre un evento. Ventajas: bajo consumo de ancho de banda, deteccion inmediata. Desventajas: se pueden perder (UDP no es confiable).
En la practica se usan ambos: polling para metricas regulares y traps para eventos criticos.

Por que UDP y no TCP?

SNMP usa UDP porque: (1) Es mas ligero, (2) En situaciones de congestion, TCP podria no establecer conexion mientras UDP sigue funcionando, (3) Los traps necesitan enviarse rapidamente sin handshake, (4) La simplicidad del protocolo coincide con un transporte simple.

Configuracion SNMP (snmpd.conf)

agentAddress udp:161          # El agente escucha en UDP puerto 161
rocommunity public default -V systemonly  # Comunidad solo lectura, vista limitada
rwcommunity private 10.0.0.5  # Comunidad lectura/escritura solo desde 10.0.0.5
trap2sink localhost public    # Envia traps a localhost con comunidad "public"

rocommunity: acceso solo lectura. rwcommunity: lectura y escritura. -V: restringe a una vista.

NetFlow

Que es: Protocolo desarrollado por Cisco para recopilar informacion sobre el trafico de red. Proporciona visibilidad sobre quien, que, cuando, desde donde y hacia donde se comunica en la red.

IP Flow (Flujo IP) - 7 atributos

IP de origen
IP de destino
Puerto de origen
Puerto de destino
Protocolo de capa 3 (TCP, UDP, ICMP, etc.)
Tipo de servicio (ToS/DSCP)
Interfaz de entrada (input interface)

Si dos paquetes comparten los 7 atributos, pertenecen al mismo flujo.

Componentes de NetFlow

Exporter: Router o switch que genera los registros de flujo y los envia.
Collector: Servidor que recibe y almacena los datos de flujo.
Analyzer: Aplicacion que procesa los datos y genera reportes, graficos y alertas.

Diferencia con SNMP

SNMP te dice cuanto trafico pasa por una interfaz, pero NO que tipo de trafico es, quien lo genera o hacia donde va. NetFlow complementa esto proporcionando el detalle de cada conversacion.

Ejemplo: SNMP muestra que un enlace esta al 95% de uso. NetFlow revela que el 80% es trafico BitTorrent de un solo usuario.

NetFlow en Troubleshooting y Seguridad

Diagnostico: Identificar aplicaciones consumidoras, detectar top talkers, encontrar bucles de enrutamiento.
Seguridad: Detectar DDoS (muchos flujos hacia un solo destino desde multiples origenes), escaneos de puertos, exfiltracion de datos.

Syslog

Que es: Estandar para el envio de mensajes de log desde dispositivos de red a un servidor centralizado. Permite recopilar eventos, errores y advertencias de todos los dispositivos en un solo lugar.

Contenido de un mensaje Syslog

Timestamp: Marca de tiempo del evento.
Hostname: Dispositivo que genera el mensaje.
Facility: Categoria del proceso (kernel, auth, daemon, local0-7).
Severity: Nivel de criticidad (0-7).
Message: Descripcion detallada del evento.

Niveles de Severidad (0-7)

0 Emergency

1 Alert

2 Critical

3 Error

4 Warning

5 Notice

6 Info

7 Debug

0 - Emergency: Sistema inutilizable (kernel panic).
1 - Alert: Accion inmediata requerida.
2 - Critical: Condiciones criticas (fallo de hardware).
3 - Error: Errores de funcionamiento (interfaz down).
4 - Warning: Advertencias (CPU alto).
5 - Notice: Eventos normales pero significativos.
6 - Informational: Mensajes informativos operativos.
7 - Debugging: Mensajes de depuracion.

Se configura un nivel y se envian todos los mensajes de ese nivel y los mas criticos (numeros menores).

Timestamps: uptime vs datetime

uptime: Tiempo transcurrido desde el inicio del dispositivo. No permite correlacionar entre dispositivos.
datetime: Fecha y hora absoluta. Permite correlacionar eventos entre dispositivos. Requiere NTP.

Ventajas del servidor Syslog centralizado

Permite construir una linea de tiempo de eventos entre todos los dispositivos.
Facilita identificar en que punto de la cadena de red ocurrio un fallo.
Los logs se preservan aunque el dispositivo falle.

NTP - Network Time Protocol

Que es: Protocolo de capa de aplicacion que sincroniza los relojes de los dispositivos de red. Usa UDP puerto 123.

Por que es critico?

Troubleshooting: Sin sincronizacion, es imposible correlacionar logs de Syslog entre dispositivos.
Seguridad: Certificados SSL/TLS dependen de timestamps correctos. Kerberos falla si los relojes no estan sincronizados.

Estratos (Stratum)

Stratum 0: Fuentes de alta precision (relojes atomicos, GPS). No se conectan a la red.
Stratum 1: Servidores conectados directamente a Stratum 0. Son los servidores NTP primarios.
Stratum 2-15: Cada nivel se sincroniza con el anterior.
Stratum 16: Significa no sincronizado. El dispositivo no pudo conectarse a ninguna fuente NTP.

Regla: Estrato mas bajo = mas preciso. Stratum 16 = fallo de sincronizacion.

Seleccion de servidor NTP

Cuando se configuran multiples servidores, NTP selecciona el mejor basandose en: (1) estrato mas bajo, (2) menor delay de red, (3) menor jitter, (4) estabilidad historica. El algoritmo de Marzullo descarta fuentes inconsistentes.

Zabbix

Que es: Plataforma de monitoreo open source para servidores, dispositivos de red, aplicaciones y servicios.

Componentes Principales

Zabbix Server: Nucleo. Procesa datos, evalua triggers, envia alertas, almacena en BD.
Zabbix Agent: Software en el host monitoreado. Recolecta metricas locales (CPU, memoria, discos). Modo activo (envia datos) o pasivo (responde consultas). Puertos: 10050 (pasivo), 10051 (activo).
Base de datos: Almacena toda la informacion (MySQL, PostgreSQL).
Web Frontend: Interfaz web para configurar y visualizar.
Zabbix Proxy: Intermediario para hosts remotos. Reduce carga del server.

Conceptos Clave

Host: Dispositivo o servicio monitoreado.
Item: Metrica especifica (ej: "uso de CPU").
Trigger: Expresion logica que define un umbral de alerta (ej: "CPU > 90% por 5 min").
Template: Conjunto predefinido de items, triggers, graficos aplicable a multiples hosts.

Es necesario el Zabbix Agent?

No siempre. Para routers/switches se usa SNMP. Para checks basicos ICMP/HTTP. El agent se usa para metricas detalladas del SO.

Que necesita Zabbix para monitorear con Agent?

IP/hostname del host, Agent instalado y configurado con Server= correcto, template asignado, conectividad puertos 10050/10051.

Si un host aparece como "no disponible", revisar:

Conectividad (ping, firewall puertos 10050/10051).
Agent corriendo (systemctl status zabbix-agent).
Configuracion del agent (Server= correcto).
Resolucion DNS si se usa hostname.
Firewall del host monitoreado.

RMON - Remote Network Monitoring

Que es: Extension de SNMP (RFC 2819) para monitoreo remoto de segmentos de red. Introduce la sonda RMON.

Diferencia con SNMP basico

SNMP basico: polling constante, mucho trafico de gestion. RMON: sondas inteligentes recopilan y procesan datos localmente, envian solo resmenes o alertas al manager.

Ventajas

Reduce trafico de gestion.
Funciona sin conexion al manager (almacena localmente).
Estadisticas a nivel de segmento de red.
9 grupos MIB: Statistics, History, Alarms, Hosts, HostTopN, Matrix, Filter, Capture, Events.

Troubleshooting - 7 Pasos

Definir el problema: Recopilar sintomas, hablar con usuarios.
Recopilar informacion: Revisar logs (Syslog), metricas (SNMP), flujos (NetFlow).
Analizar la informacion: Identificar patrones, correlacionar eventos.
Desarrollar una hipotesis: Formular teoria sobre la causa raiz. Crucial porque evita soluciones al azar.
Verificar la hipotesis: Realizar pruebas para confirmar o descartar.
Resolver el problema: Implementar la solucion.
Registrar lo sucedido: Documentar problema, causa, solucion. Crucial para conocimiento institucional y auditorias.

Por que seguir un proceso metodico?

Las soluciones al azar pueden: empeorar el problema, perder tiempo, no resolver la causa raiz, crear nuevos problemas.

IP SLA y Tracking de Rutas

IP SLA: Funcion de Cisco IOS que genera trafico synthetico (pings, HTTP, DNS) para monitorear disponibilidad y rendimiento.

Como funciona con tracking

Se configura un IP SLA monitor que envia pings periodicamente.
Se vincula un track object al estado del SLA.
Se configura una ruta estatica con track que depende del estado.
Si el SLA detecta fallo, el track cambia a "down" y la ruta se retira.
Una ruta alternativa (mayor AD) toma su lugar automaticamente.

Ejemplo de configuracion

ip sla monitor 1
 type echo protocol ipIcmpEcho 192.168.3.2
 timeout 1000
 frequency 1
ip sla monitor schedule 1 life forever start-time now
track 1 rtr 1
 delay down 10 up 10
ip route 0.0.0.0 0.0.0.0 192.168.3.2 track 1
ip route 0.0.0.0 0.0.0.0 192.168.5.1 10

Delay down/up: Espera antes de considerar el cambio, evitando failover por perdidas transitorias.

FCAPS - Areas Funcionales de Gestion

Area	Objetivo	Ejemplo
Fault	Detectar, aislar y corregir fallos	Trap SNMP de interfaz down, generar alerta
Configuration	Gestionar configuracion de dispositivos	Backup automatico de configs de routers
Accounting	Medir uso de recursos por usuario	Reporte de ancho de banda por departamento con NetFlow
Performance	Monitorear y optimizar rendimiento	Graficar uso de CPU/memoria con SNMP cada 5 min
Security	Proteger contra accesos no autorizados	Alertar intentos de acceso SSH fallidos via Syslog

Integracion: SNMP + NetFlow + Syslog + NTP

Ninguna herramienta es suficiente por si sola:

Herramienta	Informacion que da	No se obtiene con...
SNMP	Estado de interfaces, CPU/memoria, contadores de trafico	NetFlow no da estado de hardware; Syslog no da metricas continuas
NetFlow	Quien habla con quien, que aplicacion, cuanto por conversacion	SNMP no identifica aplicaciones; Syslog no detalla flujos
Syslog	Eventos discretos: up/down, errores, cambios de config	SNMP no da contexto de eventos; NetFlow no registra cambios
NTP	Sincronizacion temporal para correlacionar datos	Sin NTP, no hay linea de tiempo confiable

Ejemplo integrado: "La red esta lenta"

SNMP muestra enlace WAN al 95%.
NetFlow revela 70% es video streaming.
Syslog muestra que el router descarta paquetes hace 2 horas.
NTP correlaciona los tres eventos en la misma linea de tiempo.

Caracteristica	SNMPv1	SNMPv2c	SNMPv3
Ano	1988 (RFC 1157)	1996 (RFC 1901)	1998 (RFC 2273)
Autenticacion	Comunidad (texto plano)	Comunidad (texto plano)	USM (HMAC-MD5/SHA)
Encriptacion	No	No	Si (DES/AES)
Integridad	No	No	Si
GetBulk	No	Si	Si
InformRequest	No	Si	Si
Transporte	UDP	UDP	UDP
Puertos	161/162	161/162	161/162
Seguridad	Muy debil	Debil	Robusta
Uso actual	Legado	Mas comun	Recomendado
Control de acceso	Basico por comunidad	Basico por comunidad	VACM + vistas granulares

Monitoreo y Supervision de Redes

Dashboard de Progreso

Teoria por Temas

SNMP - Simple Network Management Protocol

Componentes Fundamentales

OID (Object Identifier)

Versiones de SNMP

Operaciones SNMP

Polling vs Traps

Por que UDP y no TCP?

Configuracion SNMP (snmpd.conf)

NetFlow

IP Flow (Flujo IP) - 7 atributos

Componentes de NetFlow

Diferencia con SNMP

NetFlow en Troubleshooting y Seguridad

Syslog

Contenido de un mensaje Syslog

Niveles de Severidad (0-7)

Timestamps: uptime vs datetime

Ventajas del servidor Syslog centralizado

NTP - Network Time Protocol

Por que es critico?

Estratos (Stratum)

Seleccion de servidor NTP

Zabbix

Componentes Principales

Conceptos Clave

Es necesario el Zabbix Agent?

Que necesita Zabbix para monitorear con Agent?

Si un host aparece como "no disponible", revisar:

RMON - Remote Network Monitoring

Diferencia con SNMP basico

Ventajas

Troubleshooting - 7 Pasos

Por que seguir un proceso metodico?

IP SLA y Tracking de Rutas

Como funciona con tracking

Ejemplo de configuracion

FCAPS - Areas Funcionales de Gestion

Integracion: SNMP + NetFlow + Syslog + NTP

Ejemplo integrado: "La red esta lenta"

Diagramas Visuales

Jerarquia de Estratos NTP

Arquitectura SNMP

Pipeline de NetFlow

Componentes de Zabbix

Tabla Comparativa SNMP

Preguntas del Parcial

Flashcards

Quiz - Pools Aleatorios

Modo Examen Simulado

Simulador de Troubleshooting

Glosario

Cheat Sheet - Resumen para Imprimir

SNMP

NetFlow

Syslog

NTP

Zabbix

FCAPS

IP SLA