Proxmox: Servicios Colgados - Diagnóstico y Soluciones
Descripción del Problema
Proxmox ocasionalmente experimenta un estado donde los servicios del sistema de gestión se "cuelgan", resultando en:
- Frontend web inaccesible o extremadamente lento
- Comandos de Proxmox no responden (pvesh, pvecm, qm, pct)
- VMs/Containers siguen funcionando pero sin gestión
- SSH funciona pero utilidades de Proxmox fallan
- Contenedores fucionales pero lenbtos y pesados sin presentar cargar que lo explique.
Diagnóstico
Verificación del Estado de Servicios
# Comprobar posibles problemas con NFS
df -h
# Comprobar estado de servicios críticos
systemctl status pve-cluster
systemctl status pvedaemon
systemctl status pvestatd
systemctl status pveproxy
# Verificar logs para identificar errores
journalctl -u pve-cluster -f
journalctl -u pvedaemon -f
tail -f /var/log/pve/tasks/active
Indicadores Comunes
- pve-cluster: Estado "failed" o "timeout"
- pvedaemon: No responde a peticiones API
- pveproxy: Error 502/503 en interfaz web
- Alta carga del sistema sin razón aparente
Verificación de Recursos
# Comprobar memoria y CPU
free -h
top -n 1
# Estado del almacenamiento
df -h
iostat -x 1 3
# Conectividad de cluster (si aplica)
pvecm status
Soluciones
Solución Rápida (Restart de Servicios)
# Secuencia de reinicio recomendada
service pve-cluster restart && \
service pvedaemon restart && \
service pvestatd restart && \
service pveproxy restart
# Verificar que los servicios han iniciado correctamente
systemctl status pve-cluster pvedaemon pvestatd pveproxy
Solución Alternativa por Pasos
# Si el comando conjunto falla, reiniciar individualmente
systemctl stop pveproxy
systemctl stop pvestatd
systemctl stop pvedaemon
systemctl stop pve-cluster
# Esperar unos segundos y reiniciar en orden
systemctl start pve-cluster
sleep 5
systemctl start pvedaemon
sleep 3
systemctl start pvestatd
systemctl start pveproxy
Troubleshooting Avanzado
Si pve-cluster no inicia:
# Verificar quorum (en clusters)
pvecm expected 1
# Limpiar archivos de lock problemáticos
rm -f /var/lib/pve-cluster/.pmxcfs.lockfile
systemctl start pve-cluster
Si persisten problemas:
# Reinicio completo del stack de Proxmox
systemctl restart pve-cluster pvedaemon pvestatd pveproxy
# Reinicio completo del stack de Proxmox completo. Opción más dura.
systemctl restart pve-cluster pvedaemon pvestatd pveproxy corosync
# Como último recurso (CUIDADO: puede afectar VMs)
# Si tienes un KVM remoto para la máquina baremetal es el momento de activarl y tenerla abierta
reboot
Prevención
Monitoreo Proactivo
# Script de verificación periódica
#!/bin/bash
services=("pve-cluster" "pvedaemon" "pvestatd" "pveproxy")
for service in "${services[@]}"; do
if ! systemctl is-active --quiet $service; then
echo "$(date): $service is down" >> /var/log/pve-health.log
systemctl restart $service
fi
done
Configuración de Cron
# Añadir al crontab (cada 5 minutos)
*/5 * * * * /path/to/pve-health-check.sh
Causas Comunes
- Sobrecarga de memoria en el host Proxmox
- Problemas de red en configuraciones de cluster
- Almacenamiento lento o con alta latencia
- Actualizaciones parciales o interrumpidas
- Configuraciones de firewall bloqueando puertos internos
- Problemas con monatajes NFS bloquenado el subsistema de ficheros PVE
Puertos Críticos de Proxmox
- 8006: Interfaz web HTTPS
- 5404/5405: Corosync (cluster)
- 111/2049: NFS (si se usa)
- 3128: Proxy de descarga
Logs Importantes
/var/log/pve/tasks/active
- Tareas en ejecución/var/log/daemon.log
- Servicios del sistema/var/log/pve/cluster.log
- Información del clusterjournalctl -u pve-*
- Logs específicos de servicios
Notas Adicionales
⚠️ Importante: Los VMs y containers continúan ejecutándose durante estos problemas, solo se ve afectada la gestión.
✅ Tip: Mantener siempre acceso SSH alternativo para poder ejecutar estos comandos de recuperación.
Aviso
Esta documentación y su contenido, no implica que funcione en tu caso o determinados casos. También implica que tienes conocimientos sobre lo que trata, y que en cualquier caso tienes copias de seguridad. El contenido el contenido se entrega, tal y como está, sin que ello implique ningún obligación ni responsabilidad por parte de Castris
Si necesitas soporte profesional puedes contratar con Castris soporte profesional.