Sistema de backup pull para Proxmox VE
Sistema de backup basado en snapshots LVM para maquinas virtuales en Proxmox VE. Utiliza una arquitectura pull donde el servidor de storage inicia las conexiones SSH hacia Proxmox y tira de los datos. El servidor Proxmox nunca tiene acceso de escritura al storage.
Motivacion
El modelo tradicional push (Proxmox envia al storage) tiene un problema de seguridad critico: si el servidor Proxmox es comprometido, el atacante tiene credenciales SSH con acceso de escritura al storage y puede destruir todos los backups.
Con el modelo pull:
- Proxmox no conoce las credenciales del storage
- Proxmox no puede escribir ni borrar en el storage
- Solo el storage decide cuando y que se respalda
- Un Proxmox comprometido no puede destruir los backups existentes
Arquitectura
A partir de v2.0.0 el flujo es por VM en vez de por disco individual. Para VMs con multiples discos, todos los snapshots se crean atomicamente antes de transferir cualquier dato, garantizando consistencia temporal. Desde v2.1.0, un lock distribuido permite que multiples storages respalden el mismo Proxmox sin colisiones.
Storage Server Proxmox Server
| |
|-- ssh "list" ------------------------>| (inventario de VMs)
|<-- CSV: vmid,status,vg,lv,size -------|
| |
| Para cada VM: |
|-- ssh "snapshot-vm <vmid> <pct> |
| <caller_id> <lock_ttl>" ------>| (lock distribuido + snapshots atomicos)
|<-- manifest: snap_name,vg,lv,size ----|
| |
| Para cada disco en manifest: |
|-- ssh "stream-disk <vg> <snap>" ----->| (stream comprimido dd|pigz)
|<------------ compressed stream -------|
|-- verifica PIPESTATUS + tamano |
| |
| Si TODOS los discos OK: |
|-- mv atomico incoming/ -> snapshots/ |
|-- prune copias antiguas |
| |
| Si ALGUN disco falla: |
|-- elimina TODO incoming/ de esta VM |
|-- backup previo en snapshots/ intacto |
| |
| SIEMPRE: |
|-- ssh "cleanup-vm <vmid> |
| <caller_id>" ----------------->| (elimina snapshots + libera lock)
Consistencia multi-disco (v2.0.0)
El problema que resuelve v2.0.0: en versiones anteriores, los snapshots se creaban uno a uno (snapshot disk0 → transfer disk0 → cleanup disk0 → snapshot disk1 → transfer disk1). Para VMs con multiples discos, los snapshots capturaban diferentes instantes, produciendo backups inconsistentes.
La solucion:
-
snapshot-vmcrea TODOS los snapshots en sucesion rapida (milisegundos entre ellos) -
Si algun snapshot falla, rollback automatico de los ya creados
-
Los streams se transfieren secuencialmente pero desde snapshots del mismo instante
-
cleanup-vmelimina todos los snapshots al final
Semantica all-or-nothing
- Un backup parcial de VM es inutil (disk0 de hoy y disk1 de ayer)
snapshots/siempre contiene conjuntos completos- Si ANY disco falla: se borra todo el incoming de esa VM, el backup anterior queda intacto
- Prune solo ejecuta tras exito total
Validacion de integridad (v2.1.2)
La compresion se realiza on-the-fly en el pipeline SSH: dd if=/dev/vg/snap bs=16M | pigz -c -p4 -3. Los errores del pipeline se detectan via PIPESTATUS inmediatamente. No se ejecuta verificacion post-transferencia (pigz -t) porque:
- Re-leer ficheros de 93GB+ desde disco mecanico (30-40 MB/s) tarda 40-50 minutos
- Es redundante: si el pipeline falla, PIPESTATUS lo captura
- La verificacion de integridad de backups pertenece a auditorias periodicas, no al flujo diario
Lock distribuido (v2.1.0)
Cuando multiples storages respaldan el mismo Proxmox, un lock distribuido previene colisiones:
- Ficheros lock en
/run/pull-backup/vm-{vmid}.locken Proxmox - Adquisicion atomica via
ln(hard link, falla con EEXIST si ya existe) - Contenido:
caller_id, timestamp, TTL - VM bloqueada por otro storage: skip limpio (exit 80,
VM_LOCKED) - Locks expirados (mas antiguos que
lock_ttl) se limpian automaticamente - Solo el caller que creo el lock puede liberarlo
Configuracion: caller_id (unico por storage) y lock_ttl (segundos) en pull-backup.cfg. Sin caller_id, el lock se desactiva (modo single-storage).
Componentes
| Componente | Version | Ubicacion | Funcion |
|---|---|---|---|
proxmox-backup-helper.sh |
2.1.1 | Proxmox: ~/utilidades/proxmox-backup/pull/ (repo clonado) |
Manejador SSH restringido con 13 comandos, lock distribuido |
proxmox-pull-backup.sh |
2.1.2 | Storage: ~/utilidades/proxmox-backup/pull/ (repo clonado) |
Orquestador de backups (flujo por VM, lock distribuido) |
proxmox-pull-restore.py |
1.0.0 | Storage: mismo directorio | Herramienta de restauracion (Python 3.6+) |
backup-access-shell.sh |
1.0.0 | Storage: mismo directorio | Shell de solo lectura para restore |
install-pull-backup.sh |
1.0.0 | Storage: mismo directorio | Instalador automatizado |
IMPORTANTE: Todos los scripts se ejecutan desde el repo clonado (~/utilidades/proxmox-backup/pull/). Nunca copiar a /usr/local/bin/ ni a otra ruta del sistema. Un git pull actualiza todo.
Requisitos previos
- Proxmox: Version 7.x, 8.x o 9.x con almacenamiento LVM
- Storage: Servidor Linux con espacio suficiente
- Ambos servidores:
pigzinstalado (apt-get install pigz) - Storage: Python 3.6+ (solo stdlib, sin dependencias externas)
- Red: Acceso SSH desde storage hacia Proxmox
Instalacion
Paso 1: Clonar el repositorio en ambos servidores
En Proxmox (como root):
cd ~
git clone <url-del-repo> utilidades
En storage (como usuario de backup, NO root):
cd ~
git clone <url-del-repo> utilidades
Paso 2: Instalar pigz en ambos servidores
apt-get install -y pigz
Paso 3: Generar clave SSH y configurar acceso
En el storage:
cd ~/utilidades/proxmox-backup/pull
mkdir -p keys
ssh-keygen -t ed25519 -f keys/id_pull_backup -N "" -C "pull-backup@$(hostname)"
Copiar la clave publica al Proxmox con restriccion command=:
# En /root/.ssh/authorized_keys del Proxmox:
command="/root/utilidades/proxmox-backup/pull/proxmox-backup-helper.sh",no-port-forwarding,no-X11-forwarding,no-agent-forwarding,no-pty ssh-ed25519 AAAA... pull-backup@mystor01
Paso 4: Crear la configuracion
cd ~/utilidades/proxmox-backup/pull
cp config/pull-backup.cfg.example config/pull-backup.cfg
cp config/proxmox_hosts.cfg.example hosts/proxmox_hosts.cfg
Editar config/pull-backup.cfg:
# Directorios
incoming_dir="/srv/storage/backups_kvm/incoming"
final_dir="/srv/storage/backups_kvm/snapshots"
# Retencion
numcopias=3
# Snapshots
snapshot_pct=15 # Porcentaje del LV para snapshot
default_vm_scope="all" # "all" = descubre todas las VMs; "none" = requiere filtro
# Rendimiento
min_speed_mbs=150 # MB/s minimos esperados (para timeout dinamico)
min_free_gb=500 # GB libres requeridos (ademas del tamano estimado)
ssh_timeout=30 # Timeout SSH en segundos
# Lock distribuido (v2.1.0+, obligatorio si hay multiples storages)
caller_id="mystor01" # Identificador unico de este storage
lock_ttl=7200 # TTL del lock en segundos (2h)
# Permisos de ficheros
file_owner="backupuser:backupuser" # chown tras escribir
# Notificaciones (solo en errores)
correo="admin@example.com"
Editar hosts/proxmox_hosts.cfg:
# name,host,port,key_file,disks_file
myprox01,10.0.0.1,22,keys/id_pull_backup,
El campo disks_file es opcional desde v2.0.0. Con default_vm_scope="all", el orquestador descubre automaticamente todas las VMs activas.
Paso 5: Crear directorios de datos
mkdir -p /srv/storage/backups_kvm/incoming
mkdir -p /srv/storage/backups_kvm/snapshots
mkdir -p ~/utilidades/proxmox-backup/pull/logs
Paso 6: Verificar conectividad
cd ~/utilidades/proxmox-backup/pull
./proxmox-pull-backup.sh --host myprox01 --verbose --dry-run
Paso 7: Configurar cron
# Backup diario a las 02:00 UTC
crontab -e
0 2 * * * ~/utilidades/proxmox-backup/pull/proxmox-pull-backup.sh >> ~/utilidades/proxmox-backup/pull/logs/cron.log 2>&1
IMPORTANTE con multiples storages: escalonar los crons con al menos 15 minutos de diferencia. Aunque el lock distribuido previene colisiones, la separacion temporal reduce contention.
Actualizacion
cd ~/utilidades
git pull
No requiere reinicio. Los scripts se invocan frescos en cada ejecucion.
Uso diario
Ejecutar backup manual
cd ~/utilidades/proxmox-backup/pull
# Dry-run (no ejecuta nada, muestra lo que haria)
./proxmox-pull-backup.sh --host myprox01 --verbose --dry-run
# Backup real de todas las VMs de un host
./proxmox-pull-backup.sh --host myprox01 --verbose
# Backup de una VM especifica
./proxmox-pull-backup.sh --host myprox01 --vm 104 --verbose
# Backup de varias VMs (separadas por coma o repetido)
./proxmox-pull-backup.sh --host myprox01 --vm 104,203 --verbose
# Backup de todos los hosts configurados
./proxmox-pull-backup.sh --verbose
Listar backups disponibles
python3 proxmox-pull-restore.py --config config/pull-backup.cfg list
# Filtrar por host
python3 proxmox-pull-restore.py --config config/pull-backup.cfg list --host myprox01
# Filtrar por VM
python3 proxmox-pull-restore.py --config config/pull-backup.cfg list --vm 316
Restaurar una VM
Escenario A: la VM existe y esta parada (sobreescribe los discos):
python3 proxmox-pull-restore.py --config config/pull-backup.cfg \
restore --host myprox01 --vm 316 --data-only
Escenario B: la VM no existe (crea LV, config y restaura datos):
python3 proxmox-pull-restore.py --config config/pull-backup.cfg \
restore --host myprox01 --vm 316 --from-scratch
Restaurar desde una fecha concreta:
python3 proxmox-pull-restore.py --config config/pull-backup.cfg \
restore --host myprox01 --vm 316 --date 2026-02-08
Restaurar varias VMs en paralelo:
python3 proxmox-pull-restore.py --config config/pull-backup.cfg \
restore --host myprox01 --vm 316 900 --workers 2
IMPORTANTE: el argumento --config va ANTES del subcomando (list, restore).
Modelo de seguridad
Lado Proxmox
El helper (proxmox-backup-helper.sh) se ejecuta exclusivamente via la restriccion command= en authorized_keys. Esto significa que cualquier conexion SSH con esa clave ejecuta el helper, ignorando el comando solicitado por el cliente.
El helper valida cada argumento con expresiones regulares estrictas:
- Volume groups: solo alfanumericos, guiones y guiones bajos
- Logical volumes: solo patron
vm-\d+-disk-\d+ - Snapshot names: solo patron
snap-\d+-disk\d+ - VMIDs: solo numeros entre 100 y 999999
- Snapshot porcentaje: solo numeros entre 1 y 100
- caller_id: solo alfanumericos, guiones y guiones bajos (v2.1.0)
Comandos no reconocidos se rechazan con error. Todas las operaciones se registran en syslog.
Lado Storage
El storage inicia todas las conexiones. Proxmox nunca se conecta al storage para los backups. El unico acceso inverso (Proxmox hacia storage) es para restore, y se canaliza a traves de backup-access-shell.sh que solo permite operaciones de lectura (pigz -dc, ls, test, cat, du) y valida rutas con readlink -f contra symlinks maliciosos.
Estructura de ficheros
En el servidor de storage
~/utilidades/proxmox-backup/pull/
proxmox-pull-backup.sh # Orquestador v2.1.2
proxmox-pull-restore.py # Herramienta de restore
backup-access-shell.sh # Shell read-only
install-pull-backup.sh # Instalador
config/
pull-backup.cfg # Configuracion principal (gitignored)
pull-backup.cfg.example # Template (versionado)
hosts/
proxmox_hosts.cfg # Inventario de hosts (gitignored)
disks_myprox01.txt # (Opcional) filtro de discos (gitignored)
keys/
id_pull_backup # Clave privada SSH (gitignored)
id_pull_backup.pub # Clave publica SSH (gitignored)
logs/
pull-backup-YYYY-MM-DD.log # Log diario (gitignored)
cron.log # Log de cron (gitignored)
En el servidor Proxmox
~/utilidades/proxmox-backup/pull/
proxmox-backup-helper.sh # Helper restringido v2.1.1
/root/.ssh/authorized_keys # Clave con command=
/run/pull-backup/ # Lock files distribuidos (runtime)
Directorio de backups
/srv/storage/backups_kvm/
incoming/ # Transferencias en curso
snapshots/
kvm-104-disk0.2026-02-26-10-00-12.gz # Disco 0 comprimido
kvm-104-disk1.2026-02-26-10-00-12.gz # Disco 1 (mismo timestamp)
kvm-104.conf.2026-02-26-10-00-12 # Config de la VM
Nomenclatura de ficheros
kvm-{vmid}-disk{N}.{YYYY-MM-DD-HH-MM-SS}.gz # Discos
kvm-{vmid}.conf.{YYYY-MM-DD-HH-MM-SS} # Configuraciones
Comandos del helper
El helper v2.1.1 acepta 13 comandos, todos validados con regex:
| Comando | Argumentos | Funcion |
|---|---|---|
list |
(ninguno) | Lista VMs activas con discos LVM |
list-all |
(ninguno) | Lista TODAS las VMs (incluidas paradas) |
list-snapshots |
(ninguno) | Lista snapshots activos (deteccion de huerfanos) |
snapshot-vm |
vmid porcentaje [force] [caller_id] [lock_ttl] |
Adquiere lock distribuido (si caller_id), crea snapshots atomicos de TODOS los discos. Devuelve manifest |
stream-disk |
vg snap_name |
Envia stream comprimido (dd | pigz) de un snapshot |
cleanup-vm |
vmid [caller_id] |
Elimina TODOS los snapshots de una VM y libera lock |
check-lock |
vmid |
Verifica estado del lock distribuido de una VM (v2.1.0) |
snapshot |
vg lv porcentaje [force] |
(Deprecated) Crea snapshot individual y envia stream |
cleanup |
vg snap_name |
Elimina un snapshot LVM individual |
config |
vmid |
Devuelve el fichero de configuracion de la VM |
restore |
vg lv |
Recibe stream comprimido y lo escribe al disco |
create-disk |
vg nombre size_gb |
Crea un nuevo volumen logico |
restore-config |
vmid |
Recibe y escribe la config de la VM |
Formato del manifest (snapshot-vm)
# snap_name,vg,lv,size_gb
snap-104-disk0,pve,vm-104-disk-0,150
snap-104-disk1,pve,vm-104-disk-1,125
Opciones del orquestador
proxmox-pull-backup.sh [--config <path>] [--host <name>] [--vm <vmid>[,<vmid>...]] [--dry-run] [--force] [--verbose]
--config <path> Fichero de configuracion (default: ./config/pull-backup.cfg)
--host <name> Backup solo este host (default: todos los hosts)
--vm <vmid>[,<vmid>...] Backup solo estas VMs (separadas por coma, repetible)
--dry-run Muestra lo que haria sin ejecutar
--force Auto-limpieza de snapshots huerfanos en Proxmox
--verbose Salida detallada
Parametros de configuracion
| Parametro | Default | Descripcion |
|---|---|---|
incoming_dir |
(obligatorio) | Directorio temporal para transferencias en curso |
final_dir |
(obligatorio) | Directorio final de backups |
numcopias |
3 | Copias a retener por disco |
snapshot_pct |
15 | Porcentaje del LV para snapshot |
default_vm_scope |
"all" | "all" = descubre todas las VMs; "none" = requiere filtro |
min_speed_mbs |
150 | MB/s minimos esperados (para timeout dinamico) |
min_free_gb |
1024 | GB libres minimos en storage (ademas del tamano estimado) |
force_orphan_cleanup |
0 | Auto-limpiar snapshots huerfanos (1 = activado) |
caller_id |
"" | Identificador de este storage (obligatorio para multi-storage) |
lock_ttl |
7200 | TTL del lock distribuido en segundos |
file_owner |
"" | user:group para chown tras escritura (ej: backupuser:backupuser) |
correo |
"" | Email para notificaciones de error (nunca en exito) |
ssh_timeout |
30 | Timeout de conexion SSH en segundos |
Funcionalidades avanzadas
Descubrimiento dinamico (v2.0.0)
Con default_vm_scope="all" en la config, el orquestador descubre automaticamente todas las VMs activas usando el comando list del helper. Los ficheros disks_*.txt pasan a ser opcionales (filtro de exclusion, no inventario obligatorio).
Timeout dinamico
El timeout de cada transferencia se calcula automaticamente segun el tamano del disco:
timeout = (tamano_disco_gb * 1024) / min_speed_mbs
Con un minimo de 300 segundos. Para un disco de 150GB a 150 MB/s el timeout es ~17 minutos.
Deteccion de snapshots huerfanos
Antes de procesar cada host, el orquestador ejecuta list-snapshots y compara con los snapshots esperados. Los huerfanos (de ejecuciones previas fallidas) se limpian automaticamente si force_orphan_cleanup=1.
Estimacion de tamano
Si existe un backup previo del mismo disco, se usa su tamano como estimacion. Si no, se estima el 50% del tamano raw del disco. Esto se usa para la verificacion de espacio libre.
Reintentos
Si un backup falla, se reintenta una vez tras 10 minutos de espera. Solo se reporta error si el segundo intento tambien falla. Si falla el reintento, la VM completa se marca como fallida (all-or-nothing).
Pruning automatico
Tras completar los backups, se mantienen solo las ultimas numcopias copias de cada disco. Las configs asociadas a backups eliminados tambien se limpian.
Rendimiento validado
Produccion (marzo 2026, v2.1.2)
| VM | Discos | Comprimido | Tiempo total | Velocidad | Ruta |
|---|---|---|---|---|---|
| KVM 104 | 2 (150+125 GB) | 93 GB | 14.5 min | 106-111 MB/s | avanza01 → stor01avanzait |
| KVM 203 | 2 (85+50 GB) | 39 GB | ~12 min | 56-76 MB/s | avanza01 → stor01avanzait |
| KVM 100 | 1 (620 GB) | 415 GB | 30 min | 233 MB/s | indivaprox0 → localstor (local) |
| KVM 101 | 1 (260 GB) | 114 GB | 10 min | 187 MB/s | indivaprox0 → localstor (local) |
Mejora v2.1.2: La eliminacion de la verificacion pigz -t post-transferencia redujo el tiempo total de KVM 104 de ~61 min (v2.0.0) a ~14.5 min — aceleracion de 4x. La integridad de la compresion se valida on-the-fly via PIPESTATUS del pipeline dd | pigz.
Staging (febrero 2026)
| Operacion | Disco | Tiempo | Velocidad | Resultado |
|---|---|---|---|---|
| Backup | 5GB | 11s | 6 MB/s | 73MB comprimido |
| Restore data-only | 5GB | 10s | 7 MB/s | OK |
| Restore from-scratch | 5GB | 9s | 7 MB/s | LV + config + datos |
| Deteccion huerfanos | -- | instantaneo | -- | Auto-limpieza |
| Pruning 4 a 3 copias | -- | <1s | -- | Retencion exacta |
Despliegues actuales
| Storage | Host Proxmox | VMs | Cron (UTC) | Version |
|---|---|---|---|---|
| localstor (stor00) | indivaprox0 | KVM 100 (1d, 620GB), KVM 101 (1d, 260GB) | 22:00 VM100, 23:15 VM101 | v2.1.2 |
| stor01 | indivaprox0 | todas (dynamic discovery) | 02:00 | v2.1.2 |
| stor01avanzait | avanza01 | KVM 104 (2d), KVM 203 (2d) | 10:00 | v2.1.2 |
Troubleshooting
El backup genera un fichero .gz invalido
Causa: Los comandos lvcreate/lvremove escriben mensajes a stdout que contaminan el stream gzip.
Solucion: Verificar que el helper redirige stdout de lvm a stderr (>&2). Actualizar el helper a v2.1.1+.
VM bloqueada por otro storage (exit 80)
Causa: Otro storage esta respaldando esa VM. El lock distribuido (v2.1.0) previene la colision.
Solucion: Es un comportamiento correcto. La VM se salta limpiamente y se respalda en la siguiente ejecucion. Si el lock es huerfano (proceso anterior murio), esperar a que expire el TTL (default 2h) o limpiar manualmente:
ssh -i keys/id_pull_backup proxmox "cleanup-vm <vmid> <caller_id>"
Snapshot/lock huerfano tras matar un proceso
Causa: Si se mata el proceso del orquestador (kill -9), pueden quedar snapshots y locks huerfanos en Proxmox.
Solucion: Limpiar manualmente:
ssh -i keys/id_pull_backup proxmox "cleanup-vm <vmid> <caller_id>"
Timeout en backups de discos grandes
Causa: El timeout dinamico depende de min_speed_mbs en la config.
Solucion: Reducir min_speed_mbs si la red es lenta. Por ejemplo, para 50 MB/s reales:
min_speed_mbs=40 # Dejar margen del 20%
Snapshot overflow (snap_percent=100)
Causa: El disco recibe mas escrituras de las esperadas durante la transferencia, llenando el snapshot COW.
Solucion: Aumentar snapshot_pct en la config (default: 15). Para VMs con alta actividad de I/O, usar 20-25.
El restore dice "pigz: unrecognized format"
Causa: El fichero .gz esta corrupto.
Solucion: Rehacer el backup con el helper v2.1.1+.
Repositorio
El codigo fuente esta en el repositorio utilidades bajo proxmox-backup/pull/.
Documentacion completa: proxmox-backup/README.md y proxmox-backup/docs/SPEC-pull-backup-architecture.md.
Historial de versiones
| Version | Fecha | Cambio principal |
|---|---|---|
| 2.1.2 | 2026-03-02 | Eliminada verificacion pigz -t post-transferencia (aceleracion 4x en disco mecanico) |
| 2.1.1 | 2026-03-01 | 9 bugs corregidos: race condition TOCTOU en lock, set +e en pipelines, globals stale, etc. |
| 2.1.0 | 2026-03-01 | Lock distribuido para prevencion de colisiones multi-storage |
| 2.0.0 | 2026-02-26 | Snapshots atomicos multi-disco, flujo per-VM, all-or-nothing, snapshot-vm/stream-disk/cleanup-vm |
| 1.4.0 | 2026-02-09 | Multi-VM filter, dynamic discovery |
| 1.1.0 | 2026-02-08 | Fix stdout pollution en helper, validacion staging |
| 1.0.0 | 2026-02-08 | Primera version funcional |
Ultima actualizacion
- Fecha: 2026-03-02
- Version: 2.1.2
- Autor: Abkrim