Cluster Proxmox: Alta Disponibilidade

Para qualquer empresa em fase de crescimento, a indisponibilidade de sistemas críticos representa prejuízos imediatos. Se o servidor que hospeda o banco de dados do ERP principal, o sistema de controle de faturamento ou o Active Directory corporativo sofrer uma queima física de placa-mãe ou falha elétrica, a operação inteira pode parar por horas ou até dias. O tempo necessário para realizar o diagnóstico, conseguir peças de reposição e restaurar os backups mais recentes prolonga o downtime, desgastando a reputação da equipe de TI e gerando perdas financeiras severas.

No passado, mitigar esse tipo de risco através de arquiteturas de Alta Disponibilidade (HA — High Availability) exigia investimentos exorbitantes em softwares de virtualização proprietários e hardwares específicos, mantendo essa segurança restrita a grandes corporações.

O Proxmox Virtual Environment (VE) democratizou essa infraestrutura. Com recursos nativos de cluster e alta disponibilidade open source de nível corporativo, o Proxmox permite consolidar servidores e garantir failover automático rápido, sem a necessidade de pagar licenças de software abusivas. Explicamos abaixo como funciona o funcionamento de um cluster Proxmox HA e os requisitos de projeto para sua implementação técnica.

O que é Alta Disponibilidade (HA) no Proxmox?

Em um ambiente de virtualização simples rodando em um único servidor físico (host), se o hardware falhar, todas as Máquinas Virtuais (VMs) e containers rodando nele param imediatamente.

A Alta Disponibilidade consiste em agrupar dois ou mais servidores físicos Proxmox em uma estrutura unificada chamada Cluster. Nesse modelo, as VMs rodando no cluster são monitoradas constantemente pelo serviço de gerenciamento do Proxmox. Se um dos hosts físicos do cluster falhar de forma abrupta (queima de hardware, queda de energia), o cluster detecta a perda de sinal e inicializa automaticamente as VMs afetadas nos hosts físicos restantes do cluster em questão de segundos ou minutos.

A grande vantagem para o negócio é a redução drástica do RTO (Tempo de Recuperação Objetivo): a intervenção humana para restaurar o sistema deixa de ser necessária e a parada operacional cai de várias horas para meros minutos.

Requisitos Fundamentais para a Alta Disponibilidade Proxmox

Para que o recurso de failover automático funcione corretamente e sem gerar corrupção de dados, um projeto de Cluster Proxmox HA deve atender a três requisitos essenciais:

1. Quórum de Cluster (Corosync e Votos)

Um cluster Proxmox utiliza o protocolo Corosync para garantir que todos os hosts saibam do status dos outros nós em tempo real. O quórum é a maioria de votos necessária para que o cluster permaneça operacional e tome decisões de failover com segurança.

Regra de Quórum: O cluster precisa ter mais de 50% dos votos ativos para operar.
O problema do Split-Brain: Se um cluster de 2 nós perder a conexão de rede interna entre eles, ambos os nós podem acreditar que o outro falhou e tentar iniciar a mesma VM simultaneamente. Isso geraria a corrupção total do banco de dados das VMs (cenário conhecido como split-brain).
A Solução (Nós Ímpares ou QDevice): Para obter quórum estável, o recomendável é construir clusters com pelo menos 3 nós físicos. Se o orçamento for limitado a 2 nós principais potentes, o Proxmox permite adicionar um terceiro voto virtual através de um QDevice (Quorum Device), que pode rodar em uma mini-máquina barata ou em um container leve fora do cluster principal para servir de árbitro em caso de queda de comunicação de rede.

2. Armazenamento Compartilhado (Shared Storage)

Para que uma VM que rodava no Host A possa inicializar no Host B após a queda do Host A, os arquivos de disco virtual desta VM devem estar acessíveis para ambos os hosts simultaneamente. Isso requer a utilização de armazenamento compartilhado:

Storage Centralizado (SAN/NAS): Conexão via protocolos NFS, iSCSI ou Fibre Channel de volta a um storage de alto desempenho compartilhado na rede de servidores.
Armazenamento Distribuído Ceph (Nativo): O Proxmox inclui suporte nativo ao Ceph, uma tecnologia de armazenamento distribuído e definido por software. Com o Ceph, os discos locais de cada servidor do cluster são unidos em um único pool de armazenamento virtualizado e replicados em tempo real via rede entre todas as máquinas. Se um servidor queimar por completo, o Ceph garante que os outros servidores já possuam cópias idênticas dos discos das VMs ativos localmente.

3. Rede dedicada para o Cluster (Corosync e Migração)

O tráfego de comunicação de quórum (Corosync) exige latência extremamente baixa. Paralelamente, o Ceph e as migrações ativas de VMs consomem muita banda. Portanto, projetar redes com cabos e conexões físicas dedicadas é obrigatório:

Rede de Corosync: Interfaces de rede gigabit separadas e redundantes apenas para comunicação de quórum.
Rede de Armazenamento/Replicação (Ceph): Interfaces de alta velocidade (mínimo de 10 Gbps) para garantir que a cópia de dados entre discos virtuais não gere lentidão nos servidores de produção.

Comparativo: Servidores Independentes vs Cluster Proxmox HA

Característica	Servidores Físicos Isolados	Cluster Proxmox HA (WL Tech)
Ponto Único de Falha	Alto (se a placa queimar, o servidor fica inativo)	Baixo (se um host queimar, o cluster assume)
Tempo de Restauração	De 4 a 24 horas (tempo de diagnóstico e reposição)	De 1 a 3 minutos (reinicialização automática das VMs)
Manutenção Planejada	Requer agendamentos fora do expediente (noite/fim de semana)	Zero downtime (Live Migration das VMs para outro nó físico)
Custo de Licenciamento	Alto (se utilizar soluções VMware / Windows Server)	Zero (Proxmox VE é open source sob licença AGPL v3)
Aproveitamento de Recursos	Baixo (algumas máquinas ficam ociosas enquanto outras saturam)	Alto (recursos dinâmicos compartilhados entre os nós do cluster)

Erros comuns em projetos de Alta Disponibilidade

Configurar HA em rede com cabos de rede compartilhados: Compartilhar o tráfego do Corosync (quórum) no mesmo cabo e placa de rede por onde trafega a internet normal dos colaboradores ou o backup pesado. Se a rede saturar, o Corosync perde pacotes, gerando falhas de quórum falsas e reinicializações indesejadas de servidores saudáveis.
Não prever a capacidade de reserva de memória RAM (Overhead de HA): Se você possui 3 nós no cluster e cada nó opera com 90% da memória RAM ocupada, no momento em que um host falhar, os dois hosts restantes não terão RAM livre suficiente para iniciar as VMs do host caído. É preciso prever uma reserva técnica de recursos no cluster para absorver as falhas com segurança.
Ignorar a qualidade do switch de rede para Ceph: Utilizar switches domésticos ou não gerenciáveis para interligar a rede de replicação do Ceph. A latência de escrita de disco virtual dispara, deixando as VMs lentas e travando o cluster durante fluxos altos de escrita.
Configurar failover automático para VMs sem redundância de software: Habilitar HA para aplicações obsoletas que não toleram interrupções abruptas ou reinicializações simples. O HA protege a infraestrutura física, mas a consistência dos dados do banco da aplicação deve ser monitorada.

Checklist de requisitos para um Cluster Proxmox HA estável

O ambiente de virtualização da sua empresa está preparado para tolerar falhas de hardware?

O cluster possui pelo menos 3 nós físicos ativos ou 2 nós integrados com um QDevice (Quorum)?
O armazenamento dos discos virtuais das VMs está hospedado em storage compartilhado (NFS, iSCSI) ou em pool distribuído Ceph?
Há placas de rede físicas dedicadas e cabeadas separadamente para o tráfego de Corosync (quórum)?
A rede de replicação e storage (Ceph) trafega em switches e conexões de alta velocidade (10 Gbps ou superior)?
Existe RAM e CPU reserva livre no cluster suficiente para absorver a queda de qualquer host físico?
As VMs críticas foram configuradas na console do Proxmox com a tag de prioridade HA ativa?
O cluster é monitorado por sensores de hardware e relatórios de quórum diários (como Zabbix)?

Como a WL Tech projeta e gerencia ambientes de Alta Disponibilidade

A WL Tech possui engenheiros especialistas na arquitetura de virtualização baseada em Proxmox VE e armazenamento Ceph. Nós desenhamos o projeto do cluster ideal para o seu negócio, calculando a volumetria de RAM, CPU e armazenamento necessária, estruturando as conexões de rede 10G redundantes e configurando as regras de quórum e failover automático de forma segura.

Além da implantação física e de software, a WL Tech monitora ativamente a saúde do seu cluster Proxmox. Nossos analistas acompanham a temperatura do rack, a integridade física de discos, a latência de comunicação de quórum e o balanceamento de carga entre nós em tempo real. Com a WL Tech, sua empresa tem a garantia de um datacenter corporativo resiliente e sob medida — eliminando paradas inesperadas e focando na produtividade dos seus negócios.

Quer eliminar as paradas físicas em seus servidores de TI com Proxmox? A WL Tech projeta e implementa clusters de alta disponibilidade. Solicite um diagnóstico gratuito do seu ambiente ou fale com um especialista pelo WhatsApp.

Cluster Proxmox: alta disponibilidade para servidores