Como configurar Proxmox VE com Ceph HA Storage

Em uma infraestrutura tradicional de servidores virtuais, as Máquinas Virtuais (VMs) rodam em servidores físicos, mas os seus arquivos de disco ficam armazenados em um storage centralizado compartilhado, como uma SAN (Storage Area Network) ou um NAS (Network Attached Storage) via NFS/iSCSI. Embora essa arquitetura permita a migração de VMs, ela cria um ponto único de falha (SPOF): se a controladora do storage central travar ou se o switch de storage queimar, toda a operação da empresa sai do ar instantaneamente, mesmo que você possua múltiplos servidores hosts potentes ligados.

Para eliminar esse risco sem a necessidade de comprar storages físicos dedicados caríssimos, o Proxmox VE oferece suporte nativo e integrado ao Ceph.

O Ceph é um sistema de arquivos distribuído e baseado em objetos, projetado para rodar de forma hiperconvergente. Isso significa que os próprios servidores de virtualização (nós do Proxmox) compartilham seus discos locais (SSDs/NVMes) através da rede para criar um pool de armazenamento virtual unificado e replicado. Se um dos servidores físicos sofrer uma pane completa, as VMs que rodavam nele serão automaticamente reiniciadas nos nós restantes em poucos segundos, sem qualquer perda de dados.

Neste tutorial passo a passo, você aprenderá como configurar um cluster de storage distribuído Ceph hiperconvergente de Alta Disponibilidade (HA) no Proxmox VE.

Pré-requisitos para um Cluster Ceph Saudável

Para que a replicação de dados e o quorum do cluster funcionem com segurança, você precisa dos seguintes requisitos de infraestrutura física:

Mínimo de 3 Nós Físicos (Servidores Host): Embora o Ceph possa ser instalado em 2 nós de forma experimental, um cluster saudável de produção exige no mínimo 3 servidores físicos para garantir o quorum de votação (Monitores) e manter a replicação clássica de 3x (3 cópias de cada bloco de dados).
Rede de Storage Dedicada de Alta Velocidade: O tráfego de sincronização do Ceph é intenso. É obrigatório ter interfaces de rede dedicadas exclusivas para o Ceph de no mínimo 10 Gbps (10GbE). Interfaces de 1 Gbps comuns saturarão rapidamente, gerando latências absurdas que derrubarão as VMs.
Discos Locais Idênticos (OSDs): Cada nó deve possuir discos SSD ou NVMe corporativos dedicados exclusivamente ao Ceph. Evite discos de uso doméstico comum, pois o Ceph realiza gravações constantes e esgotará a vida útil (TBW) desses discos em poucos meses. Não use discos sob controladoras RAID físicas em modo RAID-0/RAID-5; os discos devem estar conectados diretamente à placa-mãe em modo IT/HBA.

Passo a Passo para Configurar o Ceph no Proxmox VE

Passo 1: Instalação dos Pacotes do Ceph nos Nós

A instalação deve ser feita individualmente em cada um dos 3 nós do cluster.

Acesse a interface web do Proxmox VE e selecione o primeiro nó (pve-01).
No menu lateral, selecione a opção Ceph e clique no botão Install Ceph.
O assistente abrirá um console. Selecione a versão recomendada (ex: Reef ou Quincy) e confirme a instalação com Y.
O instalador fará o download e a configuração dos pacotes oficiais do repositório Proxmox.
Repita o mesmo processo nos nós pve-02 e pve-03.

+-------------------------------------------------------------+
| Proxmox VE - Ceph Package Installer                         |
|-------------------------------------------------------------|
| Select Ceph Version: Reef (Latest Stable)                   |
| Status: Installing dependencies... [SUCCESS]                 |
| Configuration files initialized under /etc/pve/ceph.conf    |
+-------------------------------------------------------------+

Passo 2: Configurando a Rede do Ceph (Monitores e Manager)

Agora criaremos a infraestrutura lógica do Ceph no primeiro nó.

No painel do primeiro nó (pve-01), vá em Ceph > Configuration.
O assistente solicitará a configuração das redes:
- Public Network: A subrede de rede dedicada de 10 Gbps usada para comunicação entre os nós e transmissão de dados das VMs (ex: 10.10.10.0/24).
- Cluster Network (Opcional, mas recomendado): Uma segunda rede dedicada de 10 Gbps exclusiva para o tráfego interno de replicação de dados entre os discos do Ceph (ex: 10.10.20.0/24).
O assistente criará automaticamente o primeiro serviço de monitoramento (Monitor) e gerência (Manager).
Vá para os nós pve-02 e pve-03. Acesse Ceph > Monitors e clique em Create para adicionar monitores e managers adicionais nesses nós.

Um cluster de 3 nós deve ter 3 Monitores ativos para garantir tolerância à falha (se 1 nó cair, os outros 2 mantêm a maioria dos votos/quorum).

Passo 3: Adicionando os Discos de Armazenamento (OSDs)

Os discos físicos locais que armazenarão os dados reais do Ceph são chamados de OSD (Object Storage Daemon).

No painel de qualquer um dos nós, vá em Ceph > OSD.
Certifique-se de que os SSDs/NVMes destinados ao Ceph estejam instalados e sem nenhuma partição criada (discos cruificados / raw).
Clique em Create: OSD.
Selecione o disco disponível no nó (ex: /dev/sdb ou /dev/nvme0n1).
Mantenha as configurações padrão (DB/WAL embutidos no mesmo disco se for SSD rápido) e clique em Create.
Repita o processo para todos os discos em todos os nós do cluster. Cada disco adicionado se tornará um OSD ativo (ex: osd.0, osd.1, osd.2).

Passo 4: Criando o Pool de Storage Replicado

Com os OSDs ativos e sincronizados, criaremos o pool lógico onde os discos das VMs serão armazenados.

Vá em Ceph > Pools e clique em Create.
Preencha as configurações do pool:
- Name: ceph-pool-vm
- Size (Cópia Principal + Réplicas): 3 (Garante 3 cópias idênticas dos dados).
- Min. Size (Tolerância Mínima para Escrita): 2 (Permite que o pool continue aceitando gravações mesmo se 1 dos 3 nós estiver fora do ar).
- Crush Rule: replicated_ruleset
- Add as Storage: Marque esta caixa para mapear o pool de forma automática no storage central do Proxmox VE.
Clique em Create. O pool será criado e adicionado à aba Datacenter > Storage como um tipo RBD (RADOS Block Device) compartilhado por todos os nós.

Ativando a Alta Disponibilidade (HA) nas VMs

Agora que possuímos um storage compartilhado e replicado ativado nos 3 nós, podemos ativar a reinicialização automática das VMs em caso de desastre.

Mova os discos virtuais das VMs críticas para o storage RBD recém-criado (ceph-pool-vm).
Acesse a aba Datacenter > HA > Groups.
Clique em Add para criar um grupo de alta disponibilidade:
- Name: HA_Group_Servers
- Nodes: Selecione os 3 nós (pve-01, pve-02, pve-03).
Agora, vá em Datacenter > HA > Resources.
Clique em Add:
- VM: Selecione a VM crítica (ex: VM 100 - Servidor ERP).
- Group: Selecione o grupo criado (HA_Group_Servers).
- Max. Restart: 2 (tentativas de reinício em caso de falha de software).
- Max. Relocate: 1 (máximo de migrações de servidor físico).
Clique em Add.

A partir de agora, se o servidor físico pve-01 queimar de forma completa (falha de energia ou hardware), os outros nós detectam a inatividade via link de cluster. O cluster isola o nó quebrado (Fencing) e reinicia a VM 100 no servidor pve-02 ou pve-03 usando os dados replicados no pool Ceph, mantendo os sistemas corporativos ativos.

Erros Comuns e Resolução de Problemas

Usar switches de rede comuns de 1 Gbps: O Ceph sincroniza gigabytes de dados continuamente para manter as réplicas idênticas. Placas de 1 Gbps causam gargalos de latência severos, fazendo com que as VMs congelem por “I/O delay” constante. Nunca use menos de 10 Gbps dedicado para a rede interna do Ceph.
Diferenças de tamanho e desempenho de discos: Instalar SSDs rápidos em um nó e HDs lentos em outro. Como o Ceph precisa gravar dados nos três nós para confirmar uma transação (Min. Size = 2), a gravação ocorrerá na velocidade do nó mais lento, arruinando a performance geral.
Falta de quorum (Split-Brain): Se você configurar apenas 2 nós e a conexão de rede cair entre eles, ambos acharão que o outro falhou e tentarão assumir o controle do mesmo recurso de forma simultânea (Split-Brain), o que corromperá os discos. Por isso, a regra de quorum de no mínimo 3 monitores em 3 nós físicos é mandatória.

Checklist de Saúde do Cluster Ceph

Monitore periodicamente o status da infraestrutura hiperconvergente para garantir a resiliência:

O status geral do Ceph em Ceph > Status exibe a marca verde HEALTH_OK?
O cluster possui no mínimo 3 Monitores e Managers ativos e distribuídos entre os nós?
As redes pública e privada do Ceph estão trafegando por portas de rede físicas dedicadas de 10 Gbps?
Todos os OSDs (discos físicos) estão online e livres de alertas de desgaste ou falhas SMART?
A configuração de replicação do Pool está definida com tamanho Size = 3 e tamanho mínimo Min. Size = 2?
Testes de migração ao vivo (Live Migration) de VMs entre os nós foram validados com sucesso?
As regras de Alta Disponibilidade (HA) em Datacenter > HA estão configuradas para as VMs críticas?

Como a WL Tech pode ajudar a blindar sua infraestrutura hiperconvergente

Projetar, configurar e manter clusters de virtualização de Alta Disponibilidade com Proxmox VE e Ceph exige conhecimento cirúrgico de engenharia de redes, dimensionamento de hardware de storage e protocolos de redundância. Um erro de projeto no link de sincronização ou na seleção do tipo de SSD pode travar toda a produção do seu negócio.

A equipe de TI da WL Tech realiza o projeto completo de implantação, tunamento e suporte especializado de clusters hiperconvergentes Proxmox VE + Ceph. Dimensionamos os servidores corretos de acordo com a sua demanda, instalamos links ópticos redundantes de 10GbE/25GbE para tráfego do Ceph, estruturamos políticas avançadas de contingência e monitoramos a saúde de discos e quorum 24 horas por dia. Cuidamos de toda a complexidade técnica invisível para que seus sistemas críticos nunca parem.

Sua empresa precisa de servidores com tolerância total a falhas físicas e Alta Disponibilidade de verdade? A WL Tech projeta e configura sua infraestrutura Proxmox VE com Ceph. Solicite um diagnóstico técnico gratuito da sua infraestrutura ou fale com nossos arquitetos de sistemas no WhatsApp.

Alta Disponibilidade no Proxmox VE: Configurando Storage Replicado com Ceph