Proxmox Cluster (Ceph Storage) Safe Shutdown and Startup v9.x

Merhaba, bu yazımızda Ceph storage kullanan bir Proxmox cluster ortamının güvenli şekilde kapatılması ve tekrar açılması için izlenmesi gereken yolu anlatıyor olacağım.

(10 node bir cluster üzerinde bu demo yapılıp bu yazı yazılmıştır.)

1️⃣ Ceph Cluster Health Kontrolü

Shutdown işlemine başlamadan önce Ceph cluster sağlıklı olmalıdır.

Komut: ceph -s

Beklenen çıktı: HEALTH_OK

Ek Kontrol Komutları:

ceph osd tree
ceph pg stat

Şunlar olmamalıdır:
   degraded PG
   recovery
   backfill

2️⃣ Ceph Maintenance Flag Ayarlama

Node’lar kapandığında Ceph’in gereksiz veri rebalance yapmasını önlemek için aşağıdaki flag’ler set edilir.

Önce mevcut flag’leri kontrol edin:

ceph osd dump | grep flags

Ardından maintenance flag’leri set edilir:

ceph osd set noout
ceph osd set norebalance
ceph osd set nobackfill
Kontrol: ceph osd dump | grep flags

Bu flag’ler sayesinde:

• OSD offline olduğunda Ceph hemen rebalancing başlatmaz
• Gereksiz disk IO oluşmaz
• Cluster performansı korunur

3️⃣ VM ve Container’ları Kapatma

Shutdown işleminden önce tüm VM ve Container’lar kapatılmalıdır.

VM listeleme: qm list
VM kapatma: qm shutdown VMID
Zorunlu durumda: qm stop VMID

Container kapatma: pct shutdown CTID
Büyük clusterlarda toplu shutdown için: qm list | awk 'NR>1 {print $1}' | xargs -I {} qm shutdown {}

4️⃣ HA Servisini Devre Dışı Bırakma

Cluster HA kullanıyorsa shutdown sırasında HA migration oluşmasını engellemek için HA servisleri durdurulmalıdır.

HA durumunu kontrol et: ha-manager status

Tüm node'lar da aşağıdaki servisler durdurulur.

LRM servis: systemctl stop pve-ha-lrm

CRM servis: systemctl stop pve-ha-crm

Bu işlem HA stack'i tamamen dondurur.

5️⃣ Proxmox Node’ları Kapatma (HCI Cluster)

VM ve HA servisleri kapatıldıktan sonra node’lar güvenli şekilde kapatılabilir.

Her node üzerinde: sync; shutdown -h now veya poweroff

Önerilen Shutdown Sırası (HCI)

HCI mimaride compute ve storage aynı node üzerinde bulunduğundan shutdown sırası Ceph MON quorum’u koruyacak şekilde planlanmalıdır.

1️⃣ MON içermeyen node’lar

node06
node07
node08
node09
node10

2️⃣ MON içeren node’lar

node01
node02
node03
node04
node05

3️⃣ En son aktif MON node

MON quorum kaybolmaması için en son node kapatılır.

Örnek Shutdown Sırası:

node10
node09
node08
node07
node06
node05
node04
node03
node02
node01 (en son)

Bu yöntem sayesinde:
• Ceph quorum korunur
• cluster crash olmaz
• unnecessary recovery oluşmaz

6️⃣ Cluster’ı Tekrar Açma (HCI)

Cluster açılırken shutdown sırasının tam tersi uygulanmalıdır.

Power On Sırası

1️⃣ Önce Ceph MON node’lar

node01
node02
node03
node04
node05

Bu node’lar Ceph quorum’u oluşturur.
Node’lar açıldıktan sonra 1-2 dakika beklenmesi önerilir. Bu süre Ceph MON election ve quorum oluşumu için gereklidir.

2️⃣ Sonra diğer HCI node’lar

node06
node07
node08
node09
node10

7️⃣ Cluster Quorum Kontrolü

Cluster node’ları açıldıktan sonra quorum kontrol edilir.

pvecm status

Beklenen çıktı: Quorate: Yes

8️⃣ Ceph Cluster Health Kontrolü

Cluster açıldıktan sonra Ceph health kontrol edilir.

ceph -s

Beklenen çıktı: HEALTH_OK

Ek kontrol: ceph osd stat

Beklenen: X osds: X up, X in

Bu aşamada noout flag'i hala aktif olacaktır.

9️⃣ Ceph Flag’leri Kaldırma

Shutdown sırasında set edilen flag’ler kaldırılmalıdır.

ceph osd unset noout
ceph osd unset norebalance
ceph osd unset nobackfill

Kontrol: ceph osd dump | grep flags

🔟 HA Servislerini Yeniden Başlatma

HA servisleri tekrar aktif edilir.

Önce CRM başlatılır: systemctl start pve-ha-crm
Sonra LRM başlatılır: systemctl start pve-ha-lrm
Kontrol: ha-manager status

1️⃣1️⃣ VM’leri Başlatma

Cluster tamamen sağlıklı ise VM’ler tekrar başlatılır.

qm start VMID veya GUI üzerinden.

Final Kontroller

Proxmox cluster kontrolü: pvecm status
Ceph cluster kontrolü: ceph -s
OSD kontrolü: ceph osd tree

Tüm OSD'ler: up + in olmalıdır.
HCI Cluster İçin Kritik Not
Ceph MON quorum kuralı: quorum = (MON sayısı / 2) + 1

Örnek:

3 MON  quorum 2
5 MON  quorum 3

Shutdown sırasında:
 Aynı anda birden fazla MON kapatılmamalıdır.

Kritik Notlar
 Shutdown öncesi Ceph HEALTH_OK olmalıdır.
 HA servisleri mutlaka durdurulmalıdır.
 Cluster açılırken MON node'lar önce açılmalıdır.
• Ceph flag'leri startup sonrası kaldırılmalıdır.

Bir sonraki yazımızda görüşmek üzere. Faydalı olması dileğiyle.