Merhaba, bu yazımızda Ceph storage kullanan bir Proxmox cluster ortamının güvenli şekilde kapatılması ve tekrar açılması için izlenmesi gereken yolu anlatıyor olacağım.
(10 node bir cluster üzerinde bu demo yapılıp bu yazı yazılmıştır.)
1️⃣ Ceph Cluster Health Kontrolü
Shutdown işlemine başlamadan önce Ceph cluster sağlıklı olmalıdır.
Komut: ceph -s
Beklenen çıktı: HEALTH_OKEk Kontrol Komutları:
ceph osd tree
ceph pg stat
Şunlar olmamalıdır:
• degraded PG
• recovery
• backfill2️⃣ Ceph Maintenance Flag Ayarlama
Node’lar kapandığında Ceph’in gereksiz veri rebalance yapmasını önlemek için aşağıdaki flag’ler set edilir.
Önce mevcut flag’leri kontrol edin:
ceph osd dump | grep flagsArdından maintenance flag’leri set edilir:
ceph osd set noout
ceph osd set norebalance
ceph osd set nobackfillKontrol: ceph osd dump | grep flagsBu flag’ler sayesinde:
• OSD offline olduğunda Ceph hemen rebalancing başlatmaz
• Gereksiz disk IO oluşmaz
• Cluster performansı korunur
3️⃣ VM ve Container’ları Kapatma
Shutdown işleminden önce tüm VM ve Container’lar kapatılmalıdır.
VM listeleme: qm list
VM kapatma: qm shutdown VMID
Zorunlu durumda: qm stop VMID
Container kapatma: pct shutdown CTID
Büyük clusterlarda toplu shutdown için: qm list | awk 'NR>1 {print $1}' | xargs -I {} qm shutdown {}4️⃣ HA Servisini Devre Dışı Bırakma
Cluster HA kullanıyorsa shutdown sırasında HA migration oluşmasını engellemek için HA servisleri durdurulmalıdır.
HA durumunu kontrol et: ha-manager status
Tüm node'lar da aşağıdaki servisler durdurulur.
LRM servis: systemctl stop pve-ha-lrm
CRM servis: systemctl stop pve-ha-crm
Bu işlem HA stack'i tamamen dondurur.5️⃣ Proxmox Node’ları Kapatma (HCI Cluster)
VM ve HA servisleri kapatıldıktan sonra node’lar güvenli şekilde kapatılabilir.
Her node üzerinde: sync; shutdown -h now veya poweroffÖnerilen Shutdown Sırası (HCI)
HCI mimaride compute ve storage aynı node üzerinde bulunduğundan shutdown sırası Ceph MON quorum’u koruyacak şekilde planlanmalıdır.
1️⃣ MON içermeyen node’lar
node06
node07
node08
node09
node102️⃣ MON içeren node’lar
node01
node02
node03
node04
node053️⃣ En son aktif MON node
MON quorum kaybolmaması için en son node kapatılır.
Örnek Shutdown Sırası:
node10
node09
node08
node07
node06
node05
node04
node03
node02
node01 (en son)Bu yöntem sayesinde:
• Ceph quorum korunur
• cluster crash olmaz
• unnecessary recovery oluşmaz
6️⃣ Cluster’ı Tekrar Açma (HCI)
Cluster açılırken shutdown sırasının tam tersi uygulanmalıdır.
Power On Sırası
1️⃣ Önce Ceph MON node’lar
node01
node02
node03
node04
node05Bu node’lar Ceph quorum’u oluşturur.
Node’lar açıldıktan sonra 1-2 dakika beklenmesi önerilir. Bu süre Ceph MON election ve quorum oluşumu için gereklidir.
2️⃣ Sonra diğer HCI node’lar
node06
node07
node08
node09
node107️⃣ Cluster Quorum Kontrolü
Cluster node’ları açıldıktan sonra quorum kontrol edilir.
pvecm status
Beklenen çıktı: Quorate: Yes8️⃣ Ceph Cluster Health Kontrolü
Cluster açıldıktan sonra Ceph health kontrol edilir.
ceph -s
Beklenen çıktı: HEALTH_OK
Ek kontrol: ceph osd stat
Beklenen: X osds: X up, X in
Bu aşamada noout flag'i hala aktif olacaktır.9️⃣ Ceph Flag’leri Kaldırma
Shutdown sırasında set edilen flag’ler kaldırılmalıdır.
ceph osd unset noout
ceph osd unset norebalance
ceph osd unset nobackfill
Kontrol: ceph osd dump | grep flags🔟 HA Servislerini Yeniden Başlatma
HA servisleri tekrar aktif edilir.
Önce CRM başlatılır: systemctl start pve-ha-crm
Sonra LRM başlatılır: systemctl start pve-ha-lrm
Kontrol: ha-manager status1️⃣1️⃣ VM’leri Başlatma
Cluster tamamen sağlıklı ise VM’ler tekrar başlatılır.
qm start VMID veya GUI üzerinden.
Final Kontroller
Proxmox cluster kontrolü: pvecm status
Ceph cluster kontrolü: ceph -s
OSD kontrolü: ceph osd tree
Tüm OSD'ler: up + in olmalıdır.HCI Cluster İçin Kritik Not
Ceph MON quorum kuralı: quorum = (MON sayısı / 2) + 1
Örnek:
3 MON → quorum 2
5 MON → quorum 3
Shutdown sırasında:
• Aynı anda birden fazla MON kapatılmamalıdır.
Kritik Notlar
• Shutdown öncesi Ceph HEALTH_OK olmalıdır.
• HA servisleri mutlaka durdurulmalıdır.
• Cluster açılırken MON node'lar önce açılmalıdır.
• Ceph flag'leri startup sonrası kaldırılmalıdır.Bir sonraki yazımızda görüşmek üzere. Faydalı olması dileğiyle.


