Bu yazımız da sizlere Proxmox VE üzerinde çalışan Ceph Storage cluster’da arızalanan bir diskin güvenli şekilde değiştirilmesi için uygulanacak prosedürü aktarıyor olacağım.
Tipik senaryo:
• Disk failure
• OSD DOWN
• Disk replacement
• OSD redeploy
• Ceph rebalance
1️⃣ Öncelikle cluster durumu kontrol edilir.
CLI: ceph -s
Beklenen durum: HEALTH_WARN
Genellikle aşağıdaki hata görülür: OSD_DOWN2️⃣ Arızalı OSD Tespiti
CLI: ceph osd tree & ceph osd tree | grep down
Örnek: osd.17 downGUI
Datacenter
→ Node
→ Ceph
→ OSD
DOWN olan OSD kırmızı görünür.3️⃣ Maintenance Flag (noout)
Disk değişimi sırasında Ceph’in gereksiz rebalance başlatmaması için noout flag set edilir.
CLI: ceph osd set noout
Kontrol: ceph osd dump | grep flags4️⃣ OSD OUT Yapılması
Arızalı OSD cluster’dan çıkarılır.
CLI: ceph osd out osd.17GUI
Node
→ Ceph
→ OSD
→ osd.X
→ OUT
Ceph bu noktada veriyi diğer OSD’lere taşımaya başlar.5️⃣ Recovery Sürecini İzleme
CLI: watch ceph -s
Durumlar:
active+recovering
active+backfilling
Recovery tamamlandığında:
active+clean6️⃣ OSD Destroy
Recovery tamamlandıktan sonra OSD cluster’dan kaldırılır.
CLI: ceph osd destroy 17 --yes-i-really-mean-itGUI
Node
→ Ceph
→ OSD
→ osd.X
→ Destroy
Bu işlem arka planda:
# ceph osd crush remove
# ceph auth del
# ceph osd rm
komutlarını çalıştırır.7️⃣ Crash Alarm Temizleme (Opsiyonel)
CLI:
ceph crash ls
ceph crash archive-all8️⃣ Fiziksel Disk Değişimi
Datacenter’da arızalı disk yeni disk ile değiştirilir.
Node üzerinde yeni disk görünmelidir.
CLI: lsblk9️⃣ Disk Temizleme (Zap)
Yeni disk üzerinde eski metadata varsa temizlenir.
CLI: ceph-volume lvm zap /dev/sdX --destroy🔟 Yeni OSD Oluşturma
CLI: ceph-volume lvm create --data /dev/sdXGUI
Node
→ Ceph
→ OSD
→ Create OSD
Disk seçilir ve OSD oluşturulur.1️⃣1️⃣ Rebalance ve Recovery
Yeni OSD eklendikten sonra Ceph otomatik olarak:
backfill - recovery - rebalance - başlatır.
CLI: ceph -s1️⃣2️⃣ Maintenance Flag Kaldırma
Operasyon tamamlandıktan sonra noout flag kaldırılır.
CLI: ceph osd unset noout1️⃣3️⃣ Operasyon Tamamlanması
Cluster aşağıdaki duruma geldiğinde işlem tamamlanmıştır.
HEALTH_OK ve all PGs active+cleanOperasyon Komut Özeti
ceph -s
ceph osd tree
ceph osd set noout
ceph osd out osd.X
watch ceph -s
ceph osd destroy X --yes-i-really-mean-it
ceph crash archive-all
lsblk
ceph-volume lvm zap /dev/sdX --destroy
ceph-volume lvm create --data /dev/sdX
ceph osd unset noout
ceph -sBir sonraki yazımızda görüşmek üzere. Faydalı olması dileğiyle.
