Proxmox Ceph Storage Cluster Failed Disk Replacement

Bu yazımız da sizlere Proxmox VE üzerinde çalışan Ceph Storage cluster’da arızalanan bir diskin güvenli şekilde değiştirilmesi için uygulanacak prosedürü aktarıyor olacağım.

Tipik senaryo:

• Disk failure
• OSD DOWN
• Disk replacement
• OSD redeploy
• Ceph rebalance

1️⃣ Öncelikle cluster durumu kontrol edilir.

CLI: ceph -s
Beklenen durum: HEALTH_WARN
Genellikle aşağıdaki hata görülür: OSD_DOWN

2️⃣ Arızalı OSD Tespiti

CLI: ceph osd tree & ceph osd tree | grep down
Örnek: osd.17 down
GUI

Datacenter
  Node
    Ceph
      OSD

DOWN olan OSD kırmızı görünür.

3️⃣ Maintenance Flag (noout)

Disk değişimi sırasında Ceph’in gereksiz rebalance başlatmaması için noout flag set edilir.

CLI: ceph osd set noout

Kontrol: ceph osd dump | grep flags

4️⃣ OSD OUT Yapılması

Arızalı OSD cluster’dan çıkarılır.

CLI: ceph osd out osd.17
GUI

Node
  Ceph
    OSD
      osd.X
        OUT

Ceph bu noktada veriyi diğer OSD’lere taşımaya başlar.

5️⃣ Recovery Sürecini İzleme

CLI: watch ceph -s

Durumlar:

active+recovering
active+backfilling

Recovery tamamlandığında:

active+clean

6️⃣ OSD Destroy

Recovery tamamlandıktan sonra OSD cluster’dan kaldırılır.

CLI: ceph osd destroy 17 --yes-i-really-mean-it
GUI

Node
  Ceph
    OSD
      osd.X
        Destroy

Bu işlem arka planda:

# ceph osd crush remove
# ceph auth del
# ceph osd rm

komutlarını çalıştırır.

7️⃣ Crash Alarm Temizleme (Opsiyonel)

CLI:

ceph crash ls
ceph crash archive-all

8️⃣ Fiziksel Disk Değişimi

Datacenter’da arızalı disk yeni disk ile değiştirilir.
Node üzerinde yeni disk görünmelidir.

CLI: lsblk

9️⃣ Disk Temizleme (Zap)

Yeni disk üzerinde eski metadata varsa temizlenir.

CLI: ceph-volume lvm zap /dev/sdX --destroy

🔟 Yeni OSD Oluşturma

CLI: ceph-volume lvm create --data /dev/sdX
GUI

Node
  Ceph
    OSD
      Create OSD

Disk seçilir ve OSD oluşturulur.

1️⃣1️⃣ Rebalance ve Recovery

Yeni OSD eklendikten sonra Ceph otomatik olarak:

backfill - recovery - rebalance - başlatır.

CLI: ceph -s

1️⃣2️⃣ Maintenance Flag Kaldırma

Operasyon tamamlandıktan sonra noout flag kaldırılır.

CLI: ceph osd unset noout

1️⃣3️⃣ Operasyon Tamamlanması

Cluster aşağıdaki duruma geldiğinde işlem tamamlanmıştır.

HEALTH_OK ve all PGs active+clean

Operasyon Komut Özeti

ceph -s
ceph osd tree
ceph osd set noout
ceph osd out osd.X
watch ceph -s
ceph osd destroy X --yes-i-really-mean-it
ceph crash archive-all
lsblk
ceph-volume lvm zap /dev/sdX --destroy
ceph-volume lvm create --data /dev/sdX
ceph osd unset noout
ceph -s

Bir sonraki yazımızda görüşmek üzere. Faydalı olması dileğiyle.