Task #1409: Xử lý 2 osd down Proxmox XD FPT-HCM - 12. FPT-Q7-HCM - Long Vân Redmine

Task #1409

Cập nhật bởi Thanh Tâm Nguyễn cách đây 3 tháng

Hiện trạng: node hyve-prox3 cho 2 disk nvme bị rớt làm used của các osd nvme trong cluster trong ngưỡng không an toàn. Chỉ còn 3 disk còn nhận trên node 

 ![](clipboard-202501130926-mcdnk.png) 

 Nguyên nhân: Khả năng do PCIe/nvme disk bị nóng làm rớt disk 
 ![](clipboard-202501130923-ttss0.png) 

 Mục tiêu: 
 - Thay thế PCIe có disk tương ứng 
 - Bổ sung thêm OSD NVMe khác đảm bảo free space an toàn 

 Yêu cầu:  
 - Không ảnh hưởng đến các dịch vụ đang chạy: không bị fencing auto reboot, đụng chạm các server kế cận  
 - Có Server thay thế nếu server hyve-prox3 lỗi boot: đúng dòng CPU, slot disk nvme/ssd, RAM 

 ============== 
 **Thực hiện:** 
 Thực trạng cluster: 
 ![](clipboard-202501131040-rhaoz.png) 
 - 1 OSD nearfull (sắp đầy dung lượng). 
 - 2 pools nearfull (cảnh báo dung lượng lưu trữ của pool). 
 - Có 36 PG remapped và đang chờ backfill và đang thực hiện backfilling. 
 - 31 TiB còn trống (trên tổng 98 TiB). 

 Chuẩn bị: 
 - Server Hyve Stresstest nhận đủ tài nguyên 
 - PCI + 2 Disk NVME 2TB để cắm bổ sung cho node hyve-prox3 

 Bổ sung PCIe + NVMe trước hay sau khi thao tác (hyve-prox3) 
 - Bổ sung thêm nvme trong lúc kiểm tra 2 OSD lỗi 

 Thực hiện: 
 - Migrate VM sang các host khác 
 - Maintenance Ceph 
 - OFF host kiểm tra PCI và NVME 
 - Cắm bổ sung NVME 

 Rủi ro: 
 - Mất dữ liệu hoặc giảm hiệu suất cluster nếu thao tác không đúng. 
 - Gặp lỗi khi migrate VM (nếu cluster thiếu tài nguyên). 
 - Phần cứng mới (PCIe + NVMe) không tương thích hoặc gây lỗi khi thêm vào 

 Hướng xử lý: 
 - Dự phòng tài nguyên cluster trước khi di chuyển VM. 
 - Kiểm tra phần cứng (PCIe + NVMe) bằng stress test riêng trước khi cắm vào cluster. 
 - Trong quá trình thao tác: theo dõi log Ceph bằng ceph -s và ceph osd tree.

Quay lại

Dự án

Tổng quan

Hồ sơ

LV SYSTEM » 11.QUI HOẠCH HỆ THỐNG » 12. FPT-Q7-HCM

Task #1409