Task #1409: Xử lý 2 osd down Proxmox XD FPT-HCM - 12. FPT-Q7-HCM - Long Vân Redmine

Task #1409

Cập nhật bởi Tùng Nguyễn cách đây 3 tháng

Hiện trạng: node hyve-prox3 cho 2 disk nvme bị rớt làm used của các osd nvme trong cluster trong ngưỡng không an toàn. Chỉ còn 3 disk còn nhận trên node 

 ![](clipboard-202501130926-mcdnk.png) 

 Nguyên nhân: Khả năng do PCIe/nvme disk bị nóng làm rớt disk 
 ![](clipboard-202501130923-ttss0.png) 

 Mục tiêu: 
 - Thay thế PCIe có disk tương ứng 
 - Bổ sung thêm OSD NVMe khác đảm bảo free space an toàn 

 Yêu cầu:  
 - Không ảnh hưởng đến các dịch vụ đang chạy: không bị fencing auto reboot, đụng chạm các server kế cận  
 - Có Server thay thế nếu server hyve-prox3 lỗi boot: đúng dòng CPU, slot disk nvme/ssd, RAM 

 ============== 
 **Thực hiện:** 
 B1. Chuẩn bị 2 node DELL C6420  
 - CPU Gold 6138/6148  
 - 256G RAM 
 - Disk boot proxmox 8.0-3 dự phòng 
 B2. Lắp vào chassis DELL ở U28-29 rack L6, cấu hình network tương ứng cho proxmox XD 
 B3. Chuyển disk boot từ Hyve U31 rack L6 xuống node DELL C6420 
 B4. Chuyển Disk boot, SSD, NVMe từ Hyve U15 rack L6 lên Hyve U31 L6 


 



 ==== 
 Thực trạng cluster: 
 ![](clipboard-202501131040-rhaoz.png) 
 - 1 OSD nearfull (sắp đầy dung lượng). 
 - 2 pools nearfull (cảnh báo dung lượng lưu trữ của pool). 
 - Có 36 PG remapped và đang chờ backfill và đang thực hiện backfilling. 
 - 31 TiB còn trống (trên tổng 98 TiB). 

 Chuẩn bị: 
 - Server Hyve Stresstest nhận đủ tài nguyên 
 - PCI + 2 Disk NVME 2TB để cắm bổ sung cho node hyve-prox3 

 Bổ sung PCIe + NVMe trước hay sau khi thao tác (hyve-prox3) 
 - Bổ sung thêm nvme trong lúc kiểm tra 2 OSD lỗi 

 Thực hiện: 
 - Migrate VM sang các host khác 
 - Maintenance Ceph 
 - OFF host kiểm tra PCI và NVME 
 - Cắm bổ sung NVME 

 Rủi ro: 
 - Gặp lỗi khi migrate VM (nếu cluster thiếu tài nguyên). 
 - Phần cứng mới (PCIe + NVMe) không tương thích hoặc gây lỗi khi thêm vào 

 Hướng xử lý: 
 - Dự phòng tài nguyên cluster trước khi di chuyển VM. 
 - Kiểm tra phần cứng (PCIe + NVMe) bằng stress test riêng trước khi cắm vào cluster. 
 - Trong quá trình thao tác: theo dõi log Ceph bằng ceph -s và ceph osd tree.

Quay lại

Dự án

Tổng quan

Hồ sơ

LV SYSTEM » 11.QUI HOẠCH HỆ THỐNG » 12. FPT-Q7-HCM

Task #1409