Dự án

Tổng quan

Hồ sơ

Task #1409

Cập nhật bởi Thanh Tâm Nguyễn cách đây khoảng 1 tháng

Hiện trạng: node hyve-prox3 cho 2 disk nvme bị rớt làm used của các osd nvme trong cluster trong ngưỡng không an toàn. Chỉ còn 3 disk còn nhận trên node 

 ![](clipboard-202501130926-mcdnk.png) 

 Nguyên nhân: Khả năng do PCIe/nvme disk bị nóng làm rớt disk 
 ![](clipboard-202501130923-ttss0.png) 

 Mục tiêu: 
 - Thay thế PCIe có disk tương ứng 
 - Bổ sung thêm OSD NVMe khác đảm bảo free space an toàn 

 Yêu cầu:  
 - Không ảnh hưởng đến các dịch vụ đang chạy: không bị fencing auto reboot, đụng chạm các server kế cận  
 - Có Server thay thế nếu server hyve-prox3 lỗi boot: đúng dòng CPU, slot disk nvme/ssd, RAM 

 ============== 
 **Thực hiện:** 
 Chuẩn bị: 
 - Server Hyve Stresstest nhận đủ tài nguyên 
 - PCI + 2 Disk NVME 2TB để cắm bổ sung cho node 

 
 Thực hiện: 
 - Migrate VM sang các host khác 
 - Maintenance Ceph 
 - OFF host kiểm tra PCI và NVME 
 - Cắm bổ sung NVME 


Quay lại