Task #1409
Cập nhật bởi Thanh Tâm Nguyễn cách đây khoảng 1 tháng
Hiện trạng: node hyve-prox3 cho 2 disk nvme bị rớt làm used của các osd nvme trong cluster trong ngưỡng không an toàn. Chỉ còn 3 disk còn nhận trên node  Nguyên nhân: Khả năng do PCIe/nvme disk bị nóng làm rớt disk  Mục tiêu: - Thay thế PCIe có disk tương ứng - Bổ sung thêm OSD NVMe khác đảm bảo free space an toàn Yêu cầu: - Không ảnh hưởng đến các dịch vụ đang chạy: không bị fencing auto reboot, đụng chạm các server kế cận - Có Server thay thế nếu server hyve-prox3 lỗi boot: đúng dòng CPU, slot disk nvme/ssd, RAM ============== **Thực hiện:** Chuẩn bị: - Server Hyve Stresstest nhận đủ tài nguyên - PCI + 2 Disk NVME 2TB để cắm bổ sung cho node Thực hiện: - Migrate VM sang các host khác - Maintenance Ceph - OFF host kiểm tra PCI và NVME - Cắm bổ sung NVME