Task #1409
Cập nhật bởi Tùng Nguyễn cách đây khoảng 1 tháng
Hiện trạng: node hyve-prox3 cho 2 disk nvme bị rớt làm used của các osd nvme trong cluster trong ngưỡng không an toàn. Chỉ còn 3 disk còn nhận trên node  Nguyên nhân: Khả năng do PCIe/nvme disk bị nóng làm rớt disk  Mục tiêu: - Thay thế PCIe có disk tương ứng - Bổ sung thêm OSD NVMe khác đảm bảo free space an toàn Yêu cầu: - Không ảnh hưởng đến các dịch vụ đang chạy: không bị fencing auto reboot, đụng chạm các server kế cận - Có Server thay thế nếu server hyve-prox3 lỗi boot: đúng dòng CPU, slot disk nvme/ssd, RAM ============== **Thực hiện:** ==== Thực trạng cluster:  - 1 OSD nearfull (sắp đầy dung lượng). - 2 pools nearfull (cảnh báo dung lượng lưu trữ của pool).  - Có 36 PG remapped và đang chờ backfill và đang thực hiện backfilling. - 31 TiB còn trống (trên tổng 98 TiB). Chuẩn bị: - Server Hyve Stresstest nhận đủ tài nguyên - PCI + 2 Disk NVME 2TB để cắm bổ sung cho node hyve-prox3 Bổ sung PCIe + NVMe trước hay sau khi thao tác (hyve-prox3) - Bổ sung thêm nvme trong lúc kiểm tra 2 OSD lỗi Thực hiện: - Migrate VM sang các host khác - Maintenance Ceph - OFF host kiểm tra PCI và NVME - Cắm bổ sung NVME Rủi ro: - Gặp lỗi khi migrate VM (nếu cluster thiếu tài nguyên). - Phần cứng mới (PCIe + NVMe) không tương thích hoặc gây lỗi khi thêm vào Hướng xử lý: - Dự phòng tài nguyên cluster trước khi di chuyển VM. - Kiểm tra phần cứng (PCIe + NVMe) bằng stress test riêng trước khi cắm vào cluster. - Trong quá trình thao tác: theo dõi log Ceph bằng ceph -s và ceph osd tree.