Task #1409
Cập nhật bởi Tùng Nguyễn cách đây khoảng 1 tháng
Hiện trạng: node hyve-prox3 cho 2 disk nvme bị rớt làm used của các osd nvme trong cluster trong ngưỡng không an toàn. Chỉ còn 3 disk còn nhận trên node  Nguyên nhân: Khả năng do PCIe/nvme disk bị nóng làm rớt disk  Mục tiêu: - Thay thế PCIe có disk tương ứng - Bổ sung thêm OSD NVMe khác đảm bảo free space an toàn Yêu cầu: - Không ảnh hưởng đến các dịch vụ đang chạy: không bị fencing auto reboot, đụng chạm các server kế cận - Có Server thay thế nếu server hyve-prox3 lỗi boot: đúng dòng CPU, slot disk nvme/ssd, RAM ============== **Thực hiện:** B1. Chuẩn bị 2 node DELL C6420 - CPU Gold 6138/6148 - 256G RAM - Disk boot proxmox 8.0-3 dự phòng B2. Lắp vào chassis DELL ở U28-29 rack L6, cấu hình network tương ứng cho proxmox XD B3. Chuyển disk boot từ Hyve U31 rack L6 xuống node DELL C6420 B4. Chuyển Disk boot, SSD, NVMe từ Hyve U15 rack L6 lên Hyve U31 L6 ==== Thực trạng cluster:  - 1 OSD nearfull (sắp đầy dung lượng). - 2 pools nearfull (cảnh báo dung lượng lưu trữ của pool). - Có 36 PG remapped và đang chờ backfill và đang thực hiện backfilling. - 31 TiB còn trống (trên tổng 98 TiB). Chuẩn bị: - Server Hyve Stresstest nhận đủ tài nguyên - PCI + 2 Disk NVME 2TB để cắm bổ sung cho node hyve-prox3 Bổ sung PCIe + NVMe trước hay sau khi thao tác (hyve-prox3) - Bổ sung thêm nvme trong lúc kiểm tra 2 OSD lỗi Thực hiện: - Migrate VM sang các host khác - Maintenance Ceph - OFF host kiểm tra PCI và NVME - Cắm bổ sung NVME Rủi ro: - Gặp lỗi khi migrate VM (nếu cluster thiếu tài nguyên). - Phần cứng mới (PCIe + NVMe) không tương thích hoặc gây lỗi khi thêm vào Hướng xử lý: - Dự phòng tài nguyên cluster trước khi di chuyển VM. - Kiểm tra phần cứng (PCIe + NVMe) bằng stress test riêng trước khi cắm vào cluster. - Trong quá trình thao tác: theo dõi log Ceph bằng ceph -s và ceph osd tree.