Dự án

Tổng quan

Hồ sơ

Actions

Task #1409

đóng

Xử lý 2 osd down Proxmox XD FPT-HCM

Thêm bởi Tùng Nguyễn cách đây khoảng 1 tháng. Cập nhật cách đây 12 ngày.

Trạng thái:
Closed
Mức ưu tiên:
Normal
Phân công cho:
Chủ đề:
-
Phiên bản:
-
Bắt đầu:
13-01-2025
Hết hạn:
15-01-2025
Tiến độ:

0%

Thời gian ước lượng:

Mô tả

Hiện trạng: node hyve-prox3 cho 2 disk nvme bị rớt làm used của các osd nvme trong cluster trong ngưỡng không an toàn. Chỉ còn 3 disk còn nhận trên node

Nguyên nhân: Khả năng do PCIe/nvme disk bị nóng làm rớt disk

Mục tiêu:

  • Thay thế PCIe có disk tương ứng
  • Bổ sung thêm OSD NVMe khác đảm bảo free space an toàn

Yêu cầu:

  • Không ảnh hưởng đến các dịch vụ đang chạy: không bị fencing auto reboot, đụng chạm các server kế cận
  • Có Server thay thế nếu server hyve-prox3 lỗi boot: đúng dòng CPU, slot disk nvme/ssd, RAM

==============
Thực hiện:

B1. Chuẩn bị 2 node DELL C6420

  • CPU Gold 6138/6148
  • 256G RAM
  • Disk boot proxmox 8.0-3 dự phòng

B2. Lắp vào chassis DELL ở U28-29 rack L6, cấu hình network tương ứng cho proxmox XD
B3. Chuyển disk boot từ Hyve U31 rack L6 xuống node DELL C6420
B4. Chuyển Disk boot, SSD, NVMe từ Hyve U15 rack L6 lên Hyve U31 L6

====
Thực trạng cluster:

  • 1 OSD nearfull (sắp đầy dung lượng).
  • 2 pools nearfull (cảnh báo dung lượng lưu trữ của pool).
  • Có 36 PG remapped và đang chờ backfill và đang thực hiện backfilling.
  • 31 TiB còn trống (trên tổng 98 TiB).

Chuẩn bị:

  • Server Hyve Stresstest nhận đủ tài nguyên
  • PCI + 2 Disk NVME 2TB để cắm bổ sung cho node hyve-prox3

Bổ sung PCIe + NVMe trước hay sau khi thao tác (hyve-prox3)

  • Bổ sung thêm nvme trong lúc kiểm tra 2 OSD lỗi

Thực hiện:

  • Migrate VM sang các host khác
  • Maintenance Ceph
  • OFF host kiểm tra PCI và NVME
  • Cắm bổ sung NVME

Rủi ro:

  • Gặp lỗi khi migrate VM (nếu cluster thiếu tài nguyên).
  • Phần cứng mới (PCIe + NVMe) không tương thích hoặc gây lỗi khi thêm vào

Hướng xử lý:

  • Dự phòng tài nguyên cluster trước khi di chuyển VM.
  • Kiểm tra phần cứng (PCIe + NVMe) bằng stress test riêng trước khi cắm vào cluster.
  • Trong quá trình thao tác: theo dõi log Ceph bằng ceph -s và ceph osd tree.

Tập tin

clipboard-202501130923-ttss0.png (23,2 KB) clipboard-202501130923-ttss0.png Tùng Nguyễn, 13-01-2025 09:23
clipboard-202501130926-mcdnk.png (193 KB) clipboard-202501130926-mcdnk.png Tùng Nguyễn, 13-01-2025 09:26
clipboard-202501131040-rhaoz.png (28,2 KB) clipboard-202501131040-rhaoz.png Thanh Tâm Nguyễn , 13-01-2025 10:40
clipboard-202501131433-iv5wd.png (18,7 KB) clipboard-202501131433-iv5wd.png Thanh Tâm Nguyễn , 13-01-2025 14:33
Actions #1

Cập nhật bởi Tùng Nguyễn cách đây khoảng 1 tháng

  • Hết hạn gán cho 15-01-2025
Actions #2

Cập nhật bởi Thanh Tâm Nguyễn cách đây khoảng 1 tháng

Actions #3

Cập nhật bởi Thanh Tâm Nguyễn cách đây khoảng 1 tháng

Actions #4

Cập nhật bởi Thanh Tâm Nguyễn cách đây khoảng 1 tháng

Actions #5

Cập nhật bởi Thanh Tâm Nguyễn cách đây khoảng 1 tháng

Actions #6

Cập nhật bởi Thanh Tâm Nguyễn cách đây khoảng 1 tháng

Actions #7

Cập nhật bởi Tùng Nguyễn cách đây khoảng 1 tháng

Actions #8

Cập nhật bởi Tùng Nguyễn cách đây khoảng 1 tháng

Actions #9

Cập nhật bởi Tùng Nguyễn cách đây khoảng 1 tháng

Actions #10

Cập nhật bởi Tùng Nguyễn cách đây khoảng 1 tháng

  • Phân công cho gán cho Thanh Tâm Nguyễn
Actions #11

Cập nhật bởi Thanh Tâm Nguyễn cách đây 12 ngày

  • Trạng thái thay đổi từ New tới Closed
Actions

Định dạng khác của trang này: Atom PDF