Dự án

Tổng quan

Hồ sơ

Actions

Bug #622

đóng

Reboot Proxmox Cụm CMC Q9

Thêm bởi Thanh Tâm Nguyễn cách đây 8 tháng. Cập nhật cách đây 6 tháng.

Trạng thái:
Closed
Mức ưu tiên:
Normal
Phân công cho:
Phiên bản:
-
Bắt đầu:
01-04-2024
Hết hạn:
Tiến độ:

100%

Thời gian ước lượng:

Mô tả

Reboot toàn bộ host trong cluster

Hiện trạng:

  • Uptime của các host quá lâu

======================================
Quy trình reboot

  • Bước 1: Kiểm tra ceph storage
  • Bước 2: Set maintenance ceph noout,nobackfill,noscrube,nodeep-scrub,norebalance,norecover
  • Bước 3: Migrate các VM trên host qua node khác. VM trong HA cũng migrate qua node khác
  • Bước 4: Kiểm tra lại các OSD đã up lại, bỏ maintenance ceph, trạng thái đã OK thì mới làm tiếp host khác
    Lưu ý: cân bằng resource RAM/CPU của các node khi migrate VM

=======================================
Thứ tự reboot host

======================================
Rủi ro có thể xảy ra:

  • Disk OS failed
  • Lõi phần cứng ( ram, cpu, network adapter)
  • OSD down
  • Disconnect Host
  • Thời gian update :
  • Thông báo: khách hàng, các team liên quan
  • Phân loại các host và thứ tự reboot các host
  • Network chập chờn: lỗi HA, reboot toàn bộ cluster

===========================
Các biện pháp khắc phục:

  • Chuẩn bị trước disk boot và USB boot OS
  • Check thông số cũng như model ram, cpu để chuẩn bị trước
  • Kiểm tra status của OSD trong ceph.
  • Backup file network, truy cập IPMI của host để kiểm tra.
  • Kiểm tra các bản vá lỗi, ceph version để update và reboot chung"
  • Phạm vi ảnh hưởng: thống kê dịch vụ khách hàng theo pool
  • Gửi thông báo cho khách hàng"

==========================
File cập nhật thông tin chi tiết:
https://docs.google.com/spreadsheets/d/1MWVT91_zm0CpSAA3xU8AunrzVxVK41gnF26NE1SZHwQ/edit#gid=1703051663


Tập tin

clipboard-202404071242-v8vgi.png (7 KB) clipboard-202404071242-v8vgi.png Thanh Tâm Nguyễn , 07-04-2024 12:42
Actions #1

Cập nhật bởi Thanh Tâm Nguyễn cách đây 8 tháng

Actions #2

Cập nhật bởi Thanh Tâm Nguyễn cách đây 8 tháng

Actions #3

Cập nhật bởi Thanh Tâm Nguyễn cách đây 8 tháng

Actions #4

Cập nhật bởi Thanh Tâm Nguyễn cách đây 8 tháng

Actions #5

Cập nhật bởi Thanh Tâm Nguyễn cách đây 8 tháng

Actions #6

Cập nhật bởi Thanh Tâm Nguyễn cách đây 7 tháng

Actions #7

Cập nhật bởi Thanh Tâm Nguyễn cách đây 7 tháng

  • Trạng thái thay đổi từ New tới Pending
Actions #8

Cập nhật bởi Thanh Tâm Nguyễn cách đây 6 tháng

  • Kiểu vấn đề thay đổi từ Task tới Bug
  • Trạng thái thay đổi từ Pending tới Closed
  • Tiến độ thay đổi từ 0 tới 100
Actions

Định dạng khác của trang này: Atom PDF