Bug #622
Cập nhật bởi Thanh Tâm Nguyễn cách đây 7 tháng
Reboot toàn bộ host trong cluster ======================================= **Hiện trạng:** - Uptime của các host quá lâu ====================================== **Quy trình reboot** - Bước 1: Kiểm tra ceph storage - Bước 2: Set maintenance ceph noout,nobackfill,noscrube,nodeep-scrub,norebalance,norecover - Bước 3: Migrate các VM trên host qua node khác. VM trong HA cũng migrate qua node khác - Bước 4: Kiểm tra lại các OSD đã up lại, bỏ maintenance ceph, trạng thái đã OK thì mới làm tiếp host khác Lưu ý: cân bằng resource RAM/CPU của các node khi migrate VM ======================================= **Thứ tự reboot host** ![](clipboard-202404071242-v8vgi.png) ====================================== **Rủi ro có thể xảy ra:** - Disk OS failed - Lõi phần cứng ( ram, cpu, network adapter) - OSD down - Disconnect Host - Thời gian update : - Thông báo: khách hàng, các team liên quan - Phân loại các host và thứ tự reboot các host - Network chập chờn: lỗi HA, reboot toàn bộ cluster =========================== **Các biện bệnh pháp khắc phục:** - Chuẩn bị trước disk boot và USB boot OS - Check thông số cũng như model ram, cpu để chuẩn bị trước - Kiểm tra status của OSD trong ceph. - Backup file network, truy cập IPMI của host để kiểm tra. - Kiểm tra các bản vá lỗi, ceph version để update và reboot chung" - Phạm vi ảnh hưởng: thống kê dịch vụ khách hàng theo pool - Gửi thông báo cho khách hàng" ========================== **File cập nhật thông tin chi tiết:** https://docs.google.com/spreadsheets/d/1MWVT91_zm0CpSAA3xU8AunrzVxVK41gnF26NE1SZHwQ/edit#gid=1703051663