Actions
Task #683
đóngKiểm tra, fix lỗi reboot các server Hyve gây ra lỗi cluster Proxmox XD
Bắt đầu:
22-04-2024
Hết hạn:
26-04-2024
Tiến độ:
0%
Thời gian ước lượng:
Mô tả
Hiện trạng:
- Ngày 20/4 thực hiện lắp thêm server Lenovo bổ sung resource nvme và ssd cho cluster, quá trình thao tác DC ghi nhận server 10.2.150.21 (Lenovo U19 rack L6) có tình trạng Up/Down port 10G trong 7s lúc 10h20 Cluster đã enable HA nên cơ chế fencing được kích hoạt, service corosync các node trong cluster báo Token has not been received in 4200 ms và xảy ra reboot cả cluster. PA Xử lý: Remove config HA Kết quả: cluster hoạt động ổn định đến 22/4
- Ngày 22/4 các server Hyve bị auto reboot lại, qua kiểm tra log và IPMI có thể 1 vài sensor vượt ngưỡng làm server auto reboot
- PA xử lý: set threshold upper critical từ 45 lên 50
- Kết quả: hiện các server hyve đang hoạt động ổn cần theo dõi thêm¶
Đề xuất: lên DC bổ sung các blankplane chắn trên rack vào các U trống, tạo hội tụ gió cho các server ¶
Chuyển các server Hyve xuống U thấp hơn để tiếp cận phần gió tản nhiệt tốt hơn
Hiện theo dõi qua 2 ngày, các server hoạt động bình thường
Tập tin
Actions