Task #683
Cập nhật bởi Tùng Nguyễn cách đây 7 tháng
Hiện trạng:
- Ngày 20/4 thực hiện lắp thêm server Lenovo bổ sung resource nvme và ssd cho cluster, quá trình thao tác DC ghi nhận server 10.2.150.21 (Lenovo U19 rack L6) có tình trạng Up/Down port 10G trong 7s lúc 10h20
![](clipboard-202404222339-x7i5x.png)
Cluster đã enable HA nên cơ chế fencing được kích hoạt, service corosync các node trong cluster báo Token has not been received in 4200 ms và xảy ra reboot cả cluster.
PA Xử lý: Remove config HA
Kết quả: cluster hoạt động ổn định đến 22/4
- Ngày 22/4 các server Hyve bị auto reboot lại, qua kiểm tra log và IPMI có thể 1 vài sensor vượt ngưỡng làm server auto reboot
![](clipboard-202404222350-rubro.png)
![](clipboard-202404222350-phxab.png)
- PA xử lý: set threshold upper critical từ 45 lên 50
- Kết quả: hiện các server hyve đang hoạt động ổn cần theo dõi thêm
====
Đề xuất: lên DC bổ sung các blankplane chắn trên rack vào các U trống, tạo hội tụ gió cho các server
===
Chuyển các server Hyve xuống U thấp hơn để tiếp cận phần gió tản nhiệt tốt hơn
Hiện theo dõi qua 2 ngày, các server hoạt động bình thường