Dự án

Tổng quan

Hồ sơ

Actions

Task #683

đóng

Kiểm tra, fix lỗi reboot các server Hyve gây ra lỗi cluster Proxmox XD

Thêm bởi Tùng Nguyễn cách đây 7 tháng. Cập nhật cách đây 7 tháng.

Trạng thái:
Closed
Mức ưu tiên:
Normal
Phân công cho:
Phiên bản:
-
Bắt đầu:
22-04-2024
Hết hạn:
26-04-2024
Tiến độ:

0%

Thời gian ước lượng:

Mô tả

Hiện trạng:

  • Ngày 20/4 thực hiện lắp thêm server Lenovo bổ sung resource nvme và ssd cho cluster, quá trình thao tác DC ghi nhận server 10.2.150.21 (Lenovo U19 rack L6) có tình trạng Up/Down port 10G trong 7s lúc 10h20 Cluster đã enable HA nên cơ chế fencing được kích hoạt, service corosync các node trong cluster báo Token has not been received in 4200 ms và xảy ra reboot cả cluster. PA Xử lý: Remove config HA Kết quả: cluster hoạt động ổn định đến 22/4
  • Ngày 22/4 các server Hyve bị auto reboot lại, qua kiểm tra log và IPMI có thể 1 vài sensor vượt ngưỡng làm server auto reboot
  • PA xử lý: set threshold upper critical từ 45 lên 50

- Kết quả: hiện các server hyve đang hoạt động ổn cần theo dõi thêm

Đề xuất: lên DC bổ sung các blankplane chắn trên rack vào các U trống, tạo hội tụ gió cho các server

Chuyển các server Hyve xuống U thấp hơn để tiếp cận phần gió tản nhiệt tốt hơn
Hiện theo dõi qua 2 ngày, các server hoạt động bình thường


Tập tin

Actions

Định dạng khác của trang này: Atom PDF