Task #736
Cập nhật bởi Tùng Nguyễn cách đây 7 tháng
Mô tả: disk OS bị bad sector làm readonly filesystem
Mục tiêu: Thay disk OS lỗi, replace headnode trên GUI Management
Rủi ro có thể gặp:
+ OSD trên node bị Down, có thể ảnh hưởng performance
+ Replace lỗi
+ Rớt card 10G
===
Chuẩn bị: 1 disk SSD SAS 200G cài sẵn petasan cấu hình
IP MGT: 10.4.44.34
Hostname: dl360-g8-ps14
===
Vị trí:
![](clipboard-202405141133-j0vzn.png)
HL DL360G9 U14 rack B4 DC7-2
===
Thực hiện
1. Backup config
+ network define trên /etc/rules.d/70-persistent-net.rules
``` c
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="38:ea:a7:8d:93:2a", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="38:ea:a7:8d:93:2b", ATTR{type}=="1", KERNEL=="eth*", NAME="eth3"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:16:31:f2:46:2f", ATTR{type}=="1", KERNEL=="eth*", NAME="eth7"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:16:31:f2:46:2e", ATTR{type}=="1", KERNEL=="eth*", NAME="eth6"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="38:ea:a7:8d:93:28", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="38:ea:a7:8d:93:29", ATTR{type}=="1", KERNEL=="eth*", NAME="eth1"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:84:4b:e3", ATTR{type}=="1", KERNEL=="eth*", NAME="eth5"
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:84:4b:e2", ATTR{type}=="1", KERNEL=="eth*", NAME="eth4"
```
+ /etc/hosts
+ /etc/resolv.conf
+ /etc/ntp.conf
2. Thực hiện Maintenance Cluster
3. OFF Server / Thay disk boot
4. ON Server, kiểm tra phần cứng nhận đủ
5. Restore network config, các file /etc/resolv.conf , /etc/hosts, /etc/ntp.conf / Reboot lại server
6. Kiểm tra ping MGT đến các headnode còn lại 10.4.44.34
7. Replace Management Node trên GUI PETASAN
Link hướng dẫn: https://projects.longvan.net/projects/lvss/wiki/006-petasan-replace-management-loi
8. Kiểm tra host nhận lại, service OSD UP OK
9. Exit Maintenance, theo dõi và báo cáo
===
Đã thay disk OS và replace headnode, tất cả service ceph OK, cluster OK