Task #1193
Cập nhật bởi Thanh Tâm Nguyễn cách đây 2 tháng
Các Host xảy ra trình trạng treo liên tục => Thay disk boot một số Host để theo dõi tình hình =========== Chuẩn bị: - Disk boot cài proxmox 8.2-2 - Backup config host pvesh get /nodes/<node_name>/ --output-format json > /root/host-config.json - Backup config tar -czf /root/pve-cluster-backup.tar.gz /var/lib/pve-cluster tar -czf /root/ssh-backup.tar.gz /root/.ssh tar -czf /root/corosync-backup.tar.gz /etc/corosync cp /etc/hosts /root/ cp /etc/network/interfaces /root/ - Lưu lại các file config này bằng SCP =========== Các bước tiến hành, thực hiện theo hướng dẫn: https://projects.longvan.net/projects/lvss/wiki/04-replace-host-loi **Bước 0: Kiểm tra role của host** ![](clipboard-202409181036-pwjlz.png) **Bước 1: Maintenance Ceph** **Bước 2: Tiến hành cắm disk và reboot host** **Bước 3: Cho boot vào disk OS** **Bước 4: Restore config** - Restore /etc/hosts/: cp /root/hosts /etc/hosts - Restore /etc/network/interfaces: cp /root/interfaces /etc/network/interfaces - Restore the files in /root/.ssh/: cd / && tar -xzf /root/ssh-backup.tar.gz - replace /var/lib/pve-cluster/ : rm -rf /var/lib/pve-cluster cd / && tar -xzf /root/pve-cluster-backup.tar.gz - Replace /etc/corosync/ : rm -rf /etc/corosync cd / && tar -xzf /root/corosync-backup.tar.gz - Start pve-cluster: systemctl start pve-cluster.service - Start the rest of the services: systemctl start pvestatd.service systemctl start pvedaemon.service =============== Các lỗi có thể xảy ra: - Thiếu dữ liệu hoặc backup không đầy đủ: Đảm bảo rằng quy trình backup đã được thiết lập - Không thể truy cập hoặc khôi phục từ tệp backup: Đảm bảo rằng tệp backup được lưu trữ ở một nơi an toàn và có thể truy cập được khi cần thiết. ============= - Thứ tự các host sẽ thay: ưu tiên thực hiện node 5 trước ( bị treo nhiều lần) để theo dõi tinhfh trạng node 6 node 4 node 2 node 1 ============== Lưu ý: Sau khi đổi disk OS cho node có role là ceph-mon/ceph-mgr - Thêm một Ceph mon/mgr mới từ một host khác trong cluster - Các host có role là ceph-mon/mgr trước khi thay phải backup ceph.conf - Sau khi replace các host có role là ceph-mon/ceph-mgr thì: Kiểm tra kết nối mạng và cấu hình IP Kiểm tra các dịch vụ Ceph: - systemctl status ceph-mon.target - systemctl status ceph-mgr.target Đảm bảo service Ceph hoạt động chính xác: Kiểm tra log của các dịch vụ Ceph Đảm đảo tính nhất quán của Cluster Kiểm tra lại vai trò và hoạt động của node -