Task #1193
Cập nhật bởi Thanh Tâm Nguyễn cách đây 2 tháng
Các Host xảy ra trình trạng treo liên tục => Thay disk boot một số Host để theo dõi tình hình =========== Chuẩn bị: - Disk boot cài proxmox 8.2-2 - Backup config host pvesh get /nodes/<node_name>/ --output-format json > /root/host-config.json - Backup config tar -czf /root/pve-cluster-backup.tar.gz /var/lib/pve-cluster tar -czf /root/ssh-backup.tar.gz /root/.ssh tar -czf /root/corosync-backup.tar.gz /etc/corosync cp /etc/hosts /root/ cp /etc/network/interfaces /root/ - Lưu lại các file config này bằng SCP =========== Các bước tiến hành, thực hiện theo hướng dẫn: https://projects.longvan.net/projects/lvss/wiki/04-replace-host-loi **Bước 0: Kiểm tra role của host** ![](clipboard-202409181036-pwjlz.png) **Bước 1: Maintenance Ceph** **Bước 2: Tiến hành cắm disk và reboot host** **Bước 3: Cho boot vào disk OS** **Bước 4: Restore config** - Restore /etc/hosts/: cp /root/hosts /etc/hosts - Restore /etc/network/interfaces: cp /root/interfaces /etc/network/interfaces - Restore the files in /root/.ssh/: cd / && tar -xzf /root/ssh-backup.tar.gz - replace /var/lib/pve-cluster/ : rm -rf /var/lib/pve-cluster cd / && tar -xzf /root/pve-cluster-backup.tar.gz - Replace /etc/corosync/ : rm -rf /etc/corosync cd / && tar -xzf /root/corosync-backup.tar.gz - Start pve-cluster: systemctl start pve-cluster.service - Start the rest of the services: systemctl start pvestatd.service systemctl start pvedaemon.service =============== Các lỗi có thể xảy ra: - Thiếu dữ liệu hoặc backup không đầy đủ: Đảm bảo rằng quy trình backup đã được thiết lập - Không thể truy cập hoặc khôi phục từ tệp backup: Đảm bảo rằng tệp backup được lưu trữ ở một nơi an toàn và có thể truy cập được khi cần thiết. ============= - Thứ tự các host sẽ thay: ưu tiên thực hiện node 5 trước ( bị treo nhiều lần) để theo dõi tinhfh trạng node 6 node 4 node 2 node 1 ============== Lưu ý: Sau khi đổi disk OS cho node có role là ceph-mon/ceph-mgr - Bổ sung Thêm một Ceph mon/mgr mới từ một host với role ceph mon/mgr nhằm khác trong cluster => Trong trường hợp một host gặp sự cố, các Monitor và Manager từ các host khác vẫn giữ tính sẵn sàng và bảo mật của hệ thống.Thêm Monitor mới giúp đảm bảo tính nhất quán dữ liệu và tránh rủi ro toàn bộ được các service mon/mgr bị down thì ta vấn đề liên quan đến split-brain trong cụm. Việc thêm các Monitor và Manager mới giúp phân tải công việc và tăng hiệu suất hệ thống. Các Manager mới có thể giúp tăng khả năng quản lý cụm khi số lượng server chạy các role đó node và dữ liệu tăng lên. - Sau khi replace node Các host có role MON/MGR thì là ceph-mon/mgr trước khi thay phải thực hiện remove khỏi file ceph config (/var/lib/ceph/) và tiến hành readd lại service mon/mgr cho node đó. - Không backup /var/lib/ceph/ vì dữ liệu ceph.conf => Phục hồi nhanh chóng, đảm bảo tính nhất quán cấu hình, sự cố có thể xảy ra khi tệp cấu hình này bị thay đổi liên tục nếu restore lại thì sẽ bất đồng bộ với các node đổi, xóa hoặc bị lỗi do nhiều nguyên nhân khác đang chạy làm VM bị lỗi. ============== nhau. Khi có bản sao lưu của tệp cấu hình có thể sử dụng nó để khôi phục ngay lập tức khi cần thiết. Lưu ý: trường hợp - Sau khi replace disk OS lỗi. Host không hoạt động bình thường như cũ tiến hành kiểm các host có role là ceph-mon/ceph-mgr thì: Kiểm tra như sau: kết nối mạng và cấu hình IP - Kiểm tra thông báo lỗi: các dịch vụ Ceph: - systemctl status ceph-mon.target - systemctl status ceph-mgr.target Đảm bảo service Ceph hoạt động chính xác: Kiểm tra log của Proxmox để xem có thông báo lỗi cụ thể nào xuất hiện khi khởi động hệ thống. các dịch vụ Ceph Đảm đảo tính nhất quán của Cluster - Kiểm tra service Proxmox:pveproxy, pvedaemon, pvestatd để đảm bảo chúng đang lại vai trò và hoạt động đúng. của node - Kiểm tra các bản backup Khi replace disk boot trên một node trong cụm Ceph, dữ liệu của Ceph Monitor (ceph-mon) và Ceph Manager (ceph-mgr) vẫn tồn tại và không bị ảnh hưởng.