Task #1193: Thay Disk Boot KH Ckey - 12. FPT-Q7-HCM - Long Vân Redmine

Task #1193

Cập nhật bởi Thanh Tâm Nguyễn cách đây 6 tháng

Các Host xảy ra trình trạng treo liên tục => Thay disk boot một số Host để theo dõi tình hình 

 =========== 
 Chuẩn bị: 
 - Disk boot cài proxmox 8.2-2 
 - Backup config host 
 pvesh get /nodes/<node_name>/ --output-format json > /root/host-config.json 

 - Backup config 

 tar -czf /root/pve-cluster-backup.tar.gz /var/lib/pve-cluster 

 tar -czf /root/ssh-backup.tar.gz /root/.ssh 

 tar -czf /root/corosync-backup.tar.gz /etc/corosync 

 cp /etc/hosts /root/ 

 cp /etc/network/interfaces /root/ 

 - Lưu lại các file config này bằng SCP 

 =========== 
 Các bước tiến hành, thực hiện theo hướng dẫn: https://projects.longvan.net/projects/lvss/wiki/04-replace-host-loi 
 **Bước 0: Kiểm tra role của host** 
 ![](clipboard-202409181036-pwjlz.png) 
 **Bước 1: Maintenance Ceph** 
 **Bước 2: Tiến hành cắm disk và reboot host** 
 **Bước 3: Cho boot vào disk OS** 
 **Bước 4: Restore config** 
 - Restore /etc/hosts/:               
 cp /root/hosts /etc/hosts 

 - Restore /etc/network/interfaces:   
 cp /root/interfaces /etc/network/interfaces 

 - Restore the files in /root/.ssh/:  
 cd / && tar -xzf /root/ssh-backup.tar.gz 

 - replace /var/lib/pve-cluster/ :    
 rm -rf /var/lib/pve-cluster 
 cd / && tar -xzf /root/pve-cluster-backup.tar.gz 

 - Replace /etc/corosync/ :           
 rm -rf /etc/corosync 
 cd / && tar -xzf /root/corosync-backup.tar.gz 

 - Start pve-cluster:                 
 systemctl start pve-cluster.service 

 - Start the rest of the services:    
 systemctl start pvestatd.service 
 systemctl start pvedaemon.service 


 =============== 
 Các lỗi có thể xảy ra: 
 - Thiếu dữ liệu hoặc backup không đầy đủ: Đảm bảo rằng quy trình backup đã được thiết lập 
 - Không thể truy cập hoặc khôi phục từ tệp backup: Đảm bảo rằng tệp backup được lưu trữ ở một nơi an toàn và có thể truy cập được khi cần thiết. 

 ============= 
 - Thứ tự các host sẽ thay: 
 ưu tiên thực hiện node 5 trước ( bị treo nhiều lần) để theo dõi tinhfh trạng 
 node 6 
 node 4 
 node 2  
 node 1 

 ============== 
 Lưu ý: Sau khi đổi disk OS cho node có role là ceph-mon/ceph-mgr 
 - Bổ sung Thêm một Ceph mon/mgr mới từ một host với role ceph mon/mgr nhằm khác trong cluster => Trong trường hợp một host gặp sự cố, các Monitor và Manager từ các host khác vẫn giữ tính sẵn sàng và bảo mật của hệ thống.Thêm Monitor mới giúp đảm bảo tính nhất quán dữ liệu và tránh rủi ro toàn bộ được các service mon/mgr bị down thì ta vấn đề liên quan đến split-brain trong cụm. Việc thêm các Monitor và Manager mới giúp phân tải công việc và tăng hiệu suất hệ thống. 
 Các Manager mới có thể giúp tăng khả năng quản lý cụm khi số lượng server chạy các role đó node và dữ liệu tăng lên. 
 -    Sau khi replace node Các host có role MON/MGR thì là ceph-mon/mgr trước khi thay phải thực hiện remove khỏi file ceph config (/var/lib/ceph/) và tiến hành readd lại service mon/mgr cho node đó. 
 - Không backup /var/lib/ceph/ vì dữ liệu ceph.conf => Phục hồi nhanh chóng, đảm bảo tính nhất quán cấu hình, sự cố có thể xảy ra khi tệp cấu hình này bị thay đổi liên tục nếu restore lại thì sẽ bất đồng bộ với các node đổi, xóa hoặc bị lỗi do nhiều nguyên nhân khác đang chạy làm VM bị lỗi. 

 ============== nhau. Khi có bản sao lưu của tệp cấu hình có thể sử dụng nó để khôi phục ngay lập tức khi cần thiết. 
 Lưu ý:    trường hợp - Sau khi replace disk OS lỗi. Host không hoạt động bình thường như cũ tiến hành kiểm các host có role là ceph-mon/ceph-mgr thì: 
 Kiểm tra như sau: kết nối mạng và cấu hình IP 
 - Kiểm tra thông báo lỗi: các dịch vụ Ceph: 
 - systemctl status ceph-mon.target 
 - systemctl status ceph-mgr.target  
 Đảm bảo service Ceph hoạt động chính xác: Kiểm tra log của Proxmox để xem có thông báo lỗi cụ thể nào xuất hiện khi khởi động hệ thống. các dịch vụ Ceph  
 Đảm đảo tính nhất quán của Cluster 
 - Kiểm tra service Proxmox:pveproxy, pvedaemon, pvestatd để đảm bảo chúng đang lại vai trò và hoạt động đúng. 
 của node 

 - Kiểm tra các bản backup 



 Khi replace disk boot trên một node trong cụm Ceph, dữ liệu của Ceph Monitor (ceph-mon) và Ceph Manager (ceph-mgr) vẫn tồn tại và không bị ảnh hưởng.

Quay lại

Dự án

Tổng quan

Hồ sơ

LV SYSTEM » 11.QUI HOẠCH HỆ THỐNG » 12. FPT-Q7-HCM

Task #1193