Task #1193
Cập nhật bởi Thanh Tâm Nguyễn cách đây 2 tháng
Các Host xảy ra trình trạng treo liên tục => Thay disk boot một số Host để theo dõi tình hình
===========
Chuẩn bị:
- Disk boot cài proxmox 8.2-2
- Backup config host
pvesh get /nodes/<node_name>/ --output-format json > /root/host-config.json
- Backup config
tar -czf /root/pve-cluster-backup.tar.gz /var/lib/pve-cluster
tar -czf /root/ssh-backup.tar.gz /root/.ssh
tar -czf /root/corosync-backup.tar.gz /etc/corosync
cp /etc/hosts /root/
cp /etc/network/interfaces /root/
- Lưu lại các file config này bằng SCP
===========
Các bước tiến hành, thực hiện theo hướng dẫn: https://projects.longvan.net/projects/lvss/wiki/04-replace-host-loi
**Bước 0: Kiểm tra role của host**
![](clipboard-202409181036-pwjlz.png)
**Bước 1: Maintenance Ceph**
**Bước 2: Tiến hành cắm disk và reboot host**
**Bước 3: Cho boot vào disk OS**
**Bước 4: Restore config**
- Restore /etc/hosts/:
cp /root/hosts /etc/hosts
- Restore /etc/network/interfaces:
cp /root/interfaces /etc/network/interfaces
- Restore the files in /root/.ssh/:
cd / && tar -xzf /root/ssh-backup.tar.gz
- replace /var/lib/pve-cluster/ :
rm -rf /var/lib/pve-cluster
cd / && tar -xzf /root/pve-cluster-backup.tar.gz
- Replace /etc/corosync/ :
rm -rf /etc/corosync
cd / && tar -xzf /root/corosync-backup.tar.gz
- Start pve-cluster:
systemctl start pve-cluster.service
- Start the rest of the services:
systemctl start pvestatd.service
systemctl start pvedaemon.service
===============
Các lỗi có thể xảy ra:
- Thiếu dữ liệu hoặc backup không đầy đủ: Đảm bảo rằng quy trình backup đã được thiết lập
- Không thể truy cập hoặc khôi phục từ tệp backup: Đảm bảo rằng tệp backup được lưu trữ ở một nơi an toàn và có thể truy cập được khi cần thiết.
=============
- Thứ tự các host sẽ thay:
ưu tiên thực hiện node 5 trước ( bị treo nhiều lần) để theo dõi tinhfh trạng
node 6
node 4
node 2
node 1
==============
Lưu ý: Sau khi đổi disk OS cho node có role là ceph-mon/ceph-mgr
- Thêm một Ceph mon/mgr mới từ một host khác trong cluster => Trong trường hợp một host gặp sự cố, các Monitor và Manager từ các host khác vẫn giữ tính sẵn sàng và bảo mật của hệ thống.Thêm Monitor mới giúp đảm bảo tính nhất quán dữ liệu và tránh được các vấn đề liên quan đến split-brain trong cụm. Việc thêm các Monitor và Manager mới giúp phân tải công việc và tăng hiệu suất hệ thống.
Các Manager mới có thể giúp tăng khả năng quản lý cụm khi số lượng node và dữ liệu tăng lên.
- Các host có role là ceph-mon/mgr trước khi thay phải backup ceph.conf => Phục hồi nhanh chóng, đảm bảo tính nhất quán cấu hình, sự cố có thể xảy ra khi tệp cấu hình này bị thay đổi, xóa hoặc bị lỗi do nhiều nguyên nhân khác nhau. Khi có bản sao lưu của tệp cấu hình có thể sử dụng nó để khôi phục ngay lập tức khi cần thiết.
- Sau khi replace các host có role là ceph-mon/ceph-mgr thì:
Kiểm tra kết nối mạng và cấu hình IP
Kiểm tra các dịch vụ Ceph:
- systemctl status ceph-mon.target
- systemctl status ceph-mgr.target
Đảm bảo service Ceph hoạt động chính xác: Kiểm tra log của các dịch vụ Ceph
Đảm đảo tính nhất quán của Cluster
Kiểm tra lại vai trò và hoạt động của node
- Khi replace disk boot trên một node trong cụm Ceph, dữ liệu của Ceph Monitor (ceph-mon) và Ceph Manager (ceph-mgr) vẫn tồn tại và không bị ảnh hưởng.