FortiGate Performance SLA bị down dù Internet vẫn chạy: nguyên nhân và cách kiểm tra
FortiGate Performance SLA bị down dù Internet vẫn chạy: nguyên nhân và cách kiểm tra
WAN vẫn truy cập Internet bình thường nhưng Performance SLA trên FortiGate lại báo down, dead hoặc SD-WAN không chọn đúng đường? Bài viết này hướng dẫn cách kiểm tra: từ SLA target, route, source IP, threshold, policy, asymmetric routing đến các lệnh CLI cần dùng.
Khi triển khai SD-WAN trên FortiGate, Performance SLA là thành phần quan trọng giúp firewall đánh giá chất lượng từng đường WAN hoặc từng tunnel VPN.
Performance SLA có thể kiểm tra các chỉ số như latency, jitter, packet loss, trạng thái alive/dead của từng SD-WAN member và khả năng reach đến server đích dùng để health-check.
Tuy nhiên, có một lỗi rất hay gặp trong thực tế: WAN vẫn chạy, người dùng vẫn ra Internet được, nhưng Performance SLA lại báo down. Khi đó, SD-WAN Rule có thể chọn sai member, failover không đúng hoặc route liên quan bị inactive.
Tình huống thường gặp
- WAN interface vẫn up nhưng SLA báo dead.
- User vẫn mở web được nhưng FortiGate không chọn WAN đó.
- SD-WAN failover chuyển đường không như mong muốn.
- IPsec VPN tunnel up nhưng Performance SLA vẫn down.
- SLA lúc up lúc down liên tục.
- SLA fail làm route liên quan bị inactive.
Bản chất vấn đề
Performance SLA bị down không có nghĩa là đường WAN chắc chắn mất Internet. Có thể FortiGate chỉ không nhận được probe đúng cách, SLA target không phản hồi, source IP không phù hợp, route đi sai hoặc threshold đặt quá nghiêm ngặt.
Vì vậy, cần kiểm tra theo lớp: Target → Protocol → Route → Source IP → Threshold → Policy → Return path.
Luồng kiểm tra khi Performance SLA bị down
Trước khi chỉnh cấu hình, anh/chị có thể xem nhanh các bước kiểm tra chính dưới đây để tránh xử lý sai hướng hoặc đổi target / tắt SLA quá sớm.
Kiểm tra SD-WAN member
Xác định WAN/tunnel có up và thuộc đúng SD-WAN Zone không.
Kiểm tra SLA status
Xem member alive/dead, packet loss, latency, jitter và SLA map.
Kiểm tra SLA target
Đảm bảo server đích phản hồi đúng protocol health-check đang dùng.
Kiểm tra route và source IP
FortiGate phải có route hợp lệ đến target và dùng source IP phù hợp.
Kiểm tra threshold
Latency, jitter hoặc packet loss vượt ngưỡng có thể làm SLA fail.
Kiểm tra return path
Probe đi một đường nhưng reply về đường khác có thể làm SLA down.
1. Performance SLA trên FortiGate dùng để làm gì?
Trong FortiGate SD-WAN, Performance SLA được dùng để đánh giá tình trạng và chất lượng của các SD-WAN member.
Một SD-WAN member có thể là:
Performance SLA sẽ gửi probe đến một hoặc nhiều server đích để kiểm tra đường truyền. Các thông số thường được theo dõi gồm:
Performance SLA ảnh hưởng gì?
Dựa trên kết quả SLA, FortiGate có thể chọn member tốt nhất, loại member không đạt SLA, failover sang WAN khác hoặc điều hướng traffic theo SD-WAN Rule.
2. Vì sao WAN vẫn chạy nhưng Performance SLA báo down?
Một đường WAN có thể vẫn ra Internet được, nhưng Performance SLA vẫn báo down vì FortiGate đang đánh giá đường truyền dựa trên probe đến server SLA, không phải chỉ dựa trên việc người dùng có mở web được hay không.
Ví dụ thực tế
- User truy cập website vẫn bình thường.
- WAN interface vẫn up.
- Default route vẫn có.
- Nhưng FortiGate ping đến SLA target bị fail.
- Hoặc SLA target phản hồi chậm vượt ngưỡng latency.
- Hoặc gói probe đi ra WAN1 nhưng reply về WAN2.
Điểm dễ nhầm
Kiểm tra bằng cách “mở web thấy được” chưa đủ để kết luận Performance SLA phải up. Cần kiểm tra đúng target, đúng protocol, đúng source và đúng đường return của health-check.
3. SLA target không phản hồi hoặc chọn target không phù hợp
Một trong những nguyên nhân phổ biến nhất là server đích dùng để SLA không phản hồi đúng cách.
Target chặn ICMP
SLA dùng ping nhưng ISP, firewall trung gian hoặc server đích không trả lời ICMP.
Target không ổn định
Server đích lúc phản hồi, lúc không hoặc bị giới hạn request.
Target nằm sau VPN
Tunnel, route ngược hoặc firewall phía remote chưa đúng làm SLA fail.
Target không đúng dịch vụ
Dùng HTTP/DNS probe nhưng server không phản hồi đúng dịch vụ đó.
Cách kiểm tra cơ bản:
execute ping <sla_target_ip>Ví dụ:
execute ping 8.8.8.84. Protocol health-check không phù hợp
Performance SLA có thể dùng nhiều loại probe khác nhau như ping, HTTP, DNS. Lỗi xảy ra khi protocol cấu hình không phù hợp với server đích.
| Ping | Target phải phản hồi ICMP. Nếu server hoặc ISP chặn ICMP, SLA có thể down. |
| HTTP | Target phải phản hồi HTTP đúng cách. Nếu port 80 không mở, SLA có thể fail. |
| DNS | Target phải là DNS server hoặc phản hồi DNS đúng yêu cầu. |
Cách xử lý:
- Kiểm tra protocol đang dùng trong Performance SLA.
- Đảm bảo server đích hỗ trợ đúng protocol.
- Nếu HTTP probe không ổn định, cân nhắc dùng ping hoặc DNS tùy mục tiêu.
- Không dùng target không phù hợp để làm health-check lâu dài.
5. Route đến SLA target không đúng
Performance SLA cần FortiGate có route hợp lệ đến SLA target. Nếu route sai, thiếu route hoặc traffic probe đi không đúng SD-WAN member, SLA có thể bị down.
Ví dụ với IPsec VPN
- SLA target nằm phía remote site.
- FortiGate chưa có route đến remote subnet qua VPN tunnel.
- Hoặc route có nhưng không qua đúng VPN SD-WAN Zone.
- Hoặc peer không có route ngược về source IP.
Cách kiểm tra route:
get router info routing-table allKiểm tra route đến một IP cụ thể:
get router info routing-table details <sla_target_ip>Ví dụ:
get router info routing-table details 8.8.8.8Hoặc với VPN:
get router info routing-table details 10.25.12.36. Source IP hoặc source interface không phù hợp
Đây là lỗi rất quan trọng trong mô hình nhiều WAN hoặc IPsec VPN. Performance SLA cần gửi probe từ một source phù hợp. Nếu source IP không đúng, peer hoặc server đích có thể không biết route trả về, dẫn đến SLA down.
Case rất hay gặp với IPsec VPN
- Tunnel VPN đã up.
- SLA target nằm phía remote site.
- Nhưng probe SLA dùng source IP không nằm trong Phase 2 Selector.
- Remote site không có route trả về source IP đó.
- Kết quả: Performance SLA vẫn down.
Ví dụ CLI set source cho SD-WAN member:
config system sdwan
config members
edit <member_id>
set source <source_ip_phu_hop>
next
end
endVí dụ:
config system sdwan
config members
edit 5
set source 10.24.3.109
next
end
endLưu ý source IP
Source IP nên thuộc subnet local đã khai báo trong Phase 2 Selector. Peer bên kia phải có route ngược về source IP này và policy hai chiều phải cho phép traffic health-check.
7. SLA threshold đặt quá nghiêm ngặt
Performance SLA không chỉ kiểm tra alive/dead, mà còn đánh giá theo các ngưỡng như latency, jitter và packet loss. Nếu ngưỡng đặt quá chặt, member có thể bị đánh dấu fail dù đường truyền vẫn sử dụng được.
Ví dụ
- Latency thực tế:
45ms - SLA threshold đặt:
30ms - Packet loss:
0% - User vẫn truy cập Internet bình thường
- Nhưng FortiGate đánh giá member không đạt SLA
Cách xử lý:
- Kiểm tra số liệu thực tế trước khi đặt ngưỡng.
- Không đặt threshold quá lý tưởng.
- Đặt ngưỡng phù hợp với chất lượng đường truyền thật.
- Với broadband, không nên kỳ vọng như leased line.
- Với 4G/5G backup, latency và jitter thường dao động nhiều hơn.
- Theo dõi vài ngày trước khi chốt thông số SLA cho hệ thống production.
Lệnh kiểm tra:
diagnose sys sdwan health-check8. Probe đi một đường, reply về đường khác
Một nguyên nhân khó chịu hơn là traffic probe đi ra một interface nhưng reply lại về interface khác. Trường hợp này có thể làm FortiGate đánh giá health-check là fail, dù về mặt tổng thể destination vẫn reachable.
Ví dụ với VPN nhiều tunnel
- SLA probe đi từ
VPN_2đến HUB. - HUB nhận được gói nhưng trả lời về
VPN_1. - FortiGate phía spoke không nhận reply đúng interface.
- SLA của
VPN_2báo down.
Lệnh sniffer mẫu:
diagnose sniffer packet any 'host <sla_target_ip>' 4 0 aVí dụ:
diagnose sniffer packet any 'host 10.25.12.3' 4 0 a9. Firewall policy, local-in policy hoặc thiết bị chặn probe
Traffic probe có thể bị chặn bởi nhiều lớp khác nhau:
Firewall policy
Policy chưa cho phép traffic health-check đi qua đúng zone hoặc đúng service.
Local-in policy
Một số traffic đến FortiGate hoặc từ FortiGate có thể bị local-in policy ảnh hưởng.
DoS / Security profile
ICMP hoặc probe traffic có thể bị giới hạn hoặc block.
Firewall phía server
Server đích hoặc thiết bị peer có thể chặn ping, HTTP hoặc DNS probe.
Lệnh debug flow mẫu:
diagnose debug reset
diagnose debug flow filter clear
diagnose debug flow filter addr <sla_target_ip>
diagnose debug flow show function-name enable
diagnose debug console timestamp enable
diagnose debug flow trace start 100
diagnose debug enableSau khi test xong:
diagnose debug disable
diagnose debug resetLưu ý khi debug
Không nên bật debug quá rộng trên hệ thống đang có nhiều traffic. Nên filter theo SLA target hoặc source/destination cụ thể để dễ đọc log.
10. Update static route làm route bị inactive
Trong một số mô hình, Performance SLA có thể ảnh hưởng đến trạng thái route nếu cấu hình có liên quan đến việc update static route. Khi SLA fail, route tương ứng có thể bị inactive.
Tình huống thường gặp
- SD-WAN member có Performance SLA.
- Health-check fail.
- Static route liên quan bị inactive.
- Traffic không còn route qua member đó.
- Người vận hành dễ hiểu nhầm là route hoặc SD-WAN Rule bị lỗi.
Cách xử lý:
- Kiểm tra route active/inactive.
- Kiểm tra cấu hình Performance SLA có update static route không.
- Kiểm tra member có đang nằm trong SLA phù hợp không.
- Không gán member vào Performance SLA không liên quan.
- Nếu route inactive, cần xử lý nguyên nhân SLA fail trước, không chỉ chỉnh route.
get router info routing-table alldiagnose sys sdwan health-check11. Các lệnh CLI cần dùng khi Performance SLA bị down
Kiểm tra SD-WAN member
diagnose sys sdwan memberXem member, interface tương ứng, gateway, zone và trạng thái member.
Kiểm tra Performance SLA
diagnose sys sdwan health-checkLệnh quan trọng nhất để xem SLA alive/dead, packet loss, latency, jitter và SLA map.
Kiểm tra SD-WAN service / rule
diagnose sys sdwan serviceXem rule nào đang dùng SLA, member nào được chọn và member nào bị loại.
Kiểm tra service IPv4 / IPv6
diagnose sys sdwan service4
diagnose sys sdwan service6Dùng trên một số phiên bản FortiOS mới hơn để kiểm tra rule theo IPv4/IPv6.
Kiểm tra route đến target
get router info routing-table details <sla_target_ip>Xác nhận FortiGate có route đến SLA target và route đó đi interface nào.
Ping từ FortiGate
execute ping <sla_target_ip>Kiểm tra target có reachable từ FortiGate hay không.
Ping với source IP
execute ping-options source <source_ip>
execute ping <sla_target_ip>Dùng khi cần xác nhận probe với source cụ thể, đặc biệt trong VPN hoặc nhiều WAN.
Sniffer probe đi/return
diagnose sniffer packet any 'host <sla_target_ip>' 4 0 aXem probe có đi ra không, reply có quay về không và có đúng interface không.
12. Quy trình kiểm tra khi Performance SLA bị down
Xác định SLA nào đang down
Kiểm tra SLA nào down, member nào dead, target server là gì và rule nào đang dùng SLA này.
Kiểm tra target có reachable không
Ping từ FortiGate đến target, nhưng cần lưu ý source IP và protocol health-check đang dùng.
Kiểm tra protocol health-check
Đảm bảo target phản hồi đúng loại probe: ping, HTTP hoặc DNS.
Kiểm tra route đến target
Xác nhận route tồn tại, đi đúng interface và không bị route khác ưu tiên hơn.
Kiểm tra source IP
Với VPN hoặc nhiều WAN, source IP không phù hợp có thể làm SLA fail dù target reachable.
Kiểm tra threshold
So sánh latency, jitter, packet loss thực tế với ngưỡng SLA đang cấu hình.
Kiểm tra asymmetric routing
Dùng sniffer để xem probe đi và reply có quay về đúng interface không.
Kiểm tra policy hoặc thiết bị chặn probe
Xác nhận local-in policy, firewall policy, DoS policy, peer firewall hoặc server đích không chặn probe.
13. Troubleshooting theo từng tình huống
WAN vẫn ra Internet nhưng SLA báo dead
Nguyên nhân có thể:
- SLA target không phản hồi.
- Protocol health-check không phù hợp.
- Route đến target đi sai interface.
- SLA threshold quá chặt.
- Packet loss hoặc latency vượt ngưỡng.
- Probe bị chặn bởi policy hoặc ISP.
Cách xử lý:
- Ping SLA target từ FortiGate.
- Kiểm tra route đến target.
- Đổi sang target ổn định hơn để test.
- Kiểm tra threshold.
- Dùng sniffer xem có reply không.
SLA down nhưng ping target vẫn được
Nguyên nhân có thể:
- Ping thủ công dùng source khác với Performance SLA.
- Probe của SLA dùng protocol khác ping.
- SLA threshold fail dù target reachable.
- Reply quay về interface khác.
- Route hoặc source IP không đúng với health-check.
Cách xử lý:
- Ping lại với source IP tương ứng.
- Kiểm tra protocol của SLA.
- Kiểm tra latency, jitter và packet loss.
- Dùng sniffer kiểm tra probe và reply.
- Kiểm tra CLI thay vì chỉ nhìn GUI.
IPsec VPN tunnel up nhưng Performance SLA down
Nguyên nhân có thể:
- SLA source IP không nằm trong Phase 2 Selector.
- Peer không có route ngược về source IP.
- Remote target chặn ICMP/probe.
- Probe đi tunnel này nhưng reply về tunnel khác.
- Route đến remote subnet chưa đúng.
- Firewall policy hai chiều chưa cho phép.
Cách xử lý:
- Kiểm tra Phase 2 Selector hai đầu.
- Set source IP phù hợp cho SD-WAN member.
- Kiểm tra route ngược phía peer.
- Kiểm tra policy hai chiều.
- Dùng sniffer xem probe đi/return.
- Chọn target remote ổn định hơn.
SLA lúc up lúc down liên tục
Nguyên nhân có thể:
- Đường truyền jitter cao.
- Packet loss dao động.
- Target server không ổn định.
- Probe interval quá ngắn.
- Timeout quá thấp.
- Threshold quá nghiêm ngặt.
Cách xử lý:
- Theo dõi latency, jitter, packet loss thực tế.
- Tăng timeout nếu phù hợp.
- Điều chỉnh threshold sát thực tế hơn.
- Chọn target khác ổn định hơn.
- Không dùng target ở quá xa nếu chỉ cần kiểm tra Internet.
SLA fail làm route bị inactive
Nguyên nhân có thể:
- Performance SLA có tác động đến static route.
- Health-check fail nên route liên quan bị inactive.
- Member nằm trong SLA không phù hợp.
- Route không có valid gateway/next-hop.
- SLA target fail làm FortiGate loại đường đó khỏi lựa chọn.
Cách xử lý:
- Kiểm tra routing table.
- Kiểm tra trạng thái SLA.
- Kiểm tra có cấu hình update static route không.
- Gỡ member khỏi SLA không liên quan nếu cần.
- Xử lý nguyên nhân SLA fail trước khi chỉnh route.
14. Checklist trước khi chỉnh Performance SLA
- FortiOS đang dùng phiên bản nào?
- SLA áp dụng cho WAN hay VPN tunnel?
- SLA target là IP/domain nào?
- Protocol health-check là ping, HTTP, DNS hay loại khác?
- Target có phản hồi đúng protocol không?
- FortiGate có route đến target không?
- Probe có dùng đúng source IP không?
- Nếu là VPN, source IP có nằm trong Phase 2 Selector không?
- Peer có route ngược về source IP không?
- SLA threshold đang đặt bao nhiêu?
- Latency, jitter, packet loss thực tế là bao nhiêu?
- Có policy hoặc firewall nào chặn probe không?
- Có asymmetric routing không?
- Đã backup config trước khi chỉnh chưa?
15. Câu hỏi thường gặp
Vì sao WAN vẫn có Internet nhưng Performance SLA báo down?
Vì Performance SLA không chỉ kiểm tra interface up/down. Nó kiểm tra khả năng reach đến SLA target bằng protocol đã cấu hình và so sánh với ngưỡng latency, jitter, packet loss. Nếu probe fail hoặc không đạt ngưỡng, FortiGate có thể đánh dấu member là down dù user vẫn mở web được.
Nên chọn SLA target là gì?
Tùy mục tiêu kiểm tra. Với Internet, có thể chọn public DNS, gateway ISP hoặc server ổn định. Với VPN, nên chọn IP ổn định phía remote như gateway, loopback hoặc server luôn bật. Không nên chọn target không ổn định hoặc hay chặn ping.
Ping target được nhưng SLA vẫn down là do đâu?
Có thể ping thủ công đang dùng source khác, còn Performance SLA dùng source khác. Cũng có thể SLA dùng protocol khác ping, threshold quá chặt, reply quay về sai interface hoặc target không phản hồi đúng kiểu probe mà SLA đang dùng.
Performance SLA down có làm traffic đổi WAN không?
Có thể có. Nếu SD-WAN Rule đang dùng strategy dựa trên SLA như Best Quality hoặc Lowest Cost SLA, member không đạt SLA có thể không được chọn. Khi đó traffic có thể chuyển sang WAN/tunnel khác.
Có nên dùng nhiều SLA target không?
Với hệ thống quan trọng, nên cân nhắc nhiều target để tránh việc một target riêng lẻ bị lỗi làm FortiGate đánh giá sai chất lượng đường truyền. Tuy nhiên cần thiết kế hợp lý, tránh probe quá nhiều hoặc target không phù hợp.
IPsec VPN tunnel up nhưng SLA down có bình thường không?
Có thể xảy ra. Tunnel up chỉ cho biết IPsec đã thiết lập. Performance SLA còn phụ thuộc vào route, source IP, Phase 2 Selector, policy hai chiều và target phía remote có phản hồi hay không.
Performance SLA down không đồng nghĩa WAN chắc chắn mất Internet
Lỗi FortiGate Performance SLA bị down dù Internet vẫn chạy thường không chỉ do đường truyền bị lỗi. Nguyên nhân có thể đến từ SLA target, protocol health-check, route, source IP, threshold, policy, asymmetric routing hoặc cách Performance SLA tác động đến route.
Khi xử lý, nên kiểm tra theo thứ tự:
- Xác định SLA nào đang down.
- Kiểm tra target và protocol health-check.
- Kiểm tra route đến SLA target.
- Kiểm tra source IP hoặc source interface.
- Kiểm tra threshold latency, jitter, packet loss.
- Kiểm tra asymmetric routing.
- Kiểm tra policy hoặc thiết bị chặn probe.
- Kiểm tra route có bị inactive do SLA không.
- Dùng CLI để xác nhận thay vì chỉ nhìn GUI.
- Test lại bằng target ổn định và traffic cụ thể.
Cần kiểm tra lỗi Performance SLA, SD-WAN Rule hoặc VPN health-check?
Doanh nghiệp của anh/chị đang gặp tình trạng FortiGate Performance SLA bị down, WAN vẫn có Internet nhưng SD-WAN không chọn đúng đường, hoặc IPsec VPN tunnel up nhưng SLA báo dead?
NAMHI có thể hỗ trợ kiểm tra mô hình SD-WAN, rà soát SLA target, route, source IP, policy, session và đề xuất phương án cấu hình phù hợp với hệ thống thực tế.
/file/media/uploads/article/ftg.jpg)
/file/media/uploads/article/cover.png)
/file/media/uploads/wan-fortigate.png)
/file/media/uploads/network-interface.jpg)
/file/media/uploads/firewall-policy.jpg)
/file/media/uploads/web-filter.jpg)
/file/media/uploads/app-control.png)
/file/media/uploads/antivirus.jpg)
/file/media/uploads/ssl-inspection.png)
/file/media/uploads/vpn-client-to-site.jpg)
/file/media/uploads/ipsec-vpn.jpg)
/file/media/uploads/ha.jpg)