Сабж.
Есть некий nrpe на неком сервере. Порой при проверке
/usr/lib64/nagios/plugins/check_nrpe -H сервер -c check_load
соединение валится по таймауту.
Схема такая:
клиент - gw - сервер
Когда соединение отваливается по таймауту:
tcpdump на gw трафик от клиента в сторону сервера видит,
tcpdump на сервере трафик от клиента видит
НО
strace -p $PID_NRPE -f -e trace=network -s 10000
молчит как рыба об лед!
rp_filter думаю можно исключить, проверял симметричность маршрутов - все ОК.
Как еще можно подебагать? Куда валится трафик, когда сетевая подсистема его увидела, но процессу не отдала?
Собрать трафик на сервере и вайршарком посмотреть (но что это даст)?
Updated: 12 May 2018, 00:13:17
проблема была в
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
изменил на 0 на сервере - все ок.
Кому интересно -
https://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux