Buongiorno a tutti.
Dopo anni di utilizzo di CentOS su diversi server stavolta mi sono imbattuto in un problema che mi sta facendo sbattere la testa contro il muro.
Ho installato la versione "minimal" di CentOS 8 su due server *identici*, e uno dei due si comporta in modo strano. Entrambi hanno due ethernet con IP statici, una con ip privato collegata allo switch interno e una con ip pubblico collegata allo switch esterno.
Tutti i giorni, pressappoco alla stessa ora, l'ethernet del server #2 va down e non risponde ai check che faccio dall'esterno. Da notare che il #1, che gli sta in parte ed è collegato agli stessi switch, continua invece a rispondere tranquillamente. Come se non bastasse, poi, dopo un'oretta circa la scheda del #2 torna online da sola... :-?
Ci sono alcune cosette da dire che possono tornare utili:
- Entrambe le macchine montano CentOS 8.3.2011 (aggiornato)
- Il driver di tutte le schede di rete è r8169 firmware rtl8168e-3_0.0.4
- Il server che resta online (#1) è anche il gateway della rete (con masquerade ON), quindi fa più traffico del #2
- Il server che va down (#2) sembra che si riattivi nel momento in cui inizia a fare il backup (uso TSM verso un server esterno)
- Se accedo da remoto via SSH il #2 non ovviamente non risponde, ma se lo faccio sempre via SSH ma su IP privato (passando dal #1) allora funziona e sia riattiva tutto
- Ho provato a disabilitare la WakeOn (con ethtool ho "Supports Wake-on: pumbg" e "Wake-on: d" su tutte e 4 le schede) ma non cambia nulla
La mia impressione è che tutto questo abbia a che fare con il traffico di rete. Il #1 "chiacchera" regolarmente con l'esterno tramite la enp2s0, mentre il #2 (non essendo il gw) non lo fa, anche se c'è da dire che *entrambi* eseguono ogni 5 minuti il ping verso l'esterno (li lancio io da snmp).
Ormai 'sta cosa va avanti da più di due settimane, e sto seriamente pensando di essermi rimbambito... :-)
Qualcuno ha qualche brillante idea su cosa potrebbe essere?
Saluti...