On 03/25/18 01:11, Jan-Tarek Butt via Dev wrote:
On 03/20/18 17:10, Jan-Tarek Butt via Dev wrote:
Hallo zusammen,
Da bei dem letzten update scheinbar auch wieder ein paar Router sich nicht zurück gemeldet haben. U.a. weil die sein dem mit sehr hohen loads fahren. Als bsp.: https://map.ffnw.de/friedhof/#/en/map/68725168dd22 https://map.ffnw.de/friedhof/#/en/map/98ded0a783b2
Daher neige ich inzwischen auch zu einem Reboot watchdoog solange bis das Problem gefunden und behoben wurde.
- High Load
Ebenfalls seid dem wechsel auf v2017.1.x gibt das Problem das einige Geräte zeitweise eine hohe load aufweisen. Diese reicht bis zu eine 15er load von 20 und führt zum versagen der Funktionalität aufgrund der hohen load kommt es zu abstürzenden Diensten sowie den dauerhaften versagen (cron, hoodselector, autoupdater ... etc). Dies kann u.a. soweit führen das Interfaces verloren gehen und der Router somit erst nach einem Reboot wieder erreichbar sowie nutzbar wird. Auch dieser Bug ist Aktuell nicht reproduzierbar bis vor ein paar Wochen wurden dieser mit dem OOM assoziiert.
Also da ich bei einigen Geräten bereits Probleme mit den reboot command fest gestellt hatte wäre hier eine Möglichkeit den kernel in panic zu versetzen und somit dein Reboot sicher zu stellen. (echo c > /proc/sysrq-trigger) Das sollte sich bei einer load von 20 besser ausführen lassen. Jetzt ist nur noch die frage was führt es aus. Außer cron sehe ich da nicht viele Möglichkeiten. Da die logs keine Informationen liefern bleibt uns nur den watchdoog anhand von der load zu triggern.
Ich sehe aktuell keine Möglichkeiten einen Reboot vernünftig zu triggern... Klar könnten wir sowas bauen das ein Gerät mit einer load von <10 rebootet. Dmit würde aktuell ca. 40 Router rebooten. Bei einer load von <1 währen es knapp 200 Router. Ich sehe da halt die Problematik wenn tatsächlich mal auf Grund von irgend nen Event im Netz dann diverse Router potentiell zum reboot kommen, obwohl es evtl. nicht Notwändig wäre. Anderseits, wenn jemadn mesh neighbours generiert und damit die batman-adv orginator tables voll schreibt und alle router OOM gehen wäre es gleich zu sehen...
vg Tarek