On 03/20/18 17:10, Jan-Tarek Butt via Dev wrote:
Hallo zusammen,
Da bei dem letzten update scheinbar auch wieder ein paar Router sich nicht zurück gemeldet haben. U.a. weil die sein dem mit sehr hohen loads fahren. Als bsp.: https://map.ffnw.de/friedhof/#/en/map/68725168dd22 https://map.ffnw.de/friedhof/#/en/map/98ded0a783b2
Daher neige ich inzwischen auch zu einem Reboot watchdoog solange bis das Problem gefunden und behoben wurde.
- High Load
Ebenfalls seid dem wechsel auf v2017.1.x gibt das Problem das einige Geräte zeitweise eine hohe load aufweisen. Diese reicht bis zu eine 15er load von 20 und führt zum versagen der Funktionalität aufgrund der hohen load kommt es zu abstürzenden Diensten sowie den dauerhaften versagen (cron, hoodselector, autoupdater ... etc). Dies kann u.a. soweit führen das Interfaces verloren gehen und der Router somit erst nach einem Reboot wieder erreichbar sowie nutzbar wird. Auch dieser Bug ist Aktuell nicht reproduzierbar bis vor ein paar Wochen wurden dieser mit dem OOM assoziiert.
Also da ich bei einigen Geräten bereits Probleme mit den reboot command fest gestellt hatte wäre hier eine Möglichkeit den kernel in panic zu versetzen und somit dein Reboot sicher zu stellen. (echo c > /proc/sysrq-trigger) Das sollte sich bei einer load von 20 besser ausführen lassen. Jetzt ist nur noch die frage was führt es aus. Außer cron sehe ich da nicht viele Möglichkeiten. Da die logs keine Informationen liefern bleibt uns nur den watchdoog anhand von der load zu triggern.
vg Tarek