Skudsekund

Natten mellem 30. juni og 1. juli skete der noget på en af vores Linux-servere. Ikke noget dramatisk, vores server kørte fint videre, og vores eksterne overvågning bemærkede ikke noget, men et værktøj der kører på selve serveren (Munin) registrerede et lille hop i "load average" og en meget dramatisk stigning i committed memory. Vi kløede os lidt i nakken, men da alting i øvrigt var normalt besluttede vi ikke at gøre mere her og nu, men blot holde lidt ekstra øje med serveren de næste par dage.

De følgende dage kunne vi se hvordan belastningen af serveren gravist faldt, uden at nå helt ned på det oprindelige niveau. Vores eksterne overvågning viste også en stigning i load-tiden for hjemmesider på serveren på omkring 50 ms i gennemsnit.

Vi kiggede forbi vores leverandørs supportforum, og der fandt vi så en diskussion af problemer med et skudsekund der blev lagt til på uret natten mellem den 30. juni log 1. juli. Præcis på det tidspunkt hvor vi observerede den øgede belastning.

Problemet er at klokken kortvarigt var 23:59:60, og det kunne Centos 6.2 åbenbart ikke finde ud af. Løsningen er simpel nok - log ind og sæt tiden manuelt ($ sudo date -s "date"). Et par timer senere kunne vi tydeligt se at belastning og load-tider var faldet tilbage til det oprindelige niveau fra før 30. juni.

Vi har ikke set det problem med 100% CPU-forbrug som nogle sysadmins har oplevet. Til gengæld var fænomenet ikke til at tage fejl af - vores gæt er at rigtig mange servere rundt omkring kører en lille smule langsommere end før weekenden, og at de formodentlig vil blive ved med at gøre det i lang tid, indtil de af andre årsager bliver genstartet.