Aarhus Universitets segl

AU ramt af IT-nedbrud

Et svigtende køleanlæg og en alarm, der ikke virkede, gav en lang række medarbejdere og studerende to problemfyldte IT-dage i uge 36. Vicedirektør Flemming Bøge forklarer, at to meget usandsynlige uheld ramte på samme tid.


Af Kristian Serge Skov-Larsen
ksl@adm.au.dk

Ingen mail, ingen adgang til nye og gamle dokumenter, langsom netforbindelse og en lang række administrative edb-systemer, der enten svigtede helt eller kørte, som blev de afviklet på en Commodore 64.
Sådan var virkeligheden for AU-ansatte i fællesadministrationen og på Teologi hele mandagen og en stor del af tirsdagen i uge 36. Samtidig kunne studerende overalt på AU ikke komme på hverken det trådløse internet eller deres interne fildelingssystem, Aula.
I alt 6-700 medarbejdere blev direkte berørt af nedbruddet, og derudover var en række centralt drevne systemer ude af drift eller svigtende i kortere eller længere perioder, mens nedbruddet stod på.

To fejl samtidig

Vicedirektør for IT, Flemming Bøge, beklager meget de gener, som IT-nedbruddet har givet overalt på universitetet, hvor ganske mange arbejdstimer er tabt, og medarbejdere stort set er overladt til at bruge pen og papir.
– Nedbruddet skyldes en uheldig kombination af to fejl, som opstod samtidig. Et køleanlæg gik i stykker natten mellem søndag og mandag, og samtidig var der fejl i den alarm, der burde advare om netop den slags hændelser. Da vi mødte mandag morgen, var rumtemperaturen hos serverne over 50 grader, og de enkelte maskiner var endnu varmere. Nogle var lukket ned, nogle dele havde taget skade af varmen, og temperaturen havde været så høj, at også kablerne mellem maskinerne var defekte, siger han.

Analyse på vej

Når det efter sådant et nedbrud tager så lang tid at få maskinerne op at køre igen, er det ifølge Flemming Bøge, fordi man ikke bare kan starte maskinerne op, som man starter en almindelige hjemmecomputer.
– Først skal vi udskifte de defekte maskiner og kabler, så skal vi hente data frem fra vores backupservere, og så skal alting startes op i den helt rigtige rækkefølge. Teknikerne arbejdede hele natten på køleanlægget og maskinerne, for vi ved godt, at det er kritisk, siger han.
For fem år siden brændte det daværende datakontors serverrum, og universitetet havde samme problem. Allerede dengang talte man om, at man skulle have to separate serverrum. Samtidig har du selv nævnt stabilitet i driften som en prioritering, da du tiltrådte. Hvorfor har vi ikke to serverrum, så det ene kan tage over, hvis det andet står af?
– Vi er i øjeblikket ved at lave en analyse af, hvordan sikkerhedsniveau og driftsøkonomi ser ud for de ca 20 forskellige serverrum, der i dag er på AU. Et serverrum med de rette køleanlæg, nødstrømsforsyninger, alarmer og maskiner er en ganske betydelig investering. Det Jordbrugsvidenskabelige Fakultet har for eksempel brugt et tocifret millionbeløb på deres, og det er ikke noget, man bare køber, siger Flemming Bøge.

Usandsynligt at det sker igen

Samtidig forklarer vicedirektøren, at det nok også kræver ændringer i hele data-infrastrukturen, før et nyt serverrum kan betale sig.
– Hvis vi skal være ærlige, så giver en sådan stor investering først mening, hvis vi er i stand til at slå vores løsninger sammen på hele universitetet, så vi ikke har mange separate serverrum,         men kun to eller tre. Desværre kan man ikke bare trække stikket på en harddisk og flytte den til et nyt rum. Det er en lang og svær proces. Men vi forventer at have en beslutning omkring årsskiftet om, hvordan vi skal gribe det an, siger Flemming Bøge.
Men indtil vi får to serverrum, kan et sådant nedbrud så ske igen?
– Vi er ramt af to relativt usandsynlige uheld på samme tid. Selvfølgelig kan alt ske igen, men chancen for at det samme opstår en gang til i vores levetid, er ikke ret stor, siger han.


Problemerne med universitetets IT fortsatte i varierende grad resten af uge 36, indtil serverne var helt gendannede.