Met de Large Hadron Collider (LHC) in Genève wordt geprobeerd te achterhalen hoe het heelal is ontstaan. Dat gebeurt door deeltjes met een snelheid van 99,999 procent van het licht tegen elkaar aan te laten botsen. Bij die botsingen wordt al het mogelijke (snelheid, richting, lading massa) gemeten.
Die metingen worden gedaan in een van de vier punten in de enorme deeltjesversneller LHC: ATLAS, LHCb, CMS en ALICE. Op elk van deze punten in de 27 kilometer lange LHC-ring staat een datacollector met miljoenen sensoren. Als er botsingen plaatsvinden in de versneller wordt 1 petabyte (1 miljoen gigabyte) aan data per seconde gegenereerd.
Het verwerken van al die data door CERN IT Communications Systems Group is ondoenlijk en onnodig. Wel wordt alle data eerst naar het centrale punt in het Computing Center gestuurd via het eigen glasvezelnetwerk. CERN is in het gebied zelfs eigenaar van de wegen en het land zodat ze altijd kunnen graven, mocht dat bij een netwerkuitbreiding nodig zijn.
De verbindingen verschillen in snelheid. Zo stuurt de datacollector van ATLAS gegevens met ongeveer 320 MB/s door, CMS doet dat met 220 MB/s, ALICE met 100 MB/s en LHCb houdt het bij 50 MB/s. De data worden in het Computing Center gefilterd. Een groot gedeelte van de data is niet nodig voor het onderzoek van CERN.
Per seconde kan er 300.000 megabyte data door dat geavanceerde filter. Uiteindelijk blijft aan de achterkant een datastroom van 300 MB/s over. Per jaar slaat CERN in totaal 15 petabyte op. Als deze hoeveelheid data op CD’s gebrand zou worden zou dat resulteren in een CD-toren van ongeveer 20 kilometer hoog, meer dan twee keer zo hoog als de Mount Everest.
De data wordt zowel naar tape als naar disk geschreven. Tapes hebben de prioriteit, want taperobots gebruiken alleen stroom als iemand data opvraagt. Diskopslag heeft altijd elektriciteit nodig, ook als de data niet worden gebruikt. Per dag wordt er 70 terabyte aan data weggeschreven wat neerkomt op ongeveer 70 nieuwe tapes per dag.
Hoewel CERN beschikt over een groot eigen datacenter (meer dan 800 servers, bijna 54.000 disks en 160 tape drives) kan slechts 20 procent van de data ter plekke worden opgeslagen. De rest wordt verspreid over de wereld in datacenters die deel uitmaken van het Worldwide LHC Computing Grid (WLCG).
‘The Grid’ bestaat uit drie verschillende lagen. Het Computing Center van CERN is de zogenaamde ‘Tier-0’. Alle CERN Data gaan door deze centrale hub, die verbonden is met andere ‘tiers’ via speciale optische ‘wide area links’, die data met 10 gigabit per seconde distribueren.
De data gaat vanaf Tier-0 naar Tier-1. Deze ring aan datacenters bestaat uit elf plekken, die zich bevinden in Nederland (SARA en NIKHEF, onderdeel van AMS-IX), Frankrijk, Italië, Duitsland, Spanje, Scandinavië Groot-Brittannië, Canada, de VS en Taipei. Deze plekken voorzien in distrubutienetwerken en verwerken ruwe data. Daarnaast wordt daar ook data geanalyseerd en doen ze dienst als opslagplek.
Tier-1 maakt alle data beschikbaar voor Tier-2, een derde ring die wordt gebruikt door de wetenschappers om specifieke analyses uit te voeren. Het zijn ongeveer 160 centra, waar de data worden ontsloten voor wetenschappers. Die gebruiker kan vanuit zijn eigen pc bij alle data komen, die gegenereerd worden door de LHC. Uitgebreide middlewarelaag verbindt de ‘grid’ en ontsluit de data op een uniforme manier. In Europa en Azië wordt gebruik gemaakt van gLite middleware, die werd ontwikkeld door het Enabling Grids for E-sciencE (EGEE) project en open source beschikbaar is onder de Apache 2.0 licentie. In Scandinavië gaat het om ARC middleware, dat eveneens beschikbaar is onder een Apache licentie. In de VS wordt the Grid ontsloten via de Virtual Data Toolkit (VDT), die beschikbaar wordt gesteld door Open Science Grid (OSG). Al deze middleware-systemen zijn beïnvloed door de Globus Toolkit, een open source tookit voor het bouwen van grids. De data worden door de Grid File Transfer Service tussen de verschillende centra uitgewisseld.
Op dit moment verwerkt het LHC Computing Grid tussen de 500.000 en 1 miljoen taken per dag. CERN verwacht dat dit naar mate de tijd vordert alleen maar zal toenemen, wat volgens het instituut zal zorgen voor nieuwe technologie die beschikbaar komt voor de rest van de wereld.