Deze week werd ik weer geconfronteerd met de uitspraak dat opslag van data goedkoop is en dat alles makkelijk kan worden bewaard voor een Big Data strategie. Ik kon mijn lachen niet inhouden. In 2000 kostte een gigabyte opslag gemiddeld €8,31, in 2010 €0,07. De toegenomen hoeveelheid data en het effectievere gebruik van opslaghardware in diezelfde periode zorgde voor die substantiële verlaging van de opslagprijzen. De springvloed in Thailand verhinderde een verdere verlaging van de opslagprijzen na 2011. Veertig procent van productiecapaciteit van opslagschijven werd toen vernietigd, waardoor de prijzen voor opslagschijven verdubbelden. Die prijzen zijn in het vervolg weer lager geworden, maar ze hebben het niveau van 2011 niet meer bereikt. Wat in in de gigabyte-opslagprijzen nooit is meegenomen is het gebruik en de terugvindbaarheid van data. Van 2002 tot 2010 zijn de softwarekosten daarvoor gestegen van €4,8 miljard tot €10,9 miljard. De reden voor die kostenstijging is het feit dat data betrouwbaar en duurzaam moeten zijn. Ze worden immers opgeslagen om te worden gebruikt.
Na 2011 stijgt de hoeveelheid data en databestanden explosief (naar ‘multiple zettabytes’ in 2020, volgens onderzoeksbureau IDC). Hoewel een groot deel van die stijging te wijten valt aan ‘streaming’ video en audio, vergen de hoeveelheden daadwerkelijk opgeslagen data (ongeveer 20% van die ‘multiple zettabytes’) steeds meer capaciteit.
Het information governance regime nodig voor vertrouwelijkheid, privacy, compliance en erfgoed vergt met de stijging van de hoeveelheid data meer investeringen in software.
Maar hoe hoog zijn die kosten dan? Twee voorbeelden.
Het Internet Archive heeft de goedkoopste oplossing in gebruik, volledig geautomatiseerd, met weinig management en simpele procedures. In 2011 had het twee petabytes aan webarchief en groeide het met een kwart petabyte per jaar. De jaarlijkse kosten bedroegen tussen €9 en €13 miljoen per jaar, gemiddeld €0,40 per gigabyte. Portico verzamelt academische literatuur in een edepot, met nadruk op management en kwaliteitsprocedures. In 2011 had het vijftig terabytes in beheer en groeide het met vijf terabytes per jaar. De kosten bedroegen €5 tot €6,5 miljoen per jaar, gemiddeld €9 per gigabyte. Na 2011 hebben ze (gezien de groei in de hoeveelheid te bewaren data) hun opslagcapaciteit uitgebreid. De gemiddelde opslagkosten per gigabyte zijn ongeveer hetzelfde gebleven, maar er is een stijgende lijn te constateren.
Stel dat we een exabyte wereldwijd bewaren (een miljard gigabytes). Dat is een half promille van de wereldwijd geproduceerde twee zettabytes (twee duizend exabytes) aan data in 2011. We slaan ongeveer 20 % (vierhonderd exabytes) daarvan op. Het bewaren van die ene exabyte kost volgens het Internet Archive €400 miljoen en volgens Portico €9 miljard per jaar.
In 2020 produceren we misschien vijftien of twintig zettabytes!
Het verdwijnen van data, waar Vint Cerf onlangs voor waarschuwde, is zo erg nog niet.
Waarderen, selecteren en vernietigen van data wordt enorm belangrijk. Bibliothecarissen en archivarissen zullen er hun handen vol aan hebben.
Alles bewaren is totale waanzin.
Voor de eerste keer gepubliceerd in IP. Vakblad voor Informatieprofessionals, 2015, nr. 3, p. 29.