In 2008 schreef Chris Anderson, een redacteur bij Wired, dat de zondvloed aan data (later Big Data genoemd) en nieuwe analysetools de wetenschappelijke methode onnodig maakten en een nieuwe manier waren om de wereld te begrijpen. ‘Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all’.
Big Data blabla-ers (ook evangelisten genoemd) hebben deze idee met vele anekdotes ondersteund en verkondigd. Volgens hen breekt er een nieuwe tijd aan: de dataficatie van onze maatschappij maakt alles meetbaar en doet alle bestaande problemen verdwijnen. Gemakshalve wordt er aan voorbij gegaan dat (zoals onderzoeksbedrijf Gartner stelt) 55% van alle Big Data projecten mislukt, vooral omdat ze niet de optimistische resultaten leveren die vooraf zijn ingecalculeerd. Zélfs het paradepaardje van de Big Data evangelisten niet: het in 2008 gestarte Google Flu Trends (GFT). Het geprofeteerde succes bleek rafelrandjes te kennen. In 2014 werd in Science aangetoond dat de resultaten (nog steeds) niet overeenkwamen met de ‘echte’ feiten. Het voorspellen van grieptrends lukte vele malen beter met drie weken oude, op traditionele wijze verzamelde en geanalyseerde gegevens van griepcentra.
Het hebben dus van Big Data (vijfhonderd miljoen zoekvragen per dag!) wil niet zeggen dat visualisaties daaruit een accuraat beeld presenteren van wat er werkelijk gaande is. Dat kan niet als (zoals bij GFT) de gebruikte gegevens onbetrouwbaar en onjuist zijn en/of de verkeerde gegevens zijn verzameld of geselecteerd. In Science werd aangetoond dat betrouwbare voorspellingen voor de verspreiding van griep mogelijk zijn als de analyses uit Big Data gecombineerd worden met traditionele, wetenschappelijke vormen van gegevensverzameling en -analyse. Een van de problemen van GFT (en andere analyses uit Big Data) is dat de resultaten veelal niet gerepliceerd kunnen worden. Dit komt vooral doordat algoritmen, formules, zoektermen en dataselecties geheim zijn en eigendom van private bedrijven.
Ik waag te betwijfelen of we wel alleen op data kunnen vertrouwen als indicator voor beslissingen, welvaart of zingeving. Jay Liebowitz propageert in zijn boek Bursting the Big Data Bubble om naast de resultaten van data analyse in beslissingsprocessen (met dan ook nog een voorkeur voor ‘small data’) ruimte te laten voor ervaring en intuïtie.
Het is zeker dat door ervaring en intuïtie fouten gemaakt (en voorkomen!) worden. Het is zeker dat data beslissingen kunnen verbeteren (als ze objectief worden gebruikt!). Het is ook aangetoond dat we gegevens negeren als ze niet overeenkomen met wat we subjectief denken (zelfs als de objectiviteit van die gegevens vast staat!).
Big Data evangelisten verkondigen dat ‘you can only manage what you measure’. Blabla. Want de financiële crisis heeft aangetoond dat we slecht zijn in het managen van wat we meten. Mislukte fusies en productlanceringen, veelvuldige imagoproblemen en social media escapades geven aan dat we vooral beter moeten worden in het managen van datgene wat we niet kunnen meten.
Met of zonder Big Data.
Voor de eerste keer gepubliceerd in IP. Vakblad voor Informatieprofessionals, 2015, nr. 4, p. 25.
Herdrukt in: W. Bronsgeest, M. Wesseling, E. de Vries, R. Maes, Informatieprofessional 3.0. Strategische vaardigheden die u connected houden (Amsterdam: Adfo Books, 2017), pp. 217-218.