Doet U aan Datawarehousing 2.0. ?
Weet U waarin Uw gegevens worden opgeslagen ? Bent U er zeker van dat ze daarin veilig worden bewaard ? Dat ze niet zomaar toegankelijk zijn voor iedereen die daar een behoefte toe voelt ? Weet U zeker dat U vertrouwelijke gegevens kunt vastleggen, zonder dat de vertrouwelijkheid wordt geschaad ?
Uiteraard is dat deels een kwestie van organisatie, van procedures, van beveiliging, van toetsing en van ethiek. Voor een deel echter heeft dat ook te maken met de databasetechnologie die wordt gebruikt. Het grootste deel van de infomatie, of het nu persoonlijke gegevens zijn, email, tekstdocumenten, spreadsheets, presentaties, video-opnamen, podcasts, sms-berichten en messagingsessies, komt in grote databases terecht. Deze databases worden veelal datawarehouses genoemd.
Laten we eens wat nader ingaan op deze datawarehouses, en dan uiteraard zoals het is gedefinieerd door één van de geestelijke vaders ervan, Bill Inmon . Datawarehouses in deze zin bestaan al vanaf ongeveer 1980. In deze periode hebben ze een evolutie doorgemaakt, waarbij echter de essentie behouden is gebleven. Inmon zelf spreekt over de huidige generatie datawarehouses als Datawarehouse 2.0, waarschijnlijk in analogie met Web 2.0. Deze datawarehouses bevatten, in aanvulling op de specifieke transactiegegevens, (bewerkte) ongestructureerde gegevens in verschillende vormen, metadata, zowel aangaande zakentransacties als aangaande de gebruikte informatietechnologie, (te bewerken) online gegevens, referentiegegevens en gegevens over de ‘live span’ van de opgenomen gegevens.
Inmon definieert een datawarehouse als een onderwerp-gerichte, geïntegreerde, tijdsafhankelijke, niet-vluchtige verzameling van gegevens, bedoeld om de besluitvorming, de marketing en de ontsluiting van gegevens te ondersteunen.
Een datawarehouse 2.0. bestaat uit vier sectoren: de ‘interactive sector’, de ‘integrative sector’, de ‘near line sector’ en de ‘archival sector’. De ‘interactive’ en de ‘integrative’ sector vertonen overeenkomst met wat in de eerste generatie datawarehouses als Operational Data Store (ODS) werd aangemerkt. Een ODS was bedoeld voor de opslag van ‘actuele’ gegevens, waarin de structurering van de gegevens naar onderwerp plaatsvond en waarin de integratie van de gegevens werd uitgevoerd, zodanig dat redundantie werd voorkomen. Het was geen onderdeel van het datawarehouse. Het diende eigenlijk als een interface tussen de procesapplicaties en het datawarehouse zelf. Beide genoemde sectoren in het datawarehouse 2.0. gaan verder dan het ODS.
In de ‘interactive’ sector vindt de opslag plaats van de actuele gegevens uit de verschillende applicaties, met snelle responstijden en snelle beschikbaarheid. Er is weinig integratie van gegevens, omdat dit juist snelle respons en beschikbaarheid moeilijker maakt. De ‘interactive’ sector fungeert zoals de databases functioneren die aan een procesapplicatie zijn gekoppeld. De gegevens in deze sector zijn niet ouder dan een maand. De ‘integrative’ sector integreert de gegevens en structureert ze in gedetailleerde onderwerpen. Integratie betekent het verwijderen van ‘dubbele’ gegevens, zodat ieder object slechts eenmaal aanwezig is. In deze sector zijn ook alle metadata (transactie-, technische en organisatie-metadata) in een metadatarepository beschikbaar. De ‘near-line’ en de ‘archival’ sectoren bevatten dezelfde gegevenssoorten als de ‘integrative’ sector, alleen zijn ze ouder. De gegevens blijven maximaal twee tot drie jaar in de ‘integrative’ sector, daarna gaan ze naar de ‘near-line’ sector, waar ze tot maximaal tien jaar blijven. In de ‘archival’ sector blijven de gegevens tot in eeuwigheid. De belangrijkste factor die bepaalt in welke sector de gegevens worden opgenomen is de waarschijnlijkheid van noodzakelijke beschikbaarheid en de benodigde snelheid daarvan. Hoe ouder de gegevens zijn, hoe lager de kans op noodzakelijke beschikbaarheid en hoe minder belangrijk snelle toegang is.
Dat is het concept van het datawarehouse 2.0.
Voor toegang is de onderwerpsgerichte benadering essentieel. ‘Onderwerpgericht’ slaat op het gebruik van clusters, waarin gegevens zijn ondergebracht die bij een bepaald onderwerp horen. Zo staat bijvoorbeeld alles wat een persoon of klant beschrijft bij elkaar. De gebruiker kiest een bepaald onderwerp en vindt daaromheen alle informatie die van belang is, inclusief de metadata. Een sterke gebruikersparticipatie is nodig om te bepalen welke informatie uiteindelijk in het datawarehouse komt. De resultaten kunnen significant anders zijn indien men uitgaat van voorhanden zijnde gegevens (bijvoorbeeld klanten uit het verkoopsysteem) of van de benodigde gegevens (bijvoorbeeld het huishouden als laag boven de klanten). Dit kan aanleiding zijn om het datawarehouse niet enkel met gegevens uit de eigen procesapplicaties te vullen maar ook externe databestanden op te nemen.
Hoe ziet de werkwijze er nu (gesimplificeerd) uit ? Gegevens vanuit de ‘interactive’ sector (dus uit de applicaties) worden aan de ‘integrative’ sector aangeboden. Door middel van het integreren en transformeren van de gegevens vanuit de diverse (in het ergste geval) sterk van elkaar afwijkende applicaties ontstaat een nieuwe ordening, op basis van onderwerp, waarbij ‘dubbelingen’ zijn verwijderd. Aan alle gegevens worden metadata toegevoegd die de transacties vermelden waarin de gegevens een rol hebben gespeeld, in welke vorm en versie dat is gebeurd en met welke applicatie ze zijn gegenereerd. De gegevens kunnen vervolgens door middel van (ingewikkelde) queries benaderd worden. Buiten de ‘interactive’ sector bestaat er geen koppeling meer tussen de applicatie en de gegevens die daarin zijn gegenereerd. De toegang tot die gegevens wordt toevertrouwd aan het datawarehouse.
Wat betekent dit alles voor het informatiebeheer ? Heel wat, tenminste als bij de inrichting van het datawarehouse authenticiteit en historiciteit van gegevens een rol spelen. En dit laatste is een vereiste bij het beheer van de archiefgegevens van een organisatie. Als deze aspecten een rol spelen dan dient in de metagegevens te worden vastgelegd in welke transactie, in welke vorm, bij welk proces, op welk moment, in welke versie, door welke bewerker, in welke records (en ga zo door) de gegevens zijn gegenereerd, bewerkt, geraadpleegd, vastgelegd, gemuteerd enzovoorts. Het moet mogelijk zijn, ondanks andere ordeningsstructuur en ondanks integratie om te bepalen in welke transacties en processen de gegevens werden gebruikt. Het moet tevens mogelijk zijn om te bepalen of de gegevens op een rechtmatige wijze zijn gebruikt en afgehandeld in de transacties waarin ze een rol speelden.
Om dit te realiseren dient de metadatastructuur goed te worden ingericht. Het moet, kortom, mogelijk zijn om de gegevens (ongeacht welke vorm deze gegevens hebben) te presenteren zoals ze waren op het moment dat ze in een specifieke transactie waren, vergezeld van alle metadata die het mogelijk maken de context van de gegevens te bepalen, zowel qua procesomgeving, als qua techniek, als qua het continue beheer ervan. Slechts dan is het mogelijk om bewijs te ontlenen aan de opgeslagen gegevens en de daaraan toegekende metadata. Het betekent ook dat bewaartermijnen (of deftiger: ‘retention schedules’) zullen moeten worden teogepast. Dat impliceert dan ook dat gegevens na het verloop van die termijn zullen moeten worden vernietigd. Dat kan problematisch zijn, want vernietiging gaat in tegen een van de uitgangspunten van een datawarehouse.
Als dat allemaal wordt ingevuld kan een datawarehouse 2.0. fungeren als een digitaal archief. Slechts in dat geval kan volledig vertrouwd worden op de gegevens zoals zij in het datawarehouse zijn opgenomen. Slechts dan kan een datawarehouse 2.0. als een ‘locus credibilis’ fungeren, een vertrouwde plaats, waarop bewijs en verantwoording kunnen worden gebaseerd. Op deze wijze gebruikt (dus: rekening houdend met de archiveringsfunctie van gegevens) kan een datawarehouse-infrastructuur voordelen hebben:
- 1. minder of geen interfaces;
- 2. eenvoudiger ontwerp van operationele applicaties;
- 3. grotere flexibiliteit;
- 4. grotere veiligheid.
Doen we dat niet (en in de eerste generatie van datawarehouses gebeurde dat niet!) dan creëren we een groot infrastructureel probleem, omdat een digitaal archief immers een noodzakelijkheid is.
Mijn grote vrees is dat in de meeste praktijksituaties geen sprake is van een datawarehouse 2.0., dat geen sprake is van een digitaal archief en dat veelal vertrouwd wordt op het toeval. Het is niet voor niets:
- 1. dat zoveel gegevens niet meer vindbaar zijn
- 2. dat gegevens vernietigd zijn zonder rekening te houden met wet- en regelgeving
- 3. dat bewaard wordt, terwijl dat helemaal niet nodig is
- 4. dat gegevens in talloze vormen ongestructureerd en ongecontroleerd opgeslagen worden in een veelvoud aan databases,
- 5. dat gegevens in niet duurzame formaten worden opgeslagen, zodat de integriteit en authenticiteit twijfelachtig is, en
- 6. dat metadata over het algemeen een genegeerd onderwerp zijn.
Is het vreemd dat we zo’n problemen hebben met de bewijskracht van digitale gegevens ?
April-juli 2007