12 februari 2006
De manuscripten van George Washington zijn vandaag de dag online te doorzoeken op termen zoals ‘revolution’, maar alleen dankzij de inzet van vele paleografen die de handgeschreven documenten in digitale vorm hebben getranscribeerd. Waarschijnlijk kunnen binnenkort vele andere waardevolle manuscripten en zeldzame historische documenten (zoals het Book of Kells, Karolingische oorkonden of Beda Venerabilis‘ werk) aan het publiek ter beschrikking worden gesteld voor online onderzoek, en met veel minder inzet van paleografische deskundigheid, als een onderzoeksproject, gefinancieerd door Google en uitgevoerd door drie universiteiten, de resultaten levert die worden verwacht. Het project, aangekondigd door de Dublin City University (DCU), startte als een toevalstreffer. Hoogleraar Alan Smeaton, van het Adaptive Information Cluster, en Dr. Noel O’Connor werkten al lange tijd aan een ‘video analysis’-technologie die objecten kan herkennen in video’s. Zijn technologie kan een object herkennen, zoals een auto of een vliegtuig, in een videoframe, deze objecten isoleren, om ze vervolgens te vergelijken met een beelden-database om ze te identificeren of doorzoekbaar te maken. Smeaton en zijn onderzoeksteam besloten op basis van een ingeving te bezien of woorden ook als object konden worden beschouwd, en ze probeerden het uit op de manuscripten van George Washington, die als 304.000 digitale images toegankelijk zijn via de website van de Library of Congress. Volgens Smeaton kon zijn technologie woorden perfect herkennen.
De manuscripten van Washington waren een ideaal object, omdat het mogelijk was ze te vergelijken met een transcriptie. Het onderzoeksteam kon de resultaten van het technologisch onderzoek vergelijken met de resultaten daarvan. ‘With handwriting, which is at present not searchable, we are getting very good detection using the shape of a word even though the writer will always alter the way he or she writes the same word each time. We’ve applied the approach to hundreds of pages of George Washington’s diaries and memoirs, getting very good results. For example, you can select the word ‘battle’ and find all the references to that word in Washington’s writings’. ‘This will make historical manuscripts searchable for scholars and others in a way that has never been possible before’, zo stelt Smeaton. ‘Libraries around the world are in the process of digitising their rare and historical manuscripts. So in the future, using this technology, Google search engines could make these manuscripts available and searchable worldwide’. Smeaton sprak met vertegenwoordigers van Google in Ierland over zijn ‘videomatching’-technologie en het succes ervan op de manuscripten van Washington. Niet verwonderlijk, ‘They were interested so we did some more experiments and showed them the results and they decided to fund a project’. Over het totale bedrag dat Google investeert in het onderzoek bestaat geen duidelijkheid. Maar volgens Smeaton is het bedrag voldoende om een jaar lang drie tot vier onderzoekers aan het werk te zetten bij DCU, maar ook aan de Universiteiten van Buffalo en Massachusetts-Amherst. Het doel van het project is aan te tonen dat de technologie werkt. Google kan vervolgens van de techniek gebruik maken, maar de onderzoekers hoeven de resultaten niet alleen aan Google aan te bieden. Ze mogen hun resultaten publiceren en aan anderen ter beschikking stellen. Het blijkt overigens dat de technologie makkelijker werkt met veel oudere documenten dan die van Washington. DCU is ook betrokken bij het ‘Irish Script on Screen‘-project met het Dublin Institute of Advanced Studies dat manuscripten digitaliseert, waarvan de oudste dateren uit de twaalfde eeuw, geschreven in het Iers. Voor deze manuscripten is het veel eenvoudiger om een zoekmechanisme voor te ontwikkelen dan voor Washington’s manuscripten, zo zegt Smeaton. ‘The monks were laboriously toiling over this and using great consistency across entire manuscripts’, zo stelt hij. ‘George Washington wouldn’t be’. Google is uiteraard zeer genteresseerd in het project, gezien haar Google Book Search-project, waarbij de nadruk ligt op het scannen van boeken van grote bibliotheken met het doel om de inhoud doorzoekbaar te maken. De techniek van Smeaton richt zich op historische documenten, die tot voor kort nauwelijks toegankelijk te maken waren met technische middelen. Als het project slaagt, zal dat de paleografie tot een nog groter specialisme maken dan wat het nu is. Het einde van de paleografie als een algemene historische vaardigheid is dan dicht nabij.