22 mei 2007
Interesse in de eeuwenoude basisteksten van de ayurvedische geneeskunde ? Google Book Search brengt binnenkort die teksten doorzoekbaar thuis. Het bedrijf heeft namelijk een akkoord gesloten met de Universiteit van Mysore in India om 800.000 teksten te indexeren en te digitaliseren. 'Written in both papers and palm leaves, there are around 100,000 manuscripts in our library, some dating back to the eighth century', zo zegt de Vice Chancellor van de universiteit. 'The effort is to restore and preserve this cultural heritage for effective dissemination of knowledge'. De volgende cryptische opmerking dat de universiteit van plan is om 'to patent them before making them available on public domain' geeft veel te denken, maar echt duidelijk is het niet. Google heeft de afgelopen tijd redelijk agressief haar Book Search programma uitgebreid met vooral niet-Engels bibliotheekmateriaal. Met de Universiteit van Lausanne kwam het bedrijf overeen een grote collectie van Franstalige werken te digitaliseren, en de Indiase overeenkomst voegt Sanskriet en Kannada aan het scala toe.
India is de afgelopen jaren uitzonderlijk belangrijk voor Google geworden. Het bedrijf opende een nieuw data center in Andhra Pradesh en begon onlangs met google News in Hindi. Wat nu echter interessant wordt is hoe Google's technologie opgewassen is tegen het handgeschreven Sanskriet, in sommige teksten zelfs van eeuwen her. Om zo'n bestand nuttig te maken voor de gebruikers dient Optical Character Recognition (OCR) te worden toegepast om de handgeschreven teksten naar doorzoekbare, geindexeerde teksten te vertalen. Dat is niet eenvoudig. Jon Stokes, een specialist in OCR, twijfelt. 'The hard part about doing a project like this lies not so much in the actual digitization of the page images, but in doing OCR on a handwritten script. OCR can work quite well on handwritten manuscript pages, if the handwriting is regular enough. Researchers doing this stuff with Greek manuscripts have gotten some good results, but again only on regular hands'. Google heeft open source tools als OCRopus ontwikkeld om deze problemen aan te pakken. Die tools zijn gebaseerd op Tesseract, de open source OCR engine van Google, het voegt een handschriftherkenner toe en 'novel high-performance layout analysis methods'. Het onderzoek naar OCR en handschriftherkenning gebeurt bij google met meer dan academische belangstelling. Hoe groter de digitaliseringsinspanningen worden, hoe belangrijker OCR wordt als de enige geschikte methode om handgeschreven teksten om te zetten naar doorzoekbare tekst, in ieder geval bij een dergelijke massala omvang van digitaliseringsprojecten. Maar de problemen gaan verder dan alleen de tekstherkenning: opslag en markup vormen eveneens een uitdaging. Stokes: 'The Text Encoding Initiative (TEI) was founded in 1987 with the aim of providing SGML-compliant, machine-readable texts for humanities scholars and social scientists. The organization's 'P3' text encoding guidelines have been in use since 1994 in a range of digital library and manuscript encoding projects, but marking up documents into a TEI-compliant format is a challenge'. Als Google OCRopus gebruikt voor de herkenning van de handschriften, dan zal de OCR engine waarschijnlijk tekst genereren die als HTML is gecodeerd. 'HTML is fine if you're making the texts directly available online, but the Holy Grail is really to do automated capture of handwritten texts into some TEI-compliant flavor of SGML. Once the text is marked up with TEI tags, you can output to HTML or any other format from that. You can also let scholars come behind the OCR engine and do things to make the marked-up version more useful, like tagging proper names, changes in hand or ink color, supralinear and marginal corrections, and so on'. Zover is het dus zeker bij het Google project waarschijnlijk nog niet, zegt Stokes, 'hand-coding of handwriting remains the only solution'.