Het is bijna zes decennia geleden dat Warren Weaver, een pionier im automatische vertalingen, suggereerde om technieken voor het breken van geheime codes toe te passen bij de ontcijfering en interpretatie van vreemde talen. In een vaak geciteerde brief uit 1947 aan de wiskundige Norbert Wiener schreef hij: ‘One naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian, I say: ‘This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode’’.
Dit inzicht leidde tot het ontstaan van statistisch onderbouwde taalprogramma’s zoals Google Translate en, niet zo vreemd, tot de ontwikkeling van nieuwe tools voor het kraken van geheimcodes, teruggaande tot in de middeleeuwen.
Een team van Zweedse en Amerikaanse linguisten heeft nu deze statistisch-gebaseerde vertaaltechnieken toegepast op een van de moeilijkst te ontcijferen codes: de Copiale Cipher, een handgeschreven manuscript van 105 pagina’s en 75.000 tekens, dat dateert (waarschijnlijk) uit het eind van de 18de eeuw. Ze hebben hun werk gepresenteerd op een congres van de Association for Computational Linguistics in Portland.
Het mooi gebonden manuscript telt 75.000 tekens in een fantastische mix van mysterieuze symbolen en gewone letters. De naam komt van een van de niet gecodeerde inscripties in het manuscript. Het werd gevonden in een academisch archief in het oude Oost-Duitsland.
Kevin Knight, een computerwetenschapper van het Information Sciences Institute van de University of Southern California, werkte samen met Beata Megyesi en Christiane Schaefer van Uppsala University in Zweden om de codex te ontcijferen. Deze blijken een gedetailleerde beschrijving te bevatten van een ritueel van een geheim genootschap, dat blijkbaar gefascineerd was voor oogchirurgie en ophtalmologie.
‘It began as a weekend project this year’, zo zei Knight. ‘I don’t have much experience in cryptography. My background is primarily in computational linguistics and machine translation’.
Er bestond (uiteraard) onduidelijkheid over de oorspronkelijke taal, dus er werden verschillende verkeerde richtingen uitgeprobeerd. In eerste dachten ze dat de letter de boodschap bevatten en niet de symbolen. Toen die aanpak mislukte, zo stelt Knight, ‘we figured that the code was what cryptographers call a homophonic cipher — a substitution code that does not have a straightforward correspondence between the original and encoded information’. De code bleek via homofone substitutie omgezet te zijn, waarbij een alfabetletter in verschillende karakters kan worden omgezet, waardoor het moeilijk is de klare tekst via analyse van de frequentieverdeling te ontrafelen. Ook werden de onderzoekers aanvankelijk op een dwaalspoor gezet door de Latijnse letters, waarvan ze dachten dat het zogenoemde nulls waren, die verder geen betekenis hadden. De wetenschappers wisten uiteindelijk de ingang te vinden door ervan uit te gaan dat de oorspronkelijke taal Duits was en de tekens met een circumflex voor dezelfde letter stonden. De Latijnse karakters bleken voor spaties te staan.Ze gebruikten vertaaltechnieken (zoals woordfrequentie) om te interpreteren wat een symbool in het Duits zou kunnen zijn.
‘It turned out that we can apply a lot those techniques to code breaking’, zo zegt Knight.
Het werk wordt geprezen door andere experts. ‘Cracking the Copiale Cipher was a neat bit of work by Kevin Knight and his collaborators’, zegt Nick Pelling, aeen Britse software-ontwerper en beveiligingsspecialist, die de cryptografie blog Cipher Mysteries bijhoudt.
Hoewel deze ontcijfering een succes mag worden genoemd, wordt Knight wel degelijk gefrustreerd door andere, nog steeds ontcijferbare codes. ‘There are these books and ancient languages of real historical value that contain historical information that we just can’t get out yet, and that’s of interest to a lot of people’, zo zegt hij in het onderstaande interview over het Copiale project.
De ontcijfering is van belang voor historici die de verspreiding van politieke ideeën proberen te begrijpen. ‘Secret societies were all the rage in the 18th century’, zo zegt Knight, ‘and they had an influence on both the American and French Revolutions’. Hij deelde de ontcijferde Copiale tekst met Andreas Onnerfors, een historicus van de Univeristeit van Lund in Zweden en een specialist op het vlak van geheime genootschappen. ‘When he saw the book and the decoded version, he was very excited about it. He found a political commentary at the end that talked about the natural rights of man. That was pretty interesting and early’.
De uitdaging is en blijft het Voynich manuscript. Het telt ongeveer 240 rijk geïllustreerde perkamenten bladen en dateert uit het begin van de 14de eeuw. Knight publiceerde dit jaar een gedetailleerde analyse van dit manuscript, waaruit blijkt dat het patronen bevat die lijken op de structuur van natuurlijke taal. Maar een ontcijfering is er nog lang niet. ‘It’s been called the most mysterious manuscript in the world’, zo stelt Knight. ‘It’s super full of patterns, and so for somebody to have created something like that would have been a lot of work. So I feel that it’s probably a code’.
En zo schuift moderne informatietechnologie aan bij de historicus. Naast de bestaande hulpwetenschappen, neemt ook steeds meer de IT een belangrijke plaats in bij het ontcijferen van oude documenten.