27 augustus 2006
De CIA en wetenschappers overal ter wereld hebben zich jarenlang het hoofd gebroken over het 'cocktail party problem'. Hoe kan een geluid, een stem, onderscheiden worden uit een groep andere opgenomen geluiden, zoals een groep pratende mensen op een 'cocktail party'. Twee onderzoekers van de University of Missouri-Columbia hebben een wiskundige oplossing voor dit probleem gevonden. Dat is een doorbraak, al is een praktische toepassing ervan nog ver weg. 'Theoretically, our solution says you should be able to pick up voices on a squeaky old microphone and then separate them all out so that you can hear what each person is saying in his or her own voice', zegt Peter Casazza, hoogleraar wiskunde aan het College of Arts and Science van de Universiteit. 'This is a very old problem, and we have the first mathematical solution to it'.
Casazza en Dan Edidin, eveneens een hoogleraar wiskunde aan Missouri-Columbia, werkten bij dit onderzoek samen met Radu Balan van Siemens Corporate Research. Hun oplossing laat zien dat het mogelijk is stemmen van elkaar te scheiden zonder de stemkarakteristieken te verliezen. Onderzoekers hebben eerder al een oplossing gevonden om stemmen te scheiden en te reconstrueren, maar zij waren niet in staat de stemkarakteristieken hoorbaar te maken. 'Our solution is called 'signal reconstruction without noisy phase'', zegt Edidin. 'In speech recognition technology, a 'signal' could be a recording of 25 people in a room talking at the same time. Our solution shows that we can pull out each voice individually, not just with the words, but with the voice characteristics of each individual. We showed that this 'cocktail party problem' is mathematically solvable'.De onderzoekers hebben nog geen computerprogramma beschikbaar die de taak automatisch uitvoert, maar ze zijn bezig een manier te bedenken om juist dat te kunnen ontwikkelen. Op dit moment wordt hun oplossing door een computer gerealiseerd, maar kan het proces niet eenvoudig worden gedistribueerd. 'The computer we use is doing the work without an algorithmic program. It uses a system called a neural net, which is designed for the computer to teach itself. Basically, it works on trial and error', zegt Casazza. 'This isn't consistent and cannot be duplicated easily. We need to find a way to design an implementable algorithm that could do this consistently and quickly'. Hij voegde er aan toe dat er al voldoende programma's zijn die stemmen kunnen scheiden en reconstrueren, maar dat deze nog niet erg betrouwbaar zijn.