20 januari 2010
Google stelt dat het de manier verbeterd heeft waarop haar zoekmachine synoniemen begrijpt. Semantisch zoeken of kunstmatige intelligentie: het begrijpen van synoniemen is iets dat nieuwe zoekmachines, zoals Haika, Yebol en Microsoft's Powerset (de basis van Bing) graag willen ontwikkelen. Of, zoals Clint Boulton zegt, 'if a user searches for information about how to develop photographs using coffee grinds as a developing agent, a search engine needs to understand that words such as photos and pictures could also be relevant'. Op 19 januari liet Google weten dat het de manier waarop de Google-zoekmachine met synoniemen omgaat verbeterd heeft en dat haar pogingen om zoekdiensten te laten denken als mensen een stap dichterbij gekomen zijn. Zoekmachines moeten onderscheid kunnen aanbrengen tussen woorden met dezelfde betekenis. Google's engineers hebben meer dan vijf jaar onderzoek gedaan naar het 'synonyms system', waarmee het 'analyzes synonyms' impact and quality', zo schreef Steven Baker in een blog. 'Our systems analyze petabytes of Web documents and historical search data to understand what words can mean in different contexts'. En het bedrijf ontdekte dat 'synonyms affect 70 percent of user searches across the more than 100 languages Google supports', zo stelt Baker.
'Enabling computers to understand language remains one of the hardest problems in artificial intelligence', zo gaat hij verder. 'The goal of a search engine is to return the best results for your search, and understanding language is crucial to returning the best results. A key part of this is our system for understanding synonyms'. Een goed voorbeeld van deze uitdaging in kunstmatige intelligentie 'would be helping Google's search engine distinguish between the words 'pictures' and 'photos', which often mean the same thing. Google must understand that even if a page says 'photos' and not 'pictures,' it's still relevant to the search', zo schrijft Baker. Google zet synoniemen nu in vet in de lijst met zoekresultaten 'to help search users understand why that result is shown, even if it doesn't contain the original search term'. Het belang ervan wordt vooral duidelijk in die zoekopdrachten die wijzen naar potentieel veel complexere synoniemen, zoals 'GM'. Zie het voorbeeld hier. Baker legt uit: 'Most people know the most prominent meaning: General Motors. For the search [gm cars], you can see that Google bolds the phrase 'General Motors' in the search results. This is an indication that for that search we thought 'General Motors' meant the same thing as 'GM'. … GM can mean George Mason in [gm university], gamemaster in [gm screen star wars], Gangadhar Meher in [gm college], general manager in [nba gm] and even gunners mate in [navy gm]'. De vraag is hoe nauwkeurig Google is in de behandeling van synoniemen. 'For every 50 queries where synonyms significantly improved the search results, [Google] had only one truly bad synonym'. Aldus Baker. Gebruikers die tegen 'slechte' synoniemen aanlopen moeten een paar dingen weten. Kunstmatige intelligentie, zoals die achter de synoniemenfunctie zit, is niet perfect. Daarnaast zal Google geen handmatige wijzigingen aanbrengen omdat het de zoekalgoritmen wil erbeteren. Baker nodigt gebruikers uit om hun vragen te stellen op het Web search help center forum. Matt Cutts, een zoekkwaliteit-engineer van Google, riep zijn bedrijf op 'to provide more transparency into its search quality efforts'. En hij daagde concurrenten, zoals Bing, uit met: 'The truth is that Google does a lot more sophisticated stuff than most people realize. I'd say that Google does more with 'semantics' and both document and query understanding than almost any other search engine'. Tja, en daar kunnen die rivalen het dan mee doen….