28 juli 2009
Wetenschappers van het Georgia Institute of Technology hebben een techniek ontwikkeld om spam vroegtijdig te identificeren, nog voordat deze de mailserver bereikt. Dat bespaart op menskracht en benodigde mailserver- en opslagcapaciteit. Aan de basis van de nieuwe techniek stond een analyse van 25 miljoen e-mails die zijn verzameld door McAfees TrustedSource.org om trends in spam en malware op te sporen. De wetenschappers constateerden dat spamberichten bepaalde karakteristieken gemeen hebben waarmee ze zich al bij het eerste binnenkomende datapakket verraden. Eén van die kenmerken is, dat spam veelal afkomstig is van computers die slechts één poort open hebben staan: de e-mailpoort. Een voor legitieme doeleinden gebruikte PC heeft altijd meer dan een communicatiepoort open staan. Ook de afstand tussen zender en ontvanger is een bruikbare indicator: spam reist in het algemeen over grotere afstanden dan legitieme mail. Het Autonome Systeem-nummer dat aan de mail hangt, houdt ook een waarschuwing in. Elk onafhankelijk beheerd deelnetwerk op internet krijgt zo’n nummer. Spam blijkt in een groot deel van de gevallen met een handjevol AS-nummers getooid te zijn.
Deze indicatoren zijn door de wetenschappers gecombineerd in een detectiesysteem dat luistert naar de naam SNARE, voor Spatio-temporal Network-level Automatic Reputation Engine. SNARE identificeert 70 procent van de spam, waarbij slechts 0,3 procent ten onrechte als spam wordt gezien. Dat is volgens de onderzoekers vergelijkbaar met bestaande spamfilters. Grote voordeel van SNARE is echter, dat spam met SNARE al aan de poort geweigerd wordt. Het hoeft dus niet verwerkt en opgeslagen te worden, en ook niet bewaard volgens de wettelijke regels die bewaartermijnen stellen aan ontvangen mail. Bovendien kan de efficiëntie in het afvangen van spam vergroot worden door de resterende mail alsnog door een traditioneel spamfilter te laten controleren. 'Separating spam from legitimate e-mail, also known as ham, isn't easy. That's partly because of the sheer volume of messages that need to be processed and partly because of e-mail expectations: users want their e-mail to arrive minutes, if not seconds, after it was sent. Analyzing the content of every e-mail might be a reliable method for identifying spam, but it takes too long', zegt Nick Feamster, een assistant professor van Georgia Tech, die de leiding had bij het project. 'Letting spam flow into our in-boxes unfiltered isn't a sensible option, either'. Volgens een rapport van MessageLabs, was 90.4 percent van alle email in juni spam. 'If you're not concerned about spam, I would suggest you turn off your spam filter for about an hour and see what happens', zegt Sven Krassen, senior directeur Data-mining Research bij McAfee. Critici hebben bewondering voor het feit dat de wetenschappers spam met zo weinig informatie behoorlijk accuraat weten te identificeren. Maar ze verwachten dat spammers de identificatiemethode makkelijk weten te ontlopen, zodra ze inzicht hebben in de werking van het onderliggende algoritme. Het is nog onduidelijk of er een algemeen beschikbare versie van SNARE komt. Wel werken bij de ontwikkeling betrokken wetenschappers nu bij Yahoo aan verbetering van diens spamfilter. Ook Cisco zou interesse hebben getoond.