Szeged, 2003 december 10-11 313
E g y ú j sp a m szű rő m ó d sz er
Sass B álint
MTA Nyelvtudományi Intézet, 1068 Budapest, Benczúr u. 33.
j okerOnytud.hu
K ulcsszav ak spamszűrés, szövegosztályozás, naiv bayesi osztályozó
A kéretlen levelek (spamek) jelensége m á ra az internet egyik legégetőbb prob
lém ájává vált. A spameUenes küzdelem egyik fo rm ája a szűrés, m elynek során a beérkező leveleket két csoportra osztjuk: tarta lm u k alapján spam nek vagy ren
des levélnek jelöljük m eg őket. A spam szűrést így tekinthetjük szövegosztályozási problém ának. B evált szövegosztályozási m ódszer az ún. naiv bayesi osztályozó (NBC): az egyes kategóriákba sorolt példák (tanulókorpusz) alap já n felépített nyelvi m odell segítségével állapítjuk meg, hogy a d o tt dokum entum m elyik kate
góriába tarto zik . A nyelvi m odell i tt az egyes kategóriákhoz tarto z ó szógyakori
sági listákat jelenti.
NBC képezi az a la p já t Paul Graham 2002-ben publikált spam szűrő eljárá
sának [2]. E nnek lényegi többlete, hogy figyelembe veszi a spam szűrés aszim
m etrikusságát: egy spam átengedése sokkal kisebb baj, m int egy rendes levél elvesztése.
A m ódszer előnyei: (1) nagyon jó szűrési teljesítm ényt biztosít, (2) a szűrő felépítése spam és rendes levelekből álló tanulókorpusz alap já n au to m atik u s, (3) időről időre ú jra b e ta n íth a tó , így adaptálódik, (4) a tanulókorpusz m egadásával m indenki m ag a definiálhatja, hogy m it t a r t spamnek.
Im plem entáltam az algoritm ust és az elm últ h a t hónapban teszteltem a s a já t beérkező leveleimen. A pontosság 98.6%, a lefedettség 94.1% volt.
L átjuk, hogy jelen esetben a nyelvi feldolgozás mindössze az em ailek tokeni- zálását és a szóalakok gyakorisági listáinak elkészítését jelen tette. P róbálkoztak lem m atizálással vagy a nagyon gyakori szavak elhagyásával, de ez nem h ozott lényeges teljesítm ényjavulást [1]. Úgy tűnik, hogy egy efféle viszonylag egyszerű szövegosztályozási feladat m egoldásában a nyelvi feldolgozás szem pontjából mi- nim alista hozzáállás célravezető. A k ap o tt algoritm us nyelvfüggetlen, azaz b á r
milyen nyelvű em ailek szűrésére alkalmas.
Hivatkozások
1. Androutsopoulos, I. et al.: An Evaluation of Naïve Bayesian Anti-Spam Filtering.
In proceedings of the 11th European Conference on Machine Learning. Workshop on Machine Learning in the New Information Age. (2000) 9-17
http://arxiv.org/PS_cache/es/pdf/0006/0006013.pdf
2. Graham, P.: A Plan for Spam. (2002)
http://www.paulgraham.com/spam.htnl