Egy új spamszűrő módszer

(1)

Szeged, 2003 december 10-11 313

E g y ú j sp a m szű rő m ó d sz er

Sass B álint

MTA Nyelvtudományi Intézet, 1068 Budapest, Benczúr u. 33.

j okerOnytud.hu

K ulcsszav ak spamszűrés, szövegosztályozás, naiv bayesi osztályozó

A kéretlen levelek (spamek) jelensége m á ra az internet egyik legégetőbb prob

lém ájává vált. A spameUenes küzdelem egyik fo rm ája a szűrés, m elynek során a beérkező leveleket két csoportra osztjuk: tarta lm u k alapján spam nek vagy ren

des levélnek jelöljük m eg őket. A spam szűrést így tekinthetjük szövegosztályozási problém ának. B evált szövegosztályozási m ódszer az ún. naiv bayesi osztályozó (NBC): az egyes kategóriákba sorolt példák (tanulókorpusz) alap já n felépített nyelvi m odell segítségével állapítjuk meg, hogy a d o tt dokum entum m elyik kate

góriába tarto zik . A nyelvi m odell i tt az egyes kategóriákhoz tarto z ó szógyakori

sági listákat jelenti.

NBC képezi az a la p já t Paul Graham 2002-ben publikált spam szűrő eljárá

sának [2]. E nnek lényegi többlete, hogy figyelembe veszi a spam szűrés aszim

m etrikusságát: egy spam átengedése sokkal kisebb baj, m int egy rendes levél elvesztése.

A m ódszer előnyei: (1) nagyon jó szűrési teljesítm ényt biztosít, (2) a szűrő felépítése spam és rendes levelekből álló tanulókorpusz alap já n au to m atik u s, (3) időről időre ú jra b e ta n íth a tó , így adaptálódik, (4) a tanulókorpusz m egadásával m indenki m ag a definiálhatja, hogy m it t a r t spamnek.

Im plem entáltam az algoritm ust és az elm últ h a t hónapban teszteltem a s a já t beérkező leveleimen. A pontosság 98.6%, a lefedettség 94.1% volt.

L átjuk, hogy jelen esetben a nyelvi feldolgozás mindössze az em ailek tokeni- zálását és a szóalakok gyakorisági listáinak elkészítését jelen tette. P róbálkoztak lem m atizálással vagy a nagyon gyakori szavak elhagyásával, de ez nem h ozott lényeges teljesítm ényjavulást [1]. Úgy tűnik, hogy egy efféle viszonylag egyszerű szövegosztályozási feladat m egoldásában a nyelvi feldolgozás szem pontjából mi- nim alista hozzáállás célravezető. A k ap o tt algoritm us nyelvfüggetlen, azaz b á r

milyen nyelvű em ailek szűrésére alkalmas.

Hivatkozások

1. Androutsopoulos, I. et al.: An Evaluation of Naïve Bayesian Anti-Spam Filtering.

In proceedings of the 11th European Conference on Machine Learning. Workshop on Machine Learning in the New Information Age. (2000) 9-17

http://arxiv.org/PS_cache/es/pdf/0006/0006013.pdf

2. Graham, P.: A Plan for Spam. (2002)

http://www.paulgraham.com/spam.htnl