• Nem Talált Eredményt

Egy új spamszűrő módszer

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Egy új spamszűrő módszer"

Copied!
1
0
0

Teljes szövegt

(1)

Szeged, 2003 december 10-11 313

E g y ú j sp a m szű rő m ó d sz er

Sass B álint

MTA Nyelvtudományi Intézet, 1068 Budapest, Benczúr u. 33.

j okerOnytud.hu

K ulcsszav ak spamszűrés, szövegosztályozás, naiv bayesi osztályozó

A kéretlen levelek (spamek) jelensége m á ra az internet egyik legégetőbb prob­

lém ájává vált. A spameUenes küzdelem egyik fo rm ája a szűrés, m elynek során a beérkező leveleket két csoportra osztjuk: tarta lm u k alapján spam nek vagy ren­

des levélnek jelöljük m eg őket. A spam szűrést így tekinthetjük szövegosztályozási problém ának. B evált szövegosztályozási m ódszer az ún. naiv bayesi osztályozó (NBC): az egyes kategóriákba sorolt példák (tanulókorpusz) alap já n felépített nyelvi m odell segítségével állapítjuk meg, hogy a d o tt dokum entum m elyik kate­

góriába tarto zik . A nyelvi m odell i tt az egyes kategóriákhoz tarto z ó szógyakori­

sági listákat jelenti.

NBC képezi az a la p já t Paul Graham 2002-ben publikált spam szűrő eljárá­

sának [2]. E nnek lényegi többlete, hogy figyelembe veszi a spam szűrés aszim­

m etrikusságát: egy spam átengedése sokkal kisebb baj, m int egy rendes levél elvesztése.

A m ódszer előnyei: (1) nagyon jó szűrési teljesítm ényt biztosít, (2) a szűrő felépítése spam és rendes levelekből álló tanulókorpusz alap já n au to m atik u s, (3) időről időre ú jra b e ta n íth a tó , így adaptálódik, (4) a tanulókorpusz m egadásával m indenki m ag a definiálhatja, hogy m it t a r t spamnek.

Im plem entáltam az algoritm ust és az elm últ h a t hónapban teszteltem a s a já t beérkező leveleimen. A pontosság 98.6%, a lefedettség 94.1% volt.

L átjuk, hogy jelen esetben a nyelvi feldolgozás mindössze az em ailek tokeni- zálását és a szóalakok gyakorisági listáinak elkészítését jelen tette. P róbálkoztak lem m atizálással vagy a nagyon gyakori szavak elhagyásával, de ez nem h ozott lényeges teljesítm ényjavulást [1]. Úgy tűnik, hogy egy efféle viszonylag egyszerű szövegosztályozási feladat m egoldásában a nyelvi feldolgozás szem pontjából mi- nim alista hozzáállás célravezető. A k ap o tt algoritm us nyelvfüggetlen, azaz b á r­

milyen nyelvű em ailek szűrésére alkalmas.

Hivatkozások

1. Androutsopoulos, I. et al.: An Evaluation of Naïve Bayesian Anti-Spam Filtering.

In proceedings of the 11th European Conference on Machine Learning. Workshop on Machine Learning in the New Information Age. (2000) 9-17

http://arxiv.org/PS_cache/es/pdf/0006/0006013.pdf

2. Graham, P.: A Plan for Spam. (2002)

http://www.paulgraham.com/spam.htnl

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Ekkor azonban végtelen regresszushoz jutunk, hisz újból felmerül, hogy a második szubsztrátumot milyen önmagában vett sajátosság illeti meg, és ha újból

Nem minden metafizikus ért egyet azzal, hogy csak a szubsztrátum-elmélet (3.1 lecke) és a nyaláb-elmélet (3.2 lecke) által lehet számot adni a konkrét partikuláris

Hogyan érvel Duns Scotus az ellen, hogy a dolgok egyediségét azon anyag különbsége magyarázza, mely „felveszi” az univerzális

Ez az oszthatatlanság nem a természet oszthatatlanságának következménye, hanem annak, hogy a természet valami más – nevezetesen az individuális forma – által

Azzal, hogy azonosította a fizikai törekvés és a gondolkodás végső tárgyait, Arisztotelész elérkezett az első mozgatatlan mozgatóhoz, mint a fizikai mozgást

3.2 lecke: Aquinói Szent Tamás: A világ örökkévalóságáról 1: az isteni mindenhatóság filozófiai dilemmái.. 3.3 lecke: Aquinói Szent Tamás: A világ örökkévalóságáról

Míg ez a gyermekek számára egyfajta evidenciát jelent – hiszen ebbe a digitálisan fejlett világba születtek – addig a felnőttek számára sok esetben még mindig gondot okoz a

A Hispanisztika Tanszék megalakulását követően a Történelemtudományi Doktori Isko- lában Anderle Ádám vezetésével elindult a „A hispán világ története” alprogram,