• Nem Talált Eredményt

1.1. A tud´asfelt´ar´as folyamata

N/A
N/A
Protected

Academic year: 2022

Ossza meg "1.1. A tud´asfelt´ar´as folyamata"

Copied!
240
0
0

Teljes szövegt

(1)

Bodon Ferenc 2006. m´arcius 7.

Copyright c2002-2005 Bodon Ferenc

Ezen dokumentum a Free Software Foundation ´altal kiadott GNU Free Do- cumentation license 1.2-es, vagy b´armely azt k¨ovet˝o verzi´oj´anak felt´etelei alapj´an m´asolhat´o, terjeszthet˝o ´es/vagy m´odos´ıthat´o. Nincs Nem V´altoztathat´o Szakasz, nincs C´ımlap-sz¨oveg, nincs H´atlap-sz¨oveg. A licenc magyar nyel˝u ford´ıt´asa a http ://hu.wikipedia.org/wiki/A GNU Szabad Dokument´aci´os Licenc sz¨ovege oldalon tal´alhat´o.

Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 (http://www.gnu.org/copyleft/fdl.html) or any later version published by the Free Software Foundation; with noInvariant Sections, noFront- Cover Texts, and noBack-Cover Texts. A copy of the license is included in the section entitled ”GNU Free Documentation License”.

(2)

K¨osz¨onetnyilv´an´ıt´as

Ez´uton szeretn´ek k¨osz¨onetet mondani R´onyai Lajosnak, a Budapesti M˝uszaki ´es Gaz- das´agtudom´anyi Egyetem tan´ar´anak az eg´esz munka sor´an ny´ujtott seg´ıts´eg´e´ert, hasznos ¨otletei´ert,

´utmutat´asai´ert, de legf˝ok´eppen az´ert, mert megismertetett az adatb´any´aszattal. K¨osz¨on¨omMoln´ar- S´aska G´abornak´esPint´er M´art´anak, az MTA-SZTAKI dolgoz´oinak val´osz´ın˝us´egsz´am´ıt´assal kap- csolatos tan´acsaikat.

K¨ul¨on k¨osz¨onet illetiCzibula Veronik´ata tanulm´any t¨obbsz¨ori, alapos ´atn´ez´es´e´ert ´es a felfede- zett hib´ak kijav´ıt´as´a´ert.Marx D´anielrengeteg inform´aci´oval l´atott el a LATEX, emacs, Xfig hat´ekony haszn´alat´at illet˝oen. K¨osz¨on¨om neki a f´aradoz´asait.

Friedl Kat´anak, ifjabb Bencz´ur Andr´asnak, Luk´acs Andr´asnak, Maricza Istv´annak ´es Be- reczki Tam´asnakk¨osz¨on¨om az ´ert´ekes ´eszrev´eteleit, megjegyz´eseit.

´Ert´ekes ´eszrev´eteleik ´es konstrukt´ıv javaslatai´ert k¨osz¨onet illeti a BME di´akjait, t¨obbek k¨oz¨ott (n´evsorrendben) Hajnacs Zolt´ant, Schlotter Ildik´ot ´es Varga D´anielt.

(3)

El˝osz´o . . . 8

1. Bevezet´es 10 1.1. A tud´asfelt´ar´as folyamata . . . 11

1.2. Szabv´anyok . . . 13

1.3. Adatb´any´aszati rendszer architekt´ur´aja . . . 13

1.4. Legjelent˝osebb adatb´any´aszati feladatok . . . 15

1.5. Sikeres alkalmaz´asok . . . 16

1.6. Az adatb´any´aszat felt´etelei . . . 17

2. Alapfogalmak, jel¨ol´esek 20 2.1. Halmazok, rel´aci´ok, f¨uggv´enyek, sorozatok . . . 20

2.2. Line´aris algebra . . . 21

2.3. Gr´afelm´elet . . . 22

2.4. Val´osz´ın˝us´egsz´am´ıt´as . . . 22

2.4.1. Hoeffding-korl´at . . . 23

2.4.2. Entr´opia . . . 23

2.5. Statisztika . . . 24

2.5.1. Hipot´ezisvizsg´alat . . . 24

2.5.2. AzF-pr´oba . . . . 24

2.5.3. Aχ2-pr´oba . . . 25

2.5.4. F¨uggetlens´egvizsg´alat . . . 25

2.6. Algoritmus-elm´elet . . . 26

2.7. Adatstrukt´ur´ak . . . 26

2.7.1. Sz´of´ak . . . 26

2.7.2. Piros-fekete f´ak . . . 29

2.7.3. Hash-t´abla . . . 30

3. El˝ofeldolgoz´as, hasonl´os´agi f¨uggv´enyek 31 3.1. El˝ofeldolgoz´as . . . 31

3.1.1. Hi´anyz´o ´ert´ekek kezel´ese . . . 31

3.1.2. Attrib´utum transzform´aci´ok . . . 32

3.1.3. Mintav´etelez´es . . . 32

3.2. Hasonl´os´agi m´ert´ekek . . . 33 2

(4)

3.2.1. Bin´aris attrib´utum . . . 34

3.2.2. Kateg´oria t´ıpus´u attrib´utum . . . 34

3.2.3. Sorrend t´ıpus´u attrib´utum . . . 35

3.2.4. Intervallum t´ıpus´u attrib´utum . . . 35

3.2.5. Vegyes attrib´utumok . . . 36

3.2.6. Speci´alis esetek . . . 36

3.2.7. Dimenzi´ocs¨okkent´es . . . 37

3.2.8. Szingul´aris felbont´as (Fogaras D´aniel) . . . 37

4. Gyakori mint´ak kinyer´ese 43 4.1. A gyakori minta defin´ıci´oja . . . 44

4.1.1. Hat´ekonys´agi k´erd´esek . . . 45

4.2. Tov´abbi feladatok . . . 46

4.2.1. Nem b˝ov´ıthet˝o ´es z´art mint´ak . . . 46

4.2.2. K´enyszerek kezel´ese . . . 47

4.2.3. T¨obbsz¨or¨os t´amogatotts´agi k¨usz¨ob . . . 48

4.2.4. Dinamikus gyakori mintakinyer´es . . . 48

4.3. Az algoritmusok jellemz˝oi . . . 49

4.4. Az APRIORI m´odszer . . . 49

4.4.1. Jel¨oltek el˝o´all´ıt´asa . . . 50

4.4.2. Z´art mint´ak kinyer´ese, az APRIORI-CLOSE algoritmus . . . 52

4.5. Sorozat t´ıpus´u bemenet . . . 52

4.5.1. APRIORI . . . 53

4.5.2. Zaki m´odszere . . . 54

4.5.3. Mintan¨ovel˝o algoritmusok . . . 56

4.5.4. K´etl´epcs˝os technik´ak . . . 58

4.5.5. A z´art mint´ak ”t¨or´ekenys´ege” . . . 61

4.5.6. Dinamikus gyakori mintab´any´aszat . . . 61

5. Gyakori elemhalmazok 64 5.1. A gyakori elemhalmaz fogalma . . . 64

5.2. Az APRIORI algoritmus . . . 67

5.2.1. Jel¨oltek el˝o´all´ıt´asa . . . 67

5.2.2. Jel¨oltek t´amogatotts´ag´anak meghat´aroz´asa . . . 67

5.2.3. A gyakori elemhalmazok t´arol´asa . . . 70

5.2.4. A bemenet t´arol´asa . . . 71

5.2.5. Utols´o f´azisok gyors´ıt´asa: APRIORI-TID ´es APRIORI-HYBRID algoritmusok 71 5.2.6. Fut´asi id˝o ´es mem´oriaig´eny . . . 72

5.2.7. K´etelem˝u jel¨oltek sz´am´anak cs¨okkent´ese: a DHP algoritmus . . . 75

5.3. Az ECLAT algoritmus . . . 77

5.4. Az FP-growth algoritmus . . . 78

5.4.1. Az FP-growth* algoritmus . . . 79

5.5. Tov´abbi h´ıres algoritmusok . . . 80

5.5.1. ADF-APRIORI algoritmus . . . 80

5.5.2. patricia . . . 81

5.5.3. kdci . . . 81

(5)

5.5.4. lcm . . . 81

5.5.5. Mintav´etelez˝o algoritmus elemz´ese . . . 81

5.6. Elemhalmazok Galois lez´arja . . . 82

5.6.1. A z´art elemhalmazok fogalma . . . 82

5.7. K´enyszerek kezel´ese . . . 84

5.7.1. ExAnte . . . 84

5.8. T¨obbsz¨or¨os t´amogatotts´agi k¨usz¨ob . . . 85

5.8.1. MSApriori algoritmus . . . 85

6. Gyakori sorozatok, bool formul´ak ´es epiz´odok 87 6.1. Gyakori sorozatok kinyer´ese . . . 87

6.1.1. A Gyakori Sorozat Fogalma . . . 88

6.1.2. APRIORI . . . 88

6.1.3. Elemhalmazokat tartalmaz´o gyakori sorozatok . . . 89

6.1.4. Sorozat t´ıpus´u minta ´altal´anos´ıt´asa . . . 93

6.2. Gyakori bool formul´ak . . . 93

6.3. Gyakori epiz´odok . . . 94

6.3.1. A t´amogatotts´ag defin´ıci´oja . . . 94

6.3.2. APRIORI . . . 95

7. Gyakori f´ak ´es fesz´ıtett r´eszgr´afok 98 7.1. Az izomorfia probl´em´aja . . . 98

7.2. A gyakori gr´af fogalma . . . 100

7.3. gyakori gy¨okeres f´ak . . . 100

7.3.1. TreeMinerH . . . 102

7.3.2. TreeMinerV . . . 103

7.4. Gyakori r´eszf´ak . . . 105

7.5. A gyakori fesz´ıtett r´eszgr´afok . . . 105

7.5.1. Az AcGM algoritmus . . . 105

7.6. A gyakori r´eszgr´afok keres´ese . . . 107

7.6.1. Az FSG algoritmus . . . 107

7.6.2. gSpan . . . 109

8. Asszoci´aci´os szab´alyok 112 8.1. Az asszoci´aci´os szab´aly fogalma . . . 112

8.2. Hierarchikus asszoci´aci´os szab´alyok . . . 113

8.3. Maxim´alis k¨ovetkezm´eny˝u asszoci´aci´os szab´aly . . . 115

8.3.1. Egzakt asszoci´aci´os szab´alyok b´azisa . . . 115

8.4. Az asszoci´aci´os szab´alyok hib´ai . . . 116

9. Funkcion´alis ´es k¨ozel´ıt˝o f¨ugg˝os´egek 124 9.1. Funkcion´alis f¨ugg˝os´eg . . . 125

9.2. K¨ozel´ıt˝o f¨ugg˝os´eg . . . 125

9.3. TANE Algoritmus . . . 126

(6)

10. Oszt´alyoz´as ´es el˝orejelz´es 132

10.1. Bevezet´es . . . 132

10.2. A klasszifik´aci´o teljes´ıtm´eny´enek m´er´es´er˝ol . . . 133

10.3. D¨ont´esi f´ak . . . 134

10.3.1. A d¨ont´esi fa el˝o´all´ıt´asa . . . 135

10.3.2. Az ID3 algoritmus . . . 136

10.3.3. Tov´abbfejleszt´esek . . . 136

10.3.4. D¨ont´esi f´ak ´abr´azol´asa . . . 137

10.3.5. Mesters´eges neur´alis h´al´ozatok . . . 137

10.3.6. Bayesi h´al´ozatok . . . 139

10.3.7. Egy´eb m´odszerek . . . 140

11. Klaszterez´es 142 11.1. Egy lehetetlens´eg-elm´elet . . . 143

11.2. Hasonl´os´ag m´ert´eke, adat´abr´azol´as . . . 145

11.3. A klaszterek jellemz˝oi . . . 146

11.4. A klaszterez´es ”j´os´aga” . . . 14711.4.1. Klasszikus m´ert´ekek . . . 147

11.4.2. Konduktancia alap´u m´ert´ek . . . 149

11.5. Klaszterez˝o algoritmusok t´ıpusai . . . 150

11.6. Particion´al´o elj´ar´asok . . . 152

11.6.1. Forgyk-k¨oz´ep algoritmusa . . . 152

11.6.2. Ak-medoid algoritmusok . . . 153

11.7. Hierarchikus elj´ar´asok . . . 154

11.7.1. Single-, Complete-, Avegare Linkage Elj´ar´asok . . . 154

11.7.2. Ward m´odszere . . . 155

11.7.3. A BIRCH algoritmus . . . 155

11.7.4. A CURE algoritmus . . . 156

11.7.5. A Chameleon algoritmus . . . 158

11.8. S˝ur˝us´eg-alap´u m´odszerek . . . 158

11.8.1. A DBSCAN algoritmus . . . 158

12. Sz¨ovegb´any´aszat (Tikk Domonkos) 160 12.1. Dokumentumok el˝ofeldolgoz´asa . . . 161

12.1.1. A dimenzi´osz´am cs¨okkent´ese . . . 163

12.1.2. Hat´ekonys´ag m´er´ese . . . 164

12.2. Oszt´alyoz´as . . . 165

12.2.1. Oszt´alyoz´as struktur´alatlan kateg´ori´ak rendszer´ebe . . . 165

12.2.2. Hierarchikus oszt´alyoz´as . . . 172

12.3. Dokumentumok csoportos´ıt´asa . . . 175

12.3.1. Sz¨ovegklaszterez´es jellemz˝o feladatai ´es probl´em´ai . . . 175

12.3.2. Reprezent´aci´o . . . 176

12.3.3. Hat´ekonys´ag m´er´ese . . . 176

12.3.4. Sz¨ovegklaszterez˝o elj´ar´asok . . . 177

12.3.5. Dokumentumgy˝ujtem´enyek . . . 179

12.4. Kivonatol´as . . . 179

(7)

12.4.1. Az ¨osszegz´esk´esz´ıt˝o elj´ar´asok feloszt´asa . . . 180

12.4.2. A kivonatol´as hat´ekonys´ag´anak m´er´ese . . . 181

12.4.3. Mondatkiv´alaszt´asn´al haszn´alt jellemz˝ok . . . 182

12.5. A legfontosabb kivonatol´o elj´ar´asok . . . 183

12.5.1. A klasszikus m´odszer . . . 183

12.5.2. TF-IDF alap´u m´odszer . . . 184

12.5.3. Csoportos´ıt´as alap´u m´odszerek . . . 184

12.5.4. Gr´afelm´eleti megk¨ozel´ıt´esek . . . 186

12.5.5. SVD haszn´alata a kivonatol´asban . . . 186

12.5.6. Esettanulm´any: b¨ong´esz´es t´amogat´asa kivonatol´assal k´ezi sz´am´ıt´og´epeken . 186 12.6. Egy´eb sz¨ovegb´any´aszati feladatok . . . 189

12.6.1. Inform´aci´okinyer´es . . . 189

12.6.2. T´emak¨ovet´es . . . 189

12.6.3. Fogalomt´ars´ıt´as . . . 190

12.6.4. Sz¨oveges inform´aci´ok vizualiz´al´asa . . . 190

12.6.5. K´erd´es-megv´alaszol´as . . . 190

12.7. Nyelvfeldolgoz´as ´es sz¨ovegb´any´aszat . . . 191

12.7.1. Sz¨ovegb´any´aszat magyarul . . . 192

12.8. Linkgy˝ujtem´eny . . . 192

12.8.1. Tesztkorpuszok . . . 192

12.8.2. Cikk- ´es linkgy˝ujtem´enyek . . . 192

12.8.3. Sz¨ovegb´any´aszati szoftverek . . . 193

12.8.4. N´eh´any magyar vonatkoz´as´u eredm´eny ´es projekt . . . 193

13. Webes adatb´any´aszat 195 13.1. Oldalak rangsorol´asa . . . 195

13.1.1. Az egyszer˝u Page Rank . . . 196

13.1.2. Az igazi Page Rank . . . 199

13.2. Webes keres´es . . . 199

13.2.1. Gy˝ujt˝olapok ´es Tekint´elyek – a HITS algoritmus . . . 199

13.2.2. A SALSA m´odszer (Jakabfy Tam´as) . . . 203

13.2.3. Gy˝ujt˝olapok, Tekint´elyek ´es v´eletlen s´et´ak (Jakabfy Tam´as) . . . 205

13.2.4. Automatikus forr´as el˝o´all´ıt´o - Gy˝ujt˝olapok ´es Tekint´elyek m´odos´ıt´asai . . . . 206

13.2.5. Gy˝ujt˝olapok ´es Tekint´elyek m´odszer´enek h´atr´anyai . . . 206

14. Adatb´any´aszat a gyakorlatban 208 14.1. Felhaszn´al´asi ter¨uletek . . . 208

14.1.1. Az ¨ugyf´el ´eletciklusa . . . 208

14.1.2. Kereskedelem . . . 209

14.1.3. P´enz¨ugy . . . 210

14.1.4. Biol´ogia ´es Orvostudom´any . . . 210

14.2. Az adatb´any´aszat b¨olcs˝oje: az elektronikus kereskedelem (e-commerce) . . . 212

14.3. Adatb´any´asz szoftverek . . . 213

14.3.1. Adatb´any´aszati rendszerek tulajdons´agai . . . 214

14.3.2. Esettanulm´anyok r¨oviden . . . 215

(8)

F¨uggel´ek 219 F¨uggel´ek A . . . 219

(9)

A 90-es ´evekben a t´arol´okapacit´asok m´eret´enek igen er˝oteljes n¨oveked´ese, valamint az ´arak nagym´ert´ek˝u cs¨okken´ese1miatt az elektronikus eszk¨oz¨ok ´es adatb´azisok a h´etk¨oznapi ´eletben is mind ink´abb elterjedtek. Az egyszer˝u ´es olcs´o t´arol´asi lehet˝os´egek a nyers, feldolgozatlan adatok t¨omeges m´eret˝u felhalmoz´as´at eredm´enyezt´ek, ezek azonban a k¨ozvetlen visszakeres´esen ´es ellen˝orz´esen k´ıv¨ul nem sok egy´eb haszonnal j´artak. A ritk´an l´atogatott adatokb´ol ”adat temet˝ok” (data tombs) alakul- tak ki [63], amelyek t´arol´asa haszon helyett k¨olts´eget jelentett. Ekkor m´eg nem ´alltak rendelkez´esre olyan eszk¨oz¨ok, amivel az adatokba ´agyazott ´ert´ekes inform´aci´ot ki tudtak nyerni. K¨ovetkez´esk´eppen a fontos d¨ont´esek a d¨ont´eshoz´ok meg´erz´esein alapultak, nem pedig az inform´aci´o-gazdag adatokon.

J´ol jellemzi ezt a helyzetet John Naisbitt h´ıres mond´asa, miszerint ”We are drowning in information, but starving for knowledge” (Megfulladunk az inform´aci´ot´ol, mik¨ozben tud´asra ´ehez¨unk).

Egyre t¨obb ter¨uleten mer¨ult fel az ig´eny, hogy az adathalmazokb´ol a hagyom´anyosn´al ´arnyaltabb szerkezet˝u inform´aci´okat nyerjenek ki. A hagyom´anyos adatb´azis-kezel˝o rendszerek – a k¨ozvetlen keres˝ok´erd´eseken k´ıv¨ul, illetve az alapvet˝o statisztikai funkci´okon t´ul (´atlag, sz´or´as, maxim´alis ´es mi- nim´alis ´ert´ekek meghat´aroz´asa) – komplexebb feladatokat egy´altal´an nem tudtak megoldani, vagy az eredm´eny kisz´am´ıt´asa elfogadhatatlanul hossz´u id˝obe telt. A sz¨uks´eg egy ´uj tudom´anyter¨uletet keltett

´eletre, az adatb´any´aszatot, amelynek c´elja: ”hasznos, l´atens inform´aci´o kinyer´ese az adatokb´ol”. Az adatb´any´aszati algoritmusokat imm´ar arra tervezt´ek, hogy k´epesek legyenek az ´arnyaltabb inform´aci´o kinyer´es´ere ak´ar ´ori´asi m´eret˝u adatb´azisok eset´en is.

Az adatb´any´aszat, mint ¨on´all´o tudom´anyter¨ulet l´etez´es´er˝ol az 1980-as ´evek v´eg´et˝ol besz´elhet¨unk.

Kezdetben a k¨ul¨onb¨oz˝o heurisztik´ak, a matematikailag nem elemzett algoritmusok domin´altak. A 90- es ´evekben megjelent cikkek t¨obbs´eg´et legfeljebb elhinni lehetett, de semmik´eppen sem k´etely n´elk¨ul meggy˝oz˝odni az egyes ´ır´asok helyt´all´os´ag´ar´ol. Az algoritmusok fut´asi idej´er˝ol ´es mem´oriaig´eny´er˝ol

´altal´aban felsz´ınes elemz´eseket ´es tesztel´esi eredm´enyeket olvashattunk. Az ig´enyes olvas´oban min- dig maradt egy-k´et k´erd´es, amire eml´ıt´es szintj´en sem tal´alt v´alaszt. Bizonyos k´aosz uralkodott, ami- ben l´atsz´olag mindenre volt megold´as, ´am ezek a megold´asok t¨obbnyire r´eszlegesek voltak, tele a legk¨ul¨onb¨oz˝obb hib´akkal.

A XXI. sz´azadba val´o bel´ep´essel a kutat´ok k¨or´eben egyre nagyobb n´epszer˝us´egnek kezdett

¨orvendeni az adatb´any´aszat. Ennek k´et oka van. Egyr´eszt a n¨ovekv˝o versenyhelyzet miatt a piaci

´elet szerepl˝oinek ´ori´asi az ig´enye az adatb´azisokban megb´uj´o hasznos inform´aci´okra. A n¨ovekv˝o ig´eny n¨ovekv˝o kutat´oi beruh´az´asokat induk´alt. M´asr´eszt, az adatb´any´aszat a maga neh´ezs´eg´evel, multi-diszciplin´aris volt´aval a kutatni, gondolkodni ´es ´ujszer˝u probl´em´akat megoldani v´agy´o ig´eny´et

1A t´arol´okapacit´as n¨oveked´ese m´eg Moore j´oslat´at is j´ocsk´an fel¨ulm´ulja. Az ut´obbi 15 ´ev alapj´an ugyanis a t´arol´okapacit´as 9 h´onaponk´ent dupl´az´odik meg [119]

8

(10)

t¨ok´eletesen kiel´eg´ıti.

Sorra sz¨ulettek meg a sz´ınvonalas munk´ak, elemz´esek, ¨osszehasonl´ıt´asok, mint tiszta ir´anyvonalak rajzol´odtak ki a k´aoszban. A megoldatlan, nyitott probl´em´akra m´eg mindig keress¨uk a v´alaszt, ´ıgy val´osz´ın˝uleg az adatb´any´aszat diadalmenete m´eg sok´aig t¨oretlen marad.

Ez a jegyzet a jelenlegi adatb´any´aszati probl´em´akr´ol ´es az azokat megold´o algoritmusokr´ol sz´ol.

A ter¨uletek ´attekint´ese mellett az algoritmusok m´elyebb szint˝u megismer´ese is a c´el. Az ´ır´as infor- matikus be´all´ıtotts´ag´u olvas´oknak k´esz¨ult. Felt´etelezz¨uk, hogy az olvas´o tiszt´aban van algoritmus- [87] ´es adatb´azis-elm´eleti alapokkal, tov´abb´a nem ismeretlen ter¨ulet sz´am´ara a val´osz´ın˝us´egsz´am´ıt´as [9, 50] ´es a line´aris algebra [121] sem.

A jegyzet c´elja az, hogy az adatb´any´aszati appar´atus olyan megismer´es´et ny´ujtsa, melynek seg´ıts´eg´evel az olvas´o sikerrel oldja meg az egyre t¨obb ter¨uleten felbukkan´o ´ujabb ´es ´ujabb adatb´any´aszati probl´em´akat. Algoritmikus adatb´any´aszatr´ol ´ırunk, ez´ert azon mesters´eges intelligen- cia ter¨ulet´ehez tartoz´o eszk¨oz¨ok (mesters´eges neur´alis h´al´ozatok, genetikus algoritmusok ´es fuzzy rendszerek), amelyekr˝ol azt tartj´ak, hogy az adatb´any´aszatban is haszn´alhat´ok, kev´es hangs´ulyt kap- nak.

A jegyzet legfrissebb v´altozata let¨olthet˝o a

http://www.cs.bme.hu/bodon/magyar/adatbanyaszat c´ımen tal´alhat´o oldalr´ol.

A jegyzet nem v´egleges! Folyamatosan b˝ov¨ul, v´altozik. Egyes r´eszek kisebb s´ulyt kapnak, m´asok viszont jobban r´eszletezettek. ¨Or¨ommel fogadok b´armilyen ´eszrev´etelt, javaslatot ak´ar helyes´ır´asi, stilisztikai vagy tipogr´afiai hib´ara vonatkoz´oan. Ezeket k´ern´em, hogy a

bodon@cs.bme.hu c´ımre k¨uldj´ek.

Az ´ır´as LATEX-ben k´esz¨ult, eleinte akile, k´es˝obbiekben azemacssz¨ovegszerkeszt˝o seg´ıts´eg´evel.

Egyes ´abr´akXfig-el, m´asok apst-nodecsomaggal lettek rajzolva. Az eg´esz munk´ahoz az UHU-linux oper´aci´os rendszer (http://www.uhulinux.hu) ny´ujtotta a stabil ´es biztons´agos h´atteret.

(11)

Bevezet´es

A sz´am´ıt´og´ep, korunk legdics˝obb tal´alm´anya, rohaml´eptekkel h´od´ıt teret mag´anak az ´elet minden ter¨ulet´en. Egy gener´aci´o alatt n´elk¨ul¨ozhetetlenn´e v´alt, amit sz¨uleink m´eg el sem tudtak k´epzelni, sz´amunkra m´ar elv´alaszthatatlann´a v´alt munk´ankt´ol ´es sz´orakoz´asunkt´ol egyar´ant.

Az Internet elterjed´es´evel m´eg intenz´ıvebben ´erz´ekelhet˝o a sz´am´ıt´og´ep t´erh´od´ıt´asa. A vil´agon az egyik legnagyobb probl´em´at, a t´avols´agot hidalta ´at. ¨Uzleti ´es mag´anc´el´u ´erintkez´esek v´altak lehet˝ov´e r¨ovidebb id˝o alatt ´es hat´ekonyabban, mint valaha. Adatok milli´oit kezelik ´es sz´all´ıtj´ak a sz´am´ıt´og´epes rendszerek. Az inform´aci´okon alapul´o d¨ont´eshozatal ideje ler¨ovid¨ult, hiszen a hozz´af´er´es k¨onnyebb´e

´es gyorsabb´a v´alt. Az ¨uzleti ´elet szerepl˝oinek ´elete is felgyorsult.

Ma a v´allalatok l´ete m´ulhat az inform´aci´ok gyors ´es pontos begy˝ujt´es´en, elemz´es´en, a rugalmas fejl˝od´esen, valamint az innov´aci´on. Egyre t¨obb fels˝o vezet˝o ismeri fel, hogy az Internet, az adatok elektronikus t´arol´asa a v´allalat szolg´alat´aba ´all´ıthat´o. Az adatok azonban ¨onmagukban nem haszno- sak, hanem a bel˝ol¨uk kinyerhet˝o, a v´allalat ig´enyeihez igazod´o, azt kiel´eg´ıt˝o inform´aci´okra lenne sz¨uks´eg. Ez egy ´ujabb sz¨uks´egletet teremt: egy olyan eszk¨oz ir´anti ig´enyt, ami k´epes arra, hogy in- form´aci´oszerz´es c´elj´ab´ol elemezze a nyers adatokat. Ez az ´uj eszk¨oz azadatb´any´aszat.

Adatb´any´aszati (data mining) algoritmusokat az adatb´azisb´ol t¨ort´en˝o tud´asfelt´ar´as (knowledge discovery in databases) sor´an alkalmaznak. A tud´askinyer´es adatb´azisokb´ol egy olyan folyamat, melynek sor´an ´erv´enyes, ´ujszer˝u, lehet˝oleg hasznos ´es v´egs˝o soron ´erthet˝o mint´akat fedez¨unk fel az adatokban. Ezt gyakran megtehetj¨uk k¨ul¨onb¨oz˝o lek´erdez´esek eredm´enyeinek vizsg´alat´aval, azonban ez a megold´as lass´u, dr´aga ´es nem el´eg ´atfog´o. Nem is besz´elve arr´ol, hogy az emberi szubjektivit´as sokszor hib´as, tov´abb´a az adatb´azisok olyan nagyok lehetnek, hogy egyes lek´erdez´esek elfogadha- tatlanul lassan futnak le. Jogos teh´at az ig´eny, hogy a legismertebb, leggyakoribb elemz´est´ıpusokhoz speci´alis m´odszereket, algoritmusokat fejlesszenek ki, amelyek gyorsan ´es pontosan szolg´altatnak egy objekt´ıv k´epet az adatb´azisokban tal´alhat´o ”kincsr˝ol”.

Az adatb´any´aszatot az ¨uzleti ´elet ´es a marketing keltette ´eletre. M´eg ma is ezek az adatb´any´aszat f˝o mozgat´o rug´oi. Szerencs´ere az adatb´any´aszat lehet˝os´egeit egyre t¨obb ter¨uleten ismerik fel, melynek eredm´enyek´ent az alapkutat´asoknak is egy fontos eszk¨oze lett. Alkalmazz´ak az orvosbiol´ogi´aban, genetik´aban, t´avk¨ozl´esben, csillag´aszatban, . . .

Az adatb´any´aszat egy multi-diszciplin´aris ter¨ulet. Az 1.1 ´abr´an l´athat´o, hogy mely tu- dom´anyter¨uletek eszk¨ozeit haszn´alja az adatb´any´aszat. Az adatb´any´aszat t¨obb hangs´ulyt fektet az algoritmusokra, mint a statisztika, ´es t¨obbet a modellekre, mint a g´epi tanul´as eszk¨ozei (pl. neur´alis h´al´ozatok). M´ara az adatb´any´aszat akkora ter¨ulett´e n˝otte ki mag´at, hogy szinte lehetetlen ´atl´atni ma- gas sz´ınvonalon az eg´eszet.

10

(12)

Matematika - Statisztika -

Algoritmus elm. -?

Adatb´azis elm. -

Gr´afelm´elet -

Line´aris alg. -

6

Mesters´eges Intelligencia?

G´epi tanul´as

?

Alkalmaz´as

¨Uzlet

? Marketing

Biol´ogia Telekommunik´aci´o

Csillag´aszat

6

Vizualiz´aci´o -

Adatb´any´aszat

1.1. ´abra. Az adatb´any´aszat kialakul´asa

1.1. A tud´asfelt´ar´as folyamata

A tud´askinyer´es folyamata sor´an 6-10 f´azist szok´as elk¨ul¨on´ıteni [49, 63] att´ol f¨ugg˝oen, hogy mely l´ep´eseket vonjuk ¨ossze (tekinthetj¨uk p´eld´aul az 1.2 ´abr´at):

minták

forrás adat

tisztított adat kiválasztás

tisztítás

csökkentés és transzformáció

adatbányászat

adat

tudás értelmezés és

értékelés

transzformált adat

1.2. ´abra. A tud´asfelt´ar´as folyamata

I. Az alkalmaz´asi ter¨ulet felt´ar´asa ´es meg´ert´ese, fontosabb el˝ozetes ismeretek begy˝ujt´ese, ´es a

(13)

felhaszn´al´asi c´elok meghat´aroz´asa.

II. C´eladatb´azis l´etrehoz´asa: kiv´alasztani a haszn´alni k´ıv´ant adatb´azist, (vagy annak csak egy r´esz´et), amib˝ol a tud´ast ki akarjuk nyerni.

III. Adattiszt´ıt´as, ´es el˝ofeldolgoz´as: itt olyan alapvet˝o oper´aci´okat ´ert¨unk, mint a t´eves bejegyz´esek elt´avol´ıt´asa, hi´anyos mez˝ok p´otl´asa, zajok sz˝ur´ese stb.

IV. Adatintegr´aci´o: a feldolgoz´as sz´am´ara fontos, esetleg elosztott adatb´azisok egyes´ıt´ese.

V. Adatt´er cs¨okkent´es: az adatb´azisb´ol a c´el szempontj´ab´ol fontos attrib´utumok kiemel´ese.

VI. Adatb´any´aszati algoritmus t´ıpus´anak kiv´alaszt´asa: eld¨onteni, hogy a megoldand´o feladat klasz- terez´es, vagy szab´aly-, illetve mintakeres´es, esetleg oszt´alyoz´as.

VII. A megfelel˝o adatb´any´aszati algoritmus meghat´aroz´asa. El˝onyeinek, h´atr´anyainak, pa- ram´etereinek vizsg´alata, fut´asi id˝o- ´es mem´oriaig´eny elemz´ese.

VIII. Az algoritmus alkalmaz´asa.

IX. A kinyert inform´aci´o ´ertelmez´ese, esetleg visszat´er´es az el˝oz˝o l´ep´esekhez tov´abbi finom´ıt´asok c´elj´ab´ol.

X. A megszerzett tud´as meger˝os´ıt´ese: ¨osszevet´es elv´ar´asokkal, el˝ozetes ismeretekkel. Eredm´enyek dokument´al´asa ´es ´atad´asa a felhaszn´al´onak.

A sikeres adatb´any´aszati projektekben az els˝o 5 l´ep´es teszi ki az id˝o- ´es p´enzr´aford´ıt´asok legal´abb 80%-´at. Ha a c´elok nem kell˝ok´eppen ´atgondoltak ´es a b´any´aszand´o adatok nem el´eg min˝os´egiek, akkor k¨onnyen el˝ofordulhat, hogy az adatb´any´asz csak vakt´aban dolgozik ´es a kinyert inform´aci´onak tulajdonk´eppen semmi haszna sincs. A tud´asfelt´ar´as sor´an elengedhetetlen, hogy az adatb´any´asz ´es az alkalmaz´asi ter¨ulet szak´ert˝oje szorosan egy¨uttm˝uk¨odj¨on, a projekt minden f´azis´aban ellen˝orizz´ek a betartand´o ir´anyvonalakat.

Ez a jegyzet az 6. ´es 7. l´ep´eseket veszi szem¨ugyre: rendelkez´es¨unkre ´all egy adatb´azis, tudjuk, milyen jelleg˝u inform´aci´ora van sz¨uks´eg¨unk, ´es az adatb´any´asz feladata, hogy ennek megold´as´ara min´el gyorsabb ´es pontosabb algoritmust adjon.

´Altal´anosabban k´etf´ele adatb´any´aszati tev´ekenys´eget k¨ul¨on´ıt¨unk el:

Felt´ar´as: A felt´ar´as sor´an az adatb´azisban tal´alhat´o mint´akat keress¨uk meg. A mint´ak legt¨obbsz˝or az

´altal´anos trendeket/szok´asokat/jellemz˝oket ´ırj´ak le, de vannak olyan alkalmaz´asok is (p´eld´aul csal´asfelder´ıt´es), ahol ´eppen az ´altal´anost´ol elt´er˝o/nem v´art mint´akat keress¨uk.

El˝orejelz´es: Az el˝orejelz´esn´el a felt´art mint´ak alapj´an pr´ob´alunk k¨ovetkeztetni a j¨ov˝ore. P´eld´aul egy elem ismeretlen ´ert´ekeit pr´ob´aljuk el˝orejelezni az ismert ´ert´ekek ´es a felt´art tud´as alapj´an.

N´egy fontos elv´ar´asunk van a megszerzett tud´assal kapcsolatban: (1) legyen k¨onnyen ´erthet˝o, (2) ´erv´enyes, (3) hasznos ´es (4) ´ujszer˝u. Az ´erv´enyess´eg eld¨ont´ese a ter¨ulet szak´ert˝oje mellett az adatb´any´asz (esetleg statisztikus) feladata is. El˝ofordulhat, hogy helyes modellt adtunk, az algorit- mus is j´ol m˝uk¨od¨ott, m´egis a kinyert szab´aly nem fedi a val´os´agot. Bonferroni t´etele arra figyelmez- tet benn¨unket, hogy amennyiben a lehets´eges k¨ovetkeztet´esek sz´ama t´ul nagy, akkor egyes k¨ovet- keztet´esek t´enyleges val´os´agtartalom n´elk¨ul igaznak mutatkoznak, tiszt´an statisztikai megfontol´asok

(14)

alapj´an. Az egyik legjobb p´elda a val´os´agtartalom n´elk¨uli szab´aly kinyer´es´ere az al´abbi megt¨ort´ent eset. Amerik´aban a Dow Jones ´atlag becsl´es´ehez keresni kezdt´ek azt a term´eket, amely ´ar´anak ala- kul´asa legink´abb hasonl´ıtott a Dow Jones ´atlag alakul´as´ahoz. A kapott term´ek a bangladesi gyapot volt.

Az adatok illetve a kinyert inform´aci´ok megjelen´ıt´es´enek m´odja legal´abb annyira fontos, mint az ¨osszef¨ugg´esek meghat´aroz´asa. A v´egfelhaszn´al´okat (akik ´altal´aban vezet˝ok) jobban megragad- ja egy j´ol elk´esz´ıtett ´abra, mint k¨ul¨onb¨oz˝o matematikai strukt´ur´ak nyers t´alal´asa. A megjelen´ıt´es teh´at fontos r´esze az adatb´any´aszatnak. Ezt j´ol igazolja, hogy nagy sikert k¨onyvelnek el az olyan adatb´any´aszati szoftverek, amelyek adatb´any´aszati algoritmusokat nem is futtatnak, puszt´an az ada- tokat jelen´ıtik meg intelligens m´odon (h´aromdimenzi´os, sz´ınes, forgathat´o ´abr´ak). Ezekn´el a rend- szerekn´el az ¨osszef¨ugg´eseket, mint´azatokat, k¨oz¨os tulajdons´aggal rendelkez˝o csoportokat maguk a felhaszn´al´ok veszik ´eszre. Az adatb´any´aszati szoftverekr˝ol r´eszletesebben a 14. fejezetben olvasha- tunk.

1.2. Szabv´anyok

Kezdetben sok adatb´any´aszati projektre jellemz˝o volt, hogy az adatb´any´aszok megkapt´ak az ada- tokat ´es n´emi inform´aci´ot az alkalmaz´asi ter¨uletr˝ol ´es cser´ebe v´art´ak t˝ol¨uk a kincset ´er˝o inform´aci´okat.

A szoros egy¨uttm˝uk¨od´es hi´anya azonban csak olyan inform´aci´okhoz vezetett amelyekkel az al- kalmaz´asi ter¨ulet embererei nem sok mindent tudtak kezdeni. Az adatb´any´aszat elterjed´es´evel (´es a min˝os´egbiztos´ıt´asi elv´ar´asokkal) fell´epett az ig´eny, hogy legyen egy szabv´any, egy ´utmutat´o az adatb´any´aszati projektek lebonyol´ıt´as´ar´ol. ´Igy sz¨uletett meg a CRISP-DM (CRoss Industry Standard Process for Data Mining) [29], amely adatb´any´aszati eszk¨ozt˝ol ´es felhaszn´al´asi ter¨ulett˝ol f¨uggetlen¨ul le´ırja, hogy mik´ent kellene kin´eznie egy adatb´any´aszati projektnek, illetve ismerteti a kulcsfontoss´ag´u l´ep´eseket, ´es a potenci´alis vesz´elyeket.

Az adatb´any´aszati folyamat szabv´anyos´ıt´asa mellett egyre nagyobb az ig´eny a folyamat egyes l´ep´eseiben felmer¨ul˝o megold´asok, probl´em´ak, eszk¨oz¨ok szabv´anyos´ıt´as´ara. Ezek k¨oz¨ul a legismer- tebbek:

– az XML alap´u PMML (Predictive Modeling Markup Language), amely az adatb´any´aszati eredm´enyek szabv´anyos le´ır´as´at szolg´alja,

– a Microsoft analysis szerver adatb´any´aszati funkci´okkal kib˝ov´ıtett szabv´anya (OLE DB for data mining),

– az ISO t¨orekv´esei multim´edia ´es alkalmaz´as specifikus SQL t´ıpusok ´es a hozz´a tartoz´o elj´ar´asok defini´al´as´ara (SQL/MM)

– java adat b´any´aszati API (JDMAPI)

1.3. Adatb´any´aszati rendszer architekt´ur´aja

Egy adatb´any´aszati rendszernek kapcsolatban kell lennie az adatb´azissal, a felhaszn´al´oval ´es eset- leg valami tud´asalap´u rendszerrel. Ezek alapj´an egy tipikus adatb´any´aszati architekt´ura az 1.3. ´abr´an l´athat´o.

(15)

minta kiértékelés grafikus felhasználói felület

tárház adat−

adatintegráció

adattisztítás szurés

adatbányász motor

adattárház szerverAdatbázis vagy

tudás bázis

adatbázis

"

1.3. ´abra. Tipikus adatb´any´aszati rendszer architekt´ur´aja

Adatb´azis, adatt´arh´az vagy m´as inform´aci´o rakt´ar: Itt tal´alhat´ok a t´enyleges adatok, ami lehet egy adatb´azis, vagy adatt´arh´az, ak´ar egy munkalap vagy b´armilyen t´arolt inform´aci´o. Az adat- tiszt´ıt´as ´es integr´aci´o k¨ozvetlen¨ul az adatokon is elv´egezhet˝o.

Adatb´azis vagy adatt´arh´az szerver: A szerver felel˝os a felhaszn´al´o ´altal k´ert adat k´ezbes´ıt´es´e´ert.

Tud´as b´azis: A ter¨uletre jellemz˝o, valamilyen szinten formaliz´alhat´o tud´as tal´alhat´o itt. Fontos sze- repe lehet ennek a keres´esi t´er sz˝uk´ıt´es´en´el, a kinyert mint´ak ´erdekess´eg´enek meghat´aroz´as´an´al, k¨ul¨onb¨oz˝o param´eterek ´es k¨usz¨obsz´amok meghat´aroz´as´an´al.

Adatb´any´asz motor: Az adatb´any´asz motorban futnak a k¨ul¨onb¨oz˝o adatb´any´aszati algoritmusok.

Minta ki´ert´ekel˝o modul: Ez a modul felel˝os a kinyert minta vagy ¨osszef¨ugg´esek ki´ert´ekel´es´e´ert a ter¨uletre jellemz˝o ´erdekess´egi mutat´ok alapj´an. Sokszor l´atni fogjuk, hogy min´el jobban egybe tudjuk ´ep´ıteni az adatb´any´aszatot a minta ki´ert´ekel´es´evel, ann´al hat´ekonyabb ´es gyorsabb lehet a tud´asfelt´ar´as.

Grafikus felhaszn´al´oi fel¨ulet: Itt zajlik a kommunik´aci´o a felhaszn´al´o ´es az adatb´any´aszati rendszer k¨oz¨ott. A felhaszn´al´o itt adhatja meg, hogy melyik adatb´azisban milyen jelleg˝u ¨osszef¨ugg´eseket keres ´es ezen a r´etegen kereszt¨ul l´athatja a v´egeredm´enyt. Az ¨osszef¨ugg´esek ´atl´athat´o, ´ertelmes t´alal´asa rendk´ıv¨ul fontos, hiszen ennek hi´anya elriaszthatja a felhaszn´al´ot az adatb´any´aszatt´ol.

(16)

1.4. Legjelent˝osebb adatb´any´aszati feladatok

Feltehetj¨uk, hogy az adatb´azis valamilyen objektumok (¨ugyfelek, betegs´egek, v´as´arl´ok, tele- kommunik´aci´os esem´enyek, . . . ) k¨ul¨onb¨oz˝o tulajdons´agait ´ırja le. A tulajdons´ag helyett gyakran haszn´aljuk majd az attrib´utum sz´ot1. Az adatb´any´aszat feladata a rejtett ¨osszef¨ugg´esek, kapcso- latok felder´ıt´ese. Az ¨osszef¨ugg´esek t´ıpusa szerint a k¨ovetkez˝o adatb´any´aszati alapprobl´em´akr´ol besz´elhet¨unk:

Gyakori mint´ak kinyer´ese: Adott objektumok egy sorozata. C´elunk megtal´alni a gyakran el˝ofordul´o (r´esz-) objektumokat. Az objektumok lehetnek elemhalmazok vagy sorozatok, eset- leg epiz´odok (r´eszben rendez´esek), gr´afok stb.

Attrib´utumok k¨oz¨otti kapcsolatok: Gyakran hasznos, ha az objektumokra ´ugy tekint¨unk, mint az attrib´utumok megval´osul´asaira ´es keress¨uk az ¨osszef¨ugg´eseket az attrib´utumok k¨oz¨ott.

T¨obbf´ele ¨osszef¨ugg´es l´etezik. Ilyenek p´eld´aul az asszoci´aci´os-, korrel´aci´os szab´alyok, a funk- cion´alis f¨ugg˝os´egek ´es hasonl´os´agok. Az oszt´alyoz´as is attrib´utumok k¨oz¨otti ¨osszef¨ugg´esek felfedez´es´ere szolg´al. Az oszt´alyoz´asn´al egy kit¨untetett attrib´utum ´ert´ek´et kell megj´osolnunk a t¨obbi attrib´utum ´ert´eke alapj´an. Ezt egy modell fel´ep´ıt´es´evel teszi. Leggyakrabban a modell egy d¨ont´esi fa, de lehet if-then szab´alyok sorozata, valamilyen matematikai formula, vagy ak´ar egy neur´alis h´al´ozat stb. is.

Klaszterez´es: Objektumokat el˝ore nem defini´alt csoportokba (klaszterekbe) kell sorolnunk ´ugy, hogy az egy csoportba tartoz´o objektumok hasonl´oak legyenek, m´ıg a k¨ul¨onb¨oz˝o csoportba ker¨ultek k¨ul¨onb¨ozzenek egym´ast´ol. K´et pont hasonl´os´ag´at egy el˝ore megadott (t´avols´agszer˝u) f¨uggv´eny seg´ıts´eg´evel szok´as ´ertelmezni.

Sorozatelemz´es: A sorozatelemz´esbe t¨obbf´ele adatb´any´aszati feladat tartozik. Kereshet¨unk egym´ashoz hasonl´ıt´o (ak´ar r´esz-) sorozatokat. Ezen k´ıv¨ul elemezhetj¨uk a sorozat alakul´as´at,

´es k¨ul¨onb¨oz˝o regresszi´os m´odszerekkel pr´ob´alhatjuk megj´osolni a j¨ov˝obeli val´osz´ın˝uleg el˝ofordul´o esem´enyeket.

Elt´er´eselemz´es: Azokat az elemeket, amelyek nem felelnek meg az adatb´azis ´altal´anos jel- lemz˝oinek, tulajdons´agaik nagy m´ert´ekben elt´er az ´altal´anost´olk¨ul¨oncpontoknak nevezz¨uk. A legt¨obb adatb´any´aszati algoritmus az ilyen k¨ul¨onc pontoknak nem tulajdon´ıt nagy jelent˝os´eget, legt¨obbsz¨or zajnak vagy kiv´etelnek kezeli ˝oket. Azonban az ´elet egyre t¨obb ter¨ulet´en mer¨ul fel az ig´eny, hogy ´eppen az ilyen k¨ul¨onc pontokat tal´aljuk meg. Elt´er´eselemz´es f˝obb alkal- maz´asi ter¨ulete a m´asol´as-, koppint´askeres´es tov´abb´a a csal´asok, vissza´el´esek, v´ırusok, hac- kert´amad´asok kisz˝ur´ese.

Webes adatb´any´aszat: Az Interneten ´ori´asi adatt¨omeg tal´alhat´o, ´ıgy az Interneten alapul´o in- form´aci´o-kinyer˝o algoritmusok is az adatb´any´aszat ter¨ulet´ehez tartoznak. A jegyzetben sz´o lesz intelligensebb keres´esr˝ol, oldalak rangsorol´as´ar´ol, illetve hasonl´o tartalm´u oldalak meg- tal´al´as´ar´ol.

1A k¨ozgazd´aszok a tulajdons´ag helyettism´ervet, valamely tulajdons´ag konkr´et ´ert´eke helyettism´erv v´altozatotmon- danak.

(17)

El˝ofordulhat, hogy az adatb´any´aszati rendszer, m´eg megfelel˝oen megv´alasztott param´eterek mel- lett is, t´ul sok szab´alyt, ¨osszef¨ugg´est t´ar fel. Az egyik legnehezebb k´erd´es az, hogy ezek k¨oz¨ul me- lyek az ´erdekesek. ´Erdekess´egi mutat´okr´ol ´altal´anoss´agban nem sok mondhat´o el, mert a k¨ul¨onb¨oz˝o felhaszn´al´asi ter¨uleteken m´as-m´as minta lehet hasznos. Megk¨ul¨onb¨oztet¨unk szubjekt´ıv ´es objekt´ıv

´erdekess´egi mutat´okat. Egy minta mindenk´eppen ´erdekes, ha meglep˝o, azaz eddigi tud´asunknak el- lentmond, vagy ´ujszer˝u, azaz tud´asunkat kieg´esz´ıti. Ugyanakkor egy inform´aci´o csak akkor ´erdekes, ha felhaszn´alhat´o, azaz tudunk valamit kezdeni vele [137]. Azt, hogy egy szab´aly mennyire meglep˝o – t¨obb-kevesebb sikerrel – tudjuk formaliz´alni. Az ´ujszer˝us´egr˝ol ´es a felhaszn´alhat´os´agr´ol azonban csak a ter¨ulet szak´ert˝oje tud nyilatkozni.

Annak ellen´ere, hogy az adatb´any´aszat egy ´uj ter¨ulet, a fentiekb˝ol l´athat´o, hogy r´egi, m´ar is- mert probl´em´akat is mag´aba foglal. Gondoljunk itt arra, hogy klaszterez˝o algoritmusokat m´ar a 60-as

´evekben is javasoltak, vagy arra, hogy az oszt´alyoz´as feladat´at f¨uggv´eny approxim´aci´ok´ent is fel- foghatjuk, aminek irodalm´aval t¨obb k¨onyvespolcot is meg lehetne t¨olteni. Teh´at az adatb´any´aszatban gyakran nem maga a probl´ema ´uj, hanem az adatok m´erete, tov´abb´a az a k¨ovetelm´eny, hogy az egyes algoritmusok fut´asi ideje olyan r¨ovid legyen, hogy az eredm´enyek a gyakorlatban elfogadhat´o id˝on bel¨ul ´erkezzenek. Az alkalmaz´asokban nem ritk´ak a giga- s˝ot terab´ajt nagys´ag´u adathalmazok. A [42] ´ır´asban p´eld´aul egy besz´amol´ot olvashatunk egy bank adatb´azis´anak elemz´es´er˝ol adatb´any´aszati eszk¨oz¨okkel, ahol az ¨ugyfelek sz´ama el´erte a 190 milli´ot az adatok m´erete pedig a 4 TB-ot. Ilyen m´eretek mellett m´ar kvadratikus l´ep´esig´eny˝u algoritmusokat sem engedhet¨unk meg. L´atni fogjuk, hogy a legt¨obb adatb´any´aszati algoritmus a teljes adatb´azist kev´es alkalommal olvassa v´egig.

Sk´al´azhat´o (scalable) ´es hat´ekony (efficient) algoritmusokat keres¨unk, amelyek megbirk´oznak nagy m´eret˝u adatb´azisokkal. Elv´arjuk, hogy az adatb´azis fontosabb param´etereinek ismeret´eben az algoritmusok fut´asi ideje megj´osolhat´o legyen. Az ´ori´asi mem´oriam´eretek miatt a legt¨obb elem- zend˝o adatb´azis – megfelel˝o ´atalak´ıt´asokkal – val´osz´ın˝uleg elf´er a mem´ori´aban, de m´egis sokszor azt felt´etelezz¨uk, hogy az adat a h´att´ert´aron tal´alhat´o.

Az adatb´azisok m´eret´enek n¨oveked´ese miatt egyre fontosabbak a p´arhuzamos´ıthat´o algoritmusok (l´asd p´eld´aul part´ıci´os algoritmus r´esz). Ezek az adatb´azist r´eszekre osztj´ak, majd az egyes r´eszeket k¨ul¨on mem´ori´aval ´es h´att´ert´arral rendelkez˝o egys´egek dolgozz´ak fel, ´es v´eg¨ul egy kit¨untetett egys´eg egyes´ıti a r´eszeredm´enyeket. Szint´en a m´eretn¨oveked´es az oka azon algoritmusok n´epszer˝us´eg´enek, amelyek fut´asi ideje nagy m´ert´ekben cs¨okkenthet˝o valamilyen el˝ozetes inform´aci´ok (p´eld´aul kor´abbi fut´asi eredm´enyek) ismeret´eben (l´asd asszoci´aci´os szab´alyok karbantart´asa r´esz).

1.5. Sikeres alkalmaz´asok

Az ”adat b´any´aszata” eredetileg statisztikusok ´altal haszn´alt kifejez´es, az adatok nem kell˝ok´eppen megalapozott felhaszn´al´as´ara, amely sor´an valaki helytelen k¨ovetkeztet´est von le. Igaz ugyanis, hogy tetsz˝oleges adathalmazban felfedezhet¨unk valamilyen strukt´ur´at, ha el´eg sok´aig n´ezz¨uk az ada- tot. Ism´et utalunk a lehets´eges k¨ovetkeztet´esek nagy sz´am´ab´ol ered˝o vesz´elyre. A helytelen k¨ovet- keztet´esre az egyik legh´ıresebb p´elda az al´abbi: Az 50-es ´evekben David Rhine parapszichol´ogus di´akokat vizsg´alt meg azzal a c´ellal, hogy parapszichol´ogiai k´epess´eggel rendelkez˝oket tal´aljon.

Minden egyes di´aknak 10 lefedett k´artya sz´ın´et kellett megtippelne (piros vagy fekete). A k´ıs´erlet eredm´enyek´ent bejelentette, hogy a di´akok 0,1%-a parapszichol´ogiai k´epess´eggel rendelkezik (a telje- sen v´eletlenszer˝uen tippel˝ok k¨oz¨ott a helyesen tippel˝ok v´arhat´o sz´ama statisztikailag nagyj´ab´ol ennyi, hiszen annak val´osz´ın˝us´ege, hogy valaki mind a t´ız k´arty´at eltal´alja 2110 = 10241 ). Ezekkel a di´akokkal

´ujra elv´egezte a k´ıs´erletet, ´am ez´uttal a di´akok eredm´enye teljesen ´atlagos volt. Rhine k¨ovetkeztet´ese

(18)

szerint az, aki parapszichol´ogiai k´epess´eggel rendelkezik ´es err˝ol nem tud, elveszti eme a k´epess´eg´et miut´an tudom´ast szerez r´ola.

A fenti p´elda ellen´ere m´ara az adatb´any´aszat sz´o elvesztette jelent´es´enek negat´ıv tartalm´at, a sz´amos sikeres alkalmaz´asnak k¨osz¨onhet˝oen. A teljess´eg ig´enye n´elk¨ul felsorolunk bel˝ol¨uk n´eh´anyat.

– A bankok egyre gyakrabban alkalmaznak olyan automatikusan el˝o´all´ıtott d¨ont´esi f´akat, ame- lyek alapj´an egy program javaslatot tesz egy hitel meg´ıt´el´es´er˝ol. Ezt a k´erelmez˝ok szem´elyes, tov´abb´a el˝ozetes hitelfelv´eteli ´es t¨orleszt´esi adatai alapj´an teszi (oszt´alyoz´as) [143]. Tesztek p´eld´aul igazolt´ak, hogy a hitelb´ır´alat min˝os´ege javult az USA-ban, amikor a bankok ´att´ertek a k¨otelez˝oen alkalmazott, ´ır´asban r¨ogz´ıtett szab´alyok alkalmaz´as´ara [143]. Ezeket a szab´alyokat pedig az adatb´any´aszat seg´ıts´eg´evel ´all´ıtott´ak ¨ossze.

– A v´as´arl´oi szok´asok felder´ıt´ese szupermarketekben, illetve nagy vev˝ok¨orrel rendelkez˝o

´aruh´azakban hasznos lehet az ´aruh´az term´ekt´erk´ep´enek kialak´ıt´as´an´al, akci´ok, elad´ashelyi rekl´amok (Point of Sales, Point of Purchase), le´araz´asok szervez´es´en´el. . . (asszoci´aci´os szab´alyok).

– Az ember genot´ıpus´anak elemz´es´ehez a g´enek nagy sz´ama miatt szint´en adatb´any´aszati algorit- musok sz¨uks´egesek. Az eddigi sikeres k´ıs´erletek c´elja olyan g´encsoportok felt´ar´asa volt, ame- lyek a cukorbetegs´eg bizonyos v´altozatai´ert felel˝osek. A teljes emberi g´enrendszer felt´ar´as´aval ez a ter¨ulet egyre fontosabb lesz.

– Az on-line ´aruh´azak a j¨ov˝oben egyre elfogadottabbak ´es elterjedtebbek lesznek. Mivel az on- line kereskedelemben nem haszn´alhat´oak a megszokott szem´elyes marketing eszk¨oz¨ok a for- galom (´es a profit) szem´elyre szabott v´as´arl´asi aj´anlatokkal n¨ovelhet˝o. Az aj´anlatokat az eddi- gi v´as´arl´asi adatok ´es a rendelkez´esre ´all´o demogr´afiai adatok elemz´ese alapj´an tehetj¨uk meg (epiz´odkutat´as, asszoci´aci´os szab´alyok).

– A csillag´aszatban az ´egitestek ´ori´asi sz´ama miatt a hagyom´anyos klaszterez˝o algoritmusok m´eg a mai sz´am´ıt´asi kapacit´asok mellett sem k´epesek racion´alis id˝on bel¨ul k¨ul¨onbs´eget tenni gala- xisok, k¨ozeli csillagok ´es m´as ´egi objektumok k¨oz¨ott. Az ´ujabb, kifinomultabb algoritmusok fut´asi ideje j´oval kevesebb, ami lehet˝ov´e teszi a klaszterez´est (klaszterez´es).

– Utaz´as szervez´essel kapcsolatos mint´ak kinyer´es´evel hat´ekonyabban (´es ennek k¨ovetkezt´eben nagyobb nyeres´eggel) megszervezhet˝ok a nagy k¨olts´egfaktor´u t´enyez˝ok, pl. sz´allodai szob´ak, rep¨ul˝ojegyek le´araz´asa, vagy ´aremel´ese (epiz´odkutat´as, gyakori minta).

– A v´ırus¨ol˝o programok az ismert v´ırusokat lenyomataik alapj´an detekt´alj´ak, az ismeretleneket pedig t¨obbnyire valamilyen heurisztikus m´odon pr´ob´alj´ak kisz˝urni. Oszt´alyoz´o algoritmusok felhaszn´al´as´aval az ismert v´ırusok tulajdons´agai alapj´an olyan modellt lehet fel´all´ıtani, ami j´ol le´ırja a v´ırusok tulajdons´agait [129, 130]. A modellt sikeresen alkalmazt´ak ´uj ismeretlen v´ırusok kisz˝ur´es´ere (oszt´alyoz´as).

N´eh´any sikeres esettanulm´anyr´ol a 14.3.2 r´eszben olvashatunk.

1.6. Az adatb´any´aszat felt´etelei

Tagadhatatlan, hogy a sikertelen adatb´any´aszati projektek sz´ama nagy, ´es az adatb´any´aszat na- gyon sok esetben nem v´altotta be a hozz´a f˝uz¨ott rem´enyeket. Ennek oka egyr´eszr˝ol az adatb´any´aszati

(19)

szakemberhi´any (a j´o adatb´any´aszati szakember ritka, mint a feh´er holl´o), m´asr´eszr˝ol az, hogy alap- vet˝o felt´etelek nem teljes¨ultek a projektek sor´an. A sikeres adatb´any´aszati projekt egyik legfontosabb felt´etele az adatb´any´asz ´es a ter¨ulet szak´ert˝oj´enek szoros egy¨uttm˝uk¨od´ese. A tov´abbi felt´etelek az al´abbiak:

Nagy mennyis´eg˝u adat: A nagy mennyis´eg˝u adat a kinyert szab´alyok statisztikai jelent˝os´eg´et n¨ove- li. Min´el nagyobb az adatmennyis´eg, ann´al biztosabban tudjuk kiz´arni bizonyos ¨osszef¨ugg´esek esetis´eg´et, azaz ann´al kisebb az es´elye, hogy a tal´alt ¨osszef¨ugg´es csak a v´eletlen eredm´enye.

Sajnos sok adatot sok´aig tart feldolgozni, s˝ot az algoritmusok egy jelent˝os r´esze ´erz´ekeny arra, hogy az adatb´azis elf´er-e a mem´ori´aban.

Sok attrib´utum: Ha az objektumokat le´ır´o attrib´utumok sz´ama kicsi, akkor hagyom´anyos eszk¨oz¨okkel (grafikonok, egyszer˝u t´abl´azatok, kis dimenzi´os, forgathat´o, sz´ınes ´abr´ak, . . . ) is fel tudjuk t´arni a tud´ast. Kev´es attrib´utum eset´en a kinyerhet˝o tud´as sem lehet t´ul sokf´ele. Az adatb´any´aszat ereje akkor mutatkozik meg, amikor az attrib´utumsz´am olyan nagy, hogy a ha- gyom´anyos m´odszereknek nincs es´ely¨uk.

Tiszta adat: Az adatok j´o min˝os´ege az adatb´any´aszat egyik alapfelt´etele. A zajok, a hib´as be- jegyz´esek j´o esetben csak nehez´ıtik az adatb´any´aszatot (p´eld´aul amikor ismerj¨uk az adatokban tal´alhat´o zaj, ill. bizonytalans´ag fok´at), rosszabb esetben azonban hamis eredm´enyekhez vezet- nek. Az ilyen rossz min˝os´eg˝u adatokra remek p´elda haz´ank orvosi adatb´azisa (rengeteg hib´as bejegyz´es, kit¨oltetlen mez˝o, elt´er˝o m´ert´ekegys´eg alap´u bejegyz´esek, sz¨oveges bejegyz´esek), pe- dig az ezekb˝ol kinyert inform´aci´ok ´ert´ekesek lenn´enek. A ”szem´ethalmazban” val´o kutakod´ast tr´ef´asan GIGO-nak (garbage in, garbage out2) nevezik.

Torz´ıtatlan adat: Az adatb´any´aszat sikeress´ege m´ulhat az adatok nem megfelel˝o kiv´alaszt´as´an.

Ide tartoz´o fogalom az ´un. BIBO (bias in, bias out3), amely arra h´ıvja fel a figyelm¨unket, hogy ha egy r´eszsokas´ag alapj´an akarunk k¨ovetkeztetni az alapsokas´agra, akkor figyelembe kell venn¨unk a r´eszsokas´ag kiv´alaszt´as´anak szempontjait, illetve az abb´ol ad´od´o (esetleges) torz´ıt´asokat. P´eld´aul, ha a lakoss´agot az anyagi helyzet szerint akarjuk csoportokba sorolni, de csak nyugat-magyarorsz´agi adatok ´allnak rendelkez´es¨unkre, akkor tudnunk kell, hogy a ka- pott eredm´eny (a csoportok le´ır´asa) torz lesz, hiszen a r´eszsokas´ag ´atlag ´eletsz´ınvonala jobb az alapsokas´ag´en´al.

Alkalmaz´asi ter¨ulet akci´ok´epess´ege: Gyakran el˝ofordul, hogy a tud´ast csak kinyerik, de a fel- haszn´al´asa elmarad. Gyakran a felhaszn´al´asi ter¨uletek t´ul merevek, vagy a v´altoztat´as t´uls´agosan magas k¨olts´egekkel j´arna. A legt¨obb adatb´any´aszati esettanulm´anyban a tud´as ki- nyer´es´enek m´odj´ar´ol esik sz´o, a tud´as felhaszn´al´as´ar´ol pedig ritk´an hallunk.

A befektet´es megt´er¨ul´es´enek (Return On Investment) m´erhet˝os´ege: Egy adatb´any´aszati pro- jektr˝ol akkor ´all´ıthatjuk biztosan, hogy sikeres, ha a befektet´es hat´as´at m´erni, vagy viszonylag pontosan becs¨ulni tudjuk.

A jegyzet fejezeteiben a legkev´esb´e ismert, de napjainkban egyre nagyobb teret nyer˝o ter¨uleteket j´arjuk k¨or¨ul: a gyakori mint´ak kinyer´es´et, az attrib´utumok k¨oz¨otti ¨osszef¨ugg´esek meghat´aroz´as´at, a

2szem´et be, szem´et ki

3torz´ıt´as be, torz´ıt´as ki

(20)

sorozatelemz´est, a klaszterez´est ´es a webes adatb´any´aszatot. Minden esetben az algoritmusok gya- korlati felhaszn´al´as´at p´eld´akon kereszt¨ul szeml´eltetj¨uk; emellett megadjuk a probl´em´ak form´alis de- fin´ıci´oit, ´es bemutatjuk a legismertebb, leghat´ekonyabb algoritmusokat is. A jegyzet tov´abbi c´elja, hogy ¨osszefoglalja az eddig nem, vagy csak kis hat´ekonys´aggal megoldott probl´em´akat, tov´abb´a a jelenlegi kutat´asi ter¨uleteket.

(21)

Alapfogalmak, jel¨ol´esek

Ebben a r´eszben tiszt´azzuk a jegyzet sor´an haszn´alt fogalmak jelent´es´et. C´elszer˝u akkor ´atn´ezn¨unk e fejezet egyes r´eszeit, amikor az olvas´as sor´an olyan r´eszbe ¨utk¨oz¨unk, ami nem teljesen tiszta.

2.1. Halmazok, rel´aci´ok, f¨uggv´enyek, sorozatok

A halmazk¨ul¨onb¨oz˝o objektumok egy¨uttese, amelyeket a halmaz elemeinekh´ıvunk. Ha xeleme aH halmaznak, akkor azt ´ıgy jel¨olj¨uk:xH, a halmaz elemeinek sz´am´at (r¨ovidebbenelemsz ´am´at) pedig|H|-val. A jegyzetben a term´eszetes sz´amok halmaz´at ({0,1,. . .})N-el jel¨olj¨uk, a val´os sz´amok halmaz´at R-el, az eg´esz sz´amok halmaz´at Z-vel, az ¨ures halmazt (egyetlen elemet sem tartalmaz´o halmaz) /0-val. K´et halmaz akkor egyezik meg, ha ugyanazok az elemeik.X r´eszhalmazaY-nak (X⊆

Y), haX minden elemeY-nak is eleme. HaXY, deX 6=Y, akkorX val´odi r´eszhalmaza Y-nak.

A val´odi jelz˝ot gyakran fogjuk haszn´alni, ´es a val´odi r´eszhalmaz anal´ogi´aj´ara azt ´ertj¨uk rajta, hogy az egyenl˝os´eget kiz´arjuk. Sajnos a superset angol sz´onak nincsen ´altal´anosan elfogadott ford´ıt´asa, pedig sokszor szeretn´enk haszn´alni. Azt fogjuk mondani, hogyY b˝ovebb X-n´el, ha (X ⊆Y). A hal- mazm˝uveletek jel¨ol´ese ´es pontos jelent´es¨uk: metszet:XY={z:zX ´eszY}, uni´o:XY={z: :zX vagyzY}, k¨ul¨onbs´eg:X\Y ={z:zX ´esz6∈Y}.

K´et halmaz (X,Y)Descartes-szorzata(X×Y) az ¨osszes olyan rendezett p´arb´ol ´all´o halmaz, amely- nek az els˝o komponense (tagja)X-ben, a m´asodikY-ban van. AzX,Y halmazokon ´ertelmezettbin ´aris rel´aci´oazX×Y r´eszhalmaza. Ha(x,y)eleme aφrel´aci´onak, akkor azt ´ıgy is jel¨olhetj¨uk:xφy. A rel´aci´or´eszben rendez´es(vagy parci´alis rendez´es), hareflex´ıv(xx),antiszimmetrikus(xy´esyx felt´etelekb˝ol k¨ovetkezik, hogyx=y), tranzit´ıv (xy ´esyzfelt´etelekb˝ol k¨ovetkezik, hogyxz).

Ha az el˝oz˝o 3 felt´etelben az antiszimmetrikus helyett szimmetrikusat (x y-b˝ol k¨ovetkezik, hogy yx) mondunk, akkor ekvivalencia-rel´aci´or´ol besz´el¨unk. A tov´abbiakban, tetsz˝oleges rendez´es eset´en, hax6=y ´esxy, akkor azt ´ıgy jel¨olj¨uk xy. LegyenX r´eszhalmaza X0. AX0 halmaznak yX egyals´o korl´atja, hayxmindenxX0-re. Azy legnagyobb als´o korl´at, ha mindeny0 als´o korl´atra y0y. Az y maxim´alis als´o korl´atja X0-nak, ha nem l´etezik olyan y-t´ol k¨ul¨onb¨oz˝oy0 als´o korl´at, amireyy0. Hasonl´oan ´ertelmezhet˝o a fels˝o, legkisebb fels˝o, minim´alis fels˝o korl´at fogalmak is. A ≺rendez´es teljes rendez´es, ha minden x6=y elemre xy, yx k¨oz¨ul az egyik fenn´all. Az (X,)p´arosth´al´onaknevezz¨uk, haazX-en ´ertelmezett parci´alis rendez´es, ´es tetsz˝olegesx,yX elemeknek l´etezik legnagyobb als´o (jel¨ol´esben:xy) ´es legkisebb fels˝o korl´atjuk (xy).

K¨ozponti fogalom lesz a lexikografikus rendez´es. N´ezz¨uk el˝osz¨or ennek a matematikai de- fin´ıci´oj´at. LegyenX ´esY k´et halmaz, amelyeken ´ertelmezve van egy-egy parci´alis rendez´es (≺X,≺Y).

20

(22)

Azt mondjuk, hogy a(x1,y1)∈X×Y lexikografikusan megel˝ozi(x2,y2)∈X×Y p´art, ha x1Xx2, vagyx1=x2´esy1Yy2. A lexikografikus rendez´est tetsz˝oleges sz´am´u halmaz Descartes-szorzat´ara is kiterjeszthetj¨uk rekurz´ıv m´odon az al´abbiak alapj´an:X×Y×Z=X×(Y×Z). L´athat´o, hogy a lexiko- grafikus rendez´est Descartes szorzatokon ´ertelmezz¨uk, vagy m´as sz´oval olyan ¨osszetett strukt´ur´akon, amelyeknek ugyanannyi tagjuk van (n-eseknek is h´ıvj´ak ezeket). Mi ezt szeretn´enk ´altal´anos´ıtani, hiszen p´eld´aul szavak sorba rendez´es´en´el is el˝ofordulnak elt´er˝o hossz´us´ag´u szavak. Ha a r¨ovidebb sz´o megegyezik a hosszabb sz´o els˝o fel´evel (p´eld´aul komp ´es kompenz´al szavak), akkor megegyez´es alapj´an a r¨ovidebb sz´o el˝ozi meg lexikografikusan a hosszabbikat. Ezek alapj´an mindenki tudja de- fini´alni a lexikografikus rendez´est elt´er˝o sz´am´u halmazok Descartes szorzat´ara. A legt¨obb esetben a Descartes szorzat tagjainak halmaza ´es a rajtuk defini´alt rendez´esek megegyeznek (pl.: X =Y ´es

X =≺Y). Ilyenre, adott rendez´es szerinti lexikografikus rendez´esk´ent hivatkozunk.

Az X,Y halmazokon ´ertelmezett f bin´aris rel´aci´o f¨uggv´eny, ha b´armelyxX eset´en pontosan egy olyanyY l´etezik, hogy(x,y)f. Ez jel¨ol´esben f :XY, ´es, ha(x,y)f, akkor y= f(x).

AzX halmazt a f ´ertelmez´esi tartom´any´anakh´ıvjuk (vagy m´ashogy: f azX-en ´ertelmezett),Y-t az f k´ephalmaz´anak, az f(X)halmazt pedig az f ´ert´ekk´eszlet´enek. Azt a f¨uggv´enyt, amely ´ugy kapunk, hogy el˝osz¨or a f, majd azg f¨uggv´enyt alkalmazzuk gf-el jel¨olj¨uk. Predik´atumegy f¨uggv´eny, ha az ´ert´ekk´eszlete az{igaz,hamis}halmaz.Sz¨urjekt´ıvegy f¨uggv´eny, ha a k´ephalmaza megegyezik az

´ert´ekk´eszlet´evel, injekt´ıv (vagy m´as n´even egy-egy ´ertelm˝u lek´epz´es), ha az ´ertelmez´esi tartom´any b´armely k´et k¨ul¨onb¨oz˝o elem´ehez k¨ul¨onb¨oz˝o ´ert´eket rendel ´es bijekt´ıv (m´ask´eppen a f¨uggv´eny egy bijekci´o), ha sz¨urjekt´ıv ´es injekt´ıv is egyben.

LegyenHtetsz˝oleges halmaz. Az f:

z }|n {

H×· · ·×HHf¨uggv´enytnv´altoz´osm˝uveletneknevezz¨uk.

AH halmazon ´ertelmezett k´etv´altoz´os?m˝uveletetasszociat´ıvnak nevezz¨uk, ha tetsz˝olegesa,b,c

H eset´en (a?b)?c= a?(b?c). A (H, ?) p´art f´elcsoportnak nevezz¨uk, ha ? a H-n ´ertelmezett asszociat´ıv m˝uvelet. A (H, ?) f´elcsoport elemein aH elemeit ´ertj¨uk. Ha a (H, ?) f´elcsoport elemei k¨oz¨ott l´etezik olyaneelem, amelyree?a=a?e=amindenaH elemre, akkore-tegys´egelemnek h´ıvjuk ´es egys´egelemes f´elcsoport´ol besz´el¨unk. Ha egy egys´egelemes f´elcsoportban minden elemnek l´etezik invere, akkor csoportr´ol besz´el¨unk. Az a inverz´ere (a1) teljes¨ulj¨on, hogy a?a1 =a1?

?a=e. A csoport ´Abel-csoport, ha a ? m˝uvelet kommutat´ıv(a?b=b?a) is. A (H, ?,+) h´armas egy gy˝ur˝u, amennyiben (H, ?) ´Abel csoport, (H,+) f´elcsoport ´es a ?,+ m˝uveletek disztribut´ıvak egym´asra n´ezve, azaz(a+b)?c=a?c+b?c.

Sokat fogjuk haszn´alni a sorozat fogalm´at. LegyenS egy halmaz. Az f :N→S f¨uggv´enyt azS felett ´ertelmezett sorozatnak h´ıvjuk. Le´ır´as´ara az f(0), f(1), . . .helyett a hs0,s1, . . .ijel¨ol´est fogjuk haszn´alni. V´eges sorozatok eset´eben az f ´ertelmez´esi tartom´anya (´altal´aban az {1,2,. . . ,n}) v´eges halmaz. V´eges sorozathosszaaz ´ertelmez´esi tartom´any´anak elemsz´ama. Az S=hs1,s2, . . .sni,S0=

=hs01,s02, . . .s0n0isorozat konkaten´aci´oj´an azhs1,s2, . . .sn,s01,s02, . . .s0n0isorozatot ´ertj¨uk, ´eshS,S0i-el jel¨olj¨uk.

2.2. Line´aris algebra

Felt´etelezz¨uk, hogy az olvas´o tiszt´aban van a m´atrix, vektor, illetve a m´atrix (vektor) transz- pon´altj´anakfogalm´aval. A hagyom´anyoknak megfelel˝oen azAm´atrixi-edik sor´ab´ol k´epzett vektort Ai-vel jel¨olj¨uk, ||v||-vel avvektor euklideszi norm´aj´at (q

iv2i) ´esvTw-vel avT,wvektrok skal´aris szorzat´at (∑ivTi wi).

(23)

2.3. Gr´afelm´elet

Ir´any´ıtott gr´af egyG = (V,E) p´ar, aholV cs´ucsok (vagy pontok) v´eges halmaza, E pedig egy bin´aris rel´aci´oV-n. E elemeit ´elekneknevezz¨uk. Ha(u,v)E, akkor azu,vcs´ucsok egym´asszom- sz´edai. Ir´any´ıtatlan gr´afr´ol besz´el¨unk, ha az E rel´aci´o szimmetrikus. A c´ımk´ezett (vagy s´ulyozott) gr´afn´al a cs´ucsokhoz,c´ımk´ezett ´el˝u(vagy ´els´ulyozott) gr´afn´al pedig az ´elekhez rendel¨unk c´ımk´eket.

A c´ımk´ezett ´el˝u gr´afots´ulyozott gr´afnak h´ıvjuk, ha a c´ımk´ek sz´amokkal kifejezhet˝o s´ulyokat jelen- tenek. A gr´af m´eret´en (|G|) a cs´ucsok sz´am´at ´ertj¨uk. Egy cs´ucs fok´an a cs´ucsot tartalmaz´o ´eleket

´ertj¨uk. Ir´any´ıtott gr´afokn´al megk¨ul¨onb¨oztet¨unkkifokot ´esbefokot. AGir´any´ıtatlan gr´af k-regul ´aris, ha minden cs´ucs foka pontosank.

AG0= (V0,E0)gr´af aG= (V,E)r´eszgr´afja, haV0V ´esE0E. AG= (V,E)gr´afV0V ´altal fesz´ıtett r´eszgr´afja(induced subgraph) az aG0= (V0,E0) gr´af, aholE0={(u,v)E :u,vV0}. A G1(V1,E1)izomorf aG2(V2,E2)gr´affal, jel¨ol´esbenG1∼=G2, ha l´etezikφ:V1V2bijekci´o, amelyre (u,v)E1eset´en(φ(u),φ(v))∈E2is fenn´all. C´ımk´ezett gr´afokn´al emellett megk¨ovetelj¨uk, hogy azu cs´ucs c´ımk´eje megegyezz´ek aφ(u)c´ımk´ej´evel mindenuV1-re, c´ımk´ezett ´el˝u gr´afn´al pedig az(u,v) c´ımk´eje egyezzen meg a(φ(u),φ(v))´el c´ımk´ej´evel. HaG∼=G, akkorautomorfizmusr´olbesz´el¨unk.

A gr´afok ´abr´azol´as´anak elterjedt m´odja a szomsz´edoss´agi m´atrix (adjacency matrix) ´es a szom- sz´edoss´ag lista. Az |G| × |G| m´eret˝u A szomsz´edoss´agi m´atrix ai j eleme 1 (´elc´ımk´ezett esetben az

´el c´ımk´eje), ha a G gr´af i-edik cs´ucs´ab´ol indul ´el a j-edik cs´ucsba, k¨ul¨onben 0. Term´eszetesen a szomsz´edoss´agi m´atrixat a gr´afon k´ıv˝ul az hat´arozza meg, hogy melyik cs´ucsot h´ıvjuk az els˝onek, m´asodiknak, ... A szomsz´edoss´agi gr´afot teh´at a gr´af ´es az f :V → {1, . . . ,|V|}bijekci´o adja meg.

Hurok´el n´elk¨uli, c´ımk´ezett gr´afban a szomsz´edoss´agi m´atrixaiieleme azics´ucs c´ımk´ej´et t´arolja. A szomsz´edoss´agi lista|G|darab lista, ahol azi-edik lista t´arolja azi-edik cs´ucs szomsz´edait.

Azucs´ucsot azu0cs´uccsal ¨osszek¨ot˝ok-hossz´u´uton cs´ucsoknak egy olyan (v´eges)hv0,v1, . . . ,vki sorozat´at ´ertj¨uk, amelyreu=v0,u0=vk, ´es(vi1,vi)∈E(i=1,2, . . . ,k). Egy ´utegyszer˝u, ha a benne szerepl˝o cs´ucsok p´aronk´ent k¨ul¨onb¨oz˝ok. Ahv0,v1, . . . ,vki´utk¨or, hav0=vk, ´es az ´ut legal´abb egy ´elt tartalmaz. Egy gr´afot ¨osszef¨ugg˝onekh´ıvunk, ha b´armely k´et cs´ucsa ¨osszek¨othet˝o ´uttal. A k¨ormenetes, ir´any´ıt´as n´elk¨uli gr´afoterd˝onekh´ıvjuk. Ha az erd˝o ¨osszef¨ugg˝o, akkor pedigf´anak. Az olyan f´at, amely tartalmazza egyGgr´af minden cs´ucs´at, aG fesz´ıt˝of´aj´anakh´ıvjuk.

A gy¨okeres f´aban az egyik cs´ucsnak kit¨untetett szerepe van. Ezt a cs´ucsotgy¨ok´ernek nevezz¨uk.

A gy¨ok´erb˝ol egy tetsz˝oleges x cs´ucsba vezet˝o (egy´ertelm˝uen meghat´arozott) ´ut ´altal tartalmazott b´armelyycs´ucsot azx ˝os´eneknevez¨unk. Azt is mondjuk ekkor, hogyxazy lesz´armazottja. Hax6=y, akkorval´odi ˝osr˝ol´esval´odi lesz´armazottr´olbesz´el¨unk. Ha az ´utonx1 ´elen kereszt¨ul ´erhet˝o ely-b´ol, akkorxazy gyereke´esyazx sz¨ul˝oje. Ha k´et cs´ucsnak ugyanaz a sz¨ul˝oje, akkortestv´ereknekmondjuk

˝oket.

AG=(V,E)gr´afS,V\S v´ag´as´anaV halmaz k´etr´eszes part´ıci´oj´at ´ertj¨uk. Az(u,v)E ´elkeresztezi azS,V\Sv´ag´ast, ha annak egyik v´egpontjaS-ben a m´asikV\S-ben van. Egy v´ag´ass ´ulya– s´ulyozott gr´afok eset´eben – megegyezik a v´ag´ast keresztez˝o ´elek ¨osszs´uly´aval.

2.4. Val´osz´ın˝us´egsz´am´ıt´as

Felt´etelezz¨uk, hogy az olvas´o tiszt´aban van a val´osz´ın˝us´egi v´altoz´o, val´osz´ın˝us´egi v´altoz´o el- oszl´as´anak, s˝ur˝us´egf¨uggv´eny´enek, eloszl´asf¨uggv´eny´enek a val´osz´ın˝us´egi v´altoz´o v´arhat´o ´ert´ek´enek (E[X] =µ=∑x·p(x)) ´essz´or´as´anak(D2[X] =σ2=E[(Xµ)2]) vagy ´altal´anosan azn-edik centr´alis

(24)

momentumokfogalm´aval (Dn[X] =E[(Xµ)n]), tov´abb´a k´et val´osz´ın˝us´egi v´altoz´o k¨oz¨otti kovarian- ci´at (1nni=1(xiµx)(yiµy)) ´es korrel´aci´ot (√ ni=1(xiµx)(yiµy)

ni=1(xiµx)2

ni=1(yiµy)2).

Kev´esb´e ismert aferdes´eg, ami egy eloszl´as asszimetri´aj´at pr´ob´alja megadni. Ha a ferdes´eg nulla, akkor az eloszl´as szimmetrikus (p´eld´aul norm´alis eloszl´asokn´al), ellenkez˝o esetben a v´arhat´o ´ert´ekt˝ol balra (negat´ıv ferdes´eg eset´eben) vagy jobbra ”ny´ulik el”. A ferdes´egnek t¨obb mutat´oj´at defini´alt´ak;

ezek k¨oz¨ul a legelterjedtebb aγ1= (DD2[X])3[X]3/2), de szok´as m´eg aβ1=√γ1-et is hasz´alni.

Szint´en nem az alapfogalmak k¨oz´e tartozik a lapults´agfogalma, ami egy eloszl´as cs´ucsoss´ag´at adja meg. A lapults´agnak is t¨obb elfogadott defin´ıci´oja l´etezik. Legelterjedtebb aβ2=(DD24[X[X])]2 (kurtosis proper), ´es aγ22−3 (kurtosis excess) ´ert´ekek. A norm´alis eloszl´asβ2lapults´agi ´ert´eke h´arom, a norm´alisn´al laposabbak´e h´aromn´al kisebb. A ferdes´eget ´es a lapults´agot annak eld¨ont´es´en´el szokt´ak haszn´alni, hogy egy adott minta sz´armazhat-e norm´alis eloszl´asb´ol.

2.4.1. Hoeffding-korl´at

A Hoeffding-korl´at a mintav´etelz´essel kapcsolatos ´all´ıt´asok alapja.

2.1. lemma. Legyen Xi,1≤in µ v´arhat´o ´ert´ek˝u, f¨uggetlen, azonos eloszl´as´u val´osz´ın˝us´egi v´altoz´ok

´es aXib minden i-re. Ekkor tetsz˝olegesλ>0-ra fenn´all a k¨ovetkez˝o egyenl˝otlens´eg:

Ph1 n

i=1

Xiµ≥λi

≤2e2n/(ba)2.

2.4.2. Entr´opia

LegyenX egy diszkr´et val´osz´ın˝us´egi v´altoz´o, amely ´ert´ekeit egyXhalmazb´ol veheti fel. AzlX =

=−log2p(X)val´osz´ın˝us´egi v´altoz´ot azX entr´opias˝ur˝us´eg´eneknevezz¨uk.X entr´opi´aj´at –H(X)-et – ezen v´altoz´o v´arhat´o ´ert´ek´evel defini´aljuk:

H(X) =−

xX

p(x)log2p(x).

Az entr´opia valamik´eppen a v´altoz´obizonytalans´ag´at fejezi ki. HaXelemsz´ama r¨ogz´ıtett ´es azX v´altoz´o csak egy ´ert´eket vehet fel (mert az egyik ´ert´ek val´osz´ın˝us´ege 1), akkorH(X) ´ert´eke 0 (nincs bizonytalans´ag), ha pedig X eloszl´asa egyenletes eloszl´ast k¨ovet, akkor az entr´opia a maximum´at veszi fel, log2(|X|)-t.

LegyenX ´esY k´et diszkr´et ´ert´ek˝u val´osz´ın˝us´egi v´altoz´o. Az X-nek azY felt´etellel vett felt´eteles entr´opi´aja:

H(X|Y) =−

yY

xX

p(x,y)log2p(x|y), vagy egy kicsit ´atalak´ıtva kapjuk, hogy

H(X|Y) =−

yY

p(y)

xX

p(x|y)log2p(x|y).

Be lehet bizony´ıtani, hogyH(X|Y) =H(XY)−H(Y), ami inform´alisan ´ugy lehet megfogalmazni, hogy a felt´eteles entr´opia megadja, hogy mennyi bizonytalans´ag marad X-ben, ha elvessz¨uk az Y bizonytalans´ag´at.

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

P ´ ELDA. v´arossal b˝ov´ıtj ¨uk. v´arosra vonatkoz ´o elemet t ¨or ¨olhetj ¨uk.. Az els˝o megk ¨ozel´ıt´es azt vizsg´alja, hogy a legrosszabb lehets´eges esetben

Alapvet˝ o azonoss´ agokat, ´ al- l´ıt´ asokat seg´ edeszk¨ oz haszn´ alata n´ elk¨ ul k´ıv¨ ulr˝ ol tudni kell, p´ eld´ aul m´ asodfok´ u egyenlet megold´ ok´

Az euklide- szi geometri´ ar´ ol sz´ ol´ o fejezetben az euklideszi izometri´ ak t´ argyal´ asa mellett g¨ ombi ´ es inverz´ıv geometri´ ar´ ol, a szab´ alyos polit´

The basis of the method is the "saturation limit l a w " which relates the solubility limit of a molecular species of the polymer in a solvent-non- solvent system to

Sz´ amos esetben sz´ o esik a feladatok numerikus k¨ ozel´ıt˝ o megold´ as´ ar´ ol, amelyek a mell´ ekelt Matlab R programokkal az Olvas´ o sz´ am´ ara is kipr´ ob´

Tekints¨ unk egy olyan V t´ erfogatot, amely egybev´ ag´ o t t´ egl´ ak egym´ ashoz illeszt´ es´ evel j¨ on l´ etre. Amennyiben t-nek a V -t alkot´ o p´ eld´ anyai eltol´

Az ´ uj algoritmust t¨ obb heurisztikus r´ eszmegold´ assal implement´ alt´ ak ´ es az ezzel v´ egzett kezdeti tesztel´ es azt mutatja, hogy az elj´ ar´ as nem ´ erz´ ekeny

Nem t´ertem ki p´eld´aul a topol´ogia-meg˝orz´es pont-alap´ u (szimmetrikus ´es aszimmetrikus) elegend˝o felt´eteleib˝ol sz´armaztatott 2D p´arhuzamos