• Nem Talált Eredményt

A csoportok értelmezhetősége

6. A klasszifikációk értékelése

6.1. A klasszifikációk értékelésére használt módszerek áttekintése

6.1.6. A csoportok értelmezhetősége

Az adatok klasszifikációja nem cél, hanem eszköz az adataink struktúrájának jobb megértéséhez. Ennek érdekében a kapott csoportokat értelmezzük, elsősorban a klasszifikációban is szereplő változók alapján, de ha lehetséges, akkor további, a csoportosítással feltételezhetően kapcsolatban álló változók (esetünkben általában a környezeti háttértényezők) alapján is. Ebben a részben a csoportosításban is felhasznált változók alapján történő értelmezhetőséggel foglalkozom, a külső változók alkalmazásának lehetőségeit a következő fejezet tárgyalja.

Azt, hogy hogyan értelmezzük a csoportokat, elsősorban a szakma szabályai, hagyományai szabják meg. A cönológiában gyökerező, durva léptékű vegetációtanulmányokban az értékelés (és gyakran maga az elemzés is), elsősorban a fajok konstanciái, illetve az ebből számolt fidelitás alapján történik, a fajok tömegessége emellett másodlagos, legfeljebb a magas borítást elérő, domináns fajok jelennek meg az értékelésben. Ennek megfelelően, a csoportok értelmezhetőségét mérő módszerek többsége is általában a csoporton belüli előfordulási gyakoriságokon, vagyis végső soron bináris adatokon alapul. A fidelitás koncepció, illetve ehhez kapcsolódóan a fajok válogatóképessége azonban kiterjeszthető a borítás adatokra is (lásd az 5.3 fejezetben), így a bemutatott indexek egy része a borítás adatokra is kiszámolható.

Vezessük be a következő jelöléseket:

Fij = az i faj előfordulásainak száma a j csoportban

. 

. 

66

.. 

nj = a j csoportba tartozó felvételek száma N = a vizsgálatban szereplő felvételek száma K = a csoportok száma

S = a fajok száma 5.1 ISAMIC (Aho et al. 2008)

A csoport értelmezését megkönnyíti, ha a fajok vagy nagy, vagy nagyon alacsony konstanciával fordulnak elő benne, vagyis alacsony a közepes konstanciájú fajok aránya. Ez az index ezt az elvárást számszerűsíti:

3

5.2. Morisita index (Aho et al. 2008)

A csoportok értelmezése annál könnyebb, minél inkább eltérőek a fajok konstanciái a csoportokban. Aho és munkatársai (2008) javaslata szerint két felvétel konstanciáinak összehasonlítására a Morisita index használható10:

W 1 2 ∑  

.

.∑  ..∑ 

A partíció jósága a páronkénti különbségek átlagával mérhető.

5.3. Relatív divergencia (Feoli & Lausi 1980)

Feoli és Lausi (1980) szerint a bináris faj x felvétel mátrixot átrendezhetjük egy olyan kontingencia-táblázattá, amelynek sorai a fajok, oszlopai a csoportok és celláiban az adott faj, adott csoportban való előfordulásainak száma szerepel. Annál jobb a csoportosítás, minél inkább különböznek egymástól az oszlopokban szereplő gyakoriságeloszlások. A gyakoriságeloszlások különbözőségének mérésére három információelméleti mérőszámot is javasoltak, de a köztük levő függvénykapcsolat miatt csak a relatív divergenciát mutatom be:

N ∑ ∑ ln ..

A csoportosítás annál jobb, minél több faj használható a csoportok jó elkülönítésére.

Egyik lehetőség ennek számszerűsítésére az 5.3 fejezetben bemutatott válogatóképesség értékek átlagának használata.

A mocsárrétek rendszerezéséről szóló cikkünkben (Botta-Dukát et al. 2005) az elméleti várhatóértékkel és szórással korrigált G-statisztika alkalmazását javasoltuk, a

10 Aho és munkatársai (2008) az átlagos hasonlóság alkalmazását javasolták, de komplementerét, az átlagos különbözőséget szemléletesebbnek tartom.

67 csoportosítás élessége (crispness11) néven. Annak érdekében, hogy a kiszámított értékek eloszlása minél jobban illeszkedjen az elméleti értékhez, az számítást csak a felvételek legalább 10%-ban előforduló fajokra végeztük el.

Az elméleti értékek helyett a standardizálásra a randomizációból számolt átlag és szórás is használható, illetve a fajok válogatóképessége a korrigált (adjusted) R2 értékkel is mérhető.

5.5. Átlagos fidelitás, illetve a fidelitás értékek átlagos elsőfajú hibája

Dufrene & Legendre (1997) eredetileg a szignifikáns fidelitás (esetükben IndVal) értékek összegét javasolta a csoportosítás jóságának mérőszámaként. Podani és Csányi (2010) módosító javaslata szerint, érdemes az összegzésnél az összes faj fidelitását figyelembe venni, de az eredményből vonjuk le a random klasszifikációkra kapott értékek átlagát, és osszuk el azok szórásával. Aho és munkatársai (Aho et al.

2008) viszont az egyes fajokra számolt elsőfajú hibák átlagolását javasolták.

Mindhárom eljárásban közös, hogy a fidelitás átlagos erősségét mérik.

5.6. A szignifikáns fidelitások száma

Egymástól függetlenül Aho és munkatársai (Aho et al. 2008) és kutatócsoportunk (Tichý et al. 2010) is javasolta ennek a mérőszámnak az alkalmazását. Aho és munkatársai javaslatában az IndVal értékek (Dufrene & Legendre 1997) alapján, randomizációval állapítjuk meg, hogy mely fidelitás értékek szignifikánsak egy előre eldöntött szinten (cikkükben ez 5%). Ennek a módszernek az előnye, hogy borítás értékeket is figyelembe vehetünk; hátrány a randomizáció miatti nagyobb számításigény.

Az általunk javasolt módszer (OptimClass1; Tichý et al. 2010) az elsőfajú hibát Fisher-féle egzakt teszttel állapítja meg, így csak bináris adatokra használható, viszont nincs szükség hosszadalmas randomizációra. Ha az optimális csoportszám megállapítása a cél, az eredmény függ az alkalmazott szignifikancia-szinttől (alacsonyabb szignifikancia-szint esetén magasabb csoportszám lesz az optimális), ezért érdemes többféle szignifikancia szintet kipróbálni.

Ugyanebben a cikkben (Tichý et al. 2010) javasoltunk egy második mérőszámot is (OptimClass2): azoknak a csoportoknak az arányát, amelyeknek legalább k szignifikáns karakterfaja van, ahol a k egy a felhasználó által beállítandó paraméter.

Az OptimClass2 hátterében az a gondolat van, hogy ha már elég sok karakterfaja van egy csoportnak, újabbak már nem növelik a csoportosítás jóságát. Vagyis fontosabb, hogy minden csoportnak legyen kellő számú karakterfaja, mint, hogy összesen sok karakterfaj legyen (ami úgy is megvalósulhat, hogy csak egy csoportnak van sok karakterfaja).

5.7. A fajok átlagos nicheszélessége (Casado et al. 1997)

A klasszifikáció során kapott csoportokat tekinthetjük különböző termőhelyeknek, és ez alapján kiszámolhatjuk a fajok nicheszélességét. Ha a csoportok jól elkülönülő

11 Utólag úgy gondolom, szerencsésebb lett volna a sharpness kifejezést használnunk.

68 élőhelyeknek feleltethetők meg, a fajok nicheszélessége kicsi lesz. Casado és munkatársai (1997) a faj nicheszélességét a Shannon-entrópiával mérték:

  ln

Mivel az entrópia elméleti maximuma függ a csoportok számától, javasolták, hogy a fajok entrópiáinak az előfordulások számával súlyozott átlagát osszuk el az elméleti maximummal:

 ∑ .

..ln1 6.1.7. A csoportosítás prediktív ereje

A vegetációs adatok elemzésekor kapott csoportoktól elvárjuk, hogy ha ismerjük, hogy a felvétel melyik csoportba tartozik, akkor ezzel ne csak arról kapjunk információt, hogy milyen növényfajok előfordulása várható ott, de közvetve az élőhelyi háttértényezőkről is.

Vagyis a jó csoportosítás alapján olyan változók tekintetében is tehetünk predikciókat, amelyeket nem használtunk fel a csoportok kialakításakor. Mivel ebben az esetben a vizsgált változó(k) és a csoportosítás elvben függetlenek is lehetnek, használhatjuk a klasszikus statisztikai módszereket is, beleértve a függetlenségi hipotézis tesztelését. Általában nem egy-egy környezeti változót vizsgálunk, hanem egyszerre többet, ezért a leggyakrabban alkalmazott módszer a diszkriminancia-analízis (pl. Gerdol et al. 1985, Hakes 1994).

Ebbe a csoportba sorolható Picard és Franc (2003) munkája is, akik a fajok csoportosításának jóságát azzal mérik, hogy az erdődinamikai modellekben a fajok helyett fajcsoportokat használva mennyire változnak meg az eredmények.

6.1.8. Összehasonlítás random adatokkal

Az eddig tárgyalt szempontok azt vizsgálták, hogy melyik legjobb csoportosítás az adott adatsor esetén. A klasszifikációs eljárások azonban random adatok esetén is létrehoznak csoportokat (Podani 1997). Ezért feltehető az a kérdés is, hogy vannak-e egyáltalán csoportok az adatainkban (Tan et al. 2005), és ha igen, mely csoportok tekinthetők a véletlen csoportoknál jobbaknak (Strauss 1982)?

Az első kérdésre az adatok klasszifikációja nélkül is válaszolhatunk. Próba statisztikaként elsősorban a legközelebbi szomszédok távolságán alapuló jellemzők, például a Hopkins statisztika javasolható (Bock 1996, Tan et al. 2005). A kritikus pont a megfelelő null-modell megtalálása. A klasszifikációs szakirodalomban (pl. Bock 1996) általában javasolt modellek – egymástól független, egyenletes vagy unimodális eloszlású változók – nem alkalmasak a vegetációs adatokra, ahol egy reális null-modellben a változók összege egy felvételen belül (bináris adatoknál a fajszám, borítás adatoknál az összborítás) nem lehet tetszőleges érték. Bináris adatoknál Strauss (1982) a sor és oszlopösszegeket is megőrző randomizálást javasol, kivéve, ha feltételezhető, hogy a felvételek fajgazdagságának különbségei csak a véletlenből adódnak és nem az adott lokalitás jellemzőiből. Az utóbbi esetben elegendő a fajok előfordulásainak számát megőrizni a randomizáció során. Borítás

69 adatok esetében közel sem ennyire egyértelmű, hogy mi a megfelelő random modell.

Összehasonlíthatjuk a teljes klasszifikáció jóságát a random klasszifikációk jóságával.

Erre leginkább a csoportok tömörségét, összekötöttségét és elválását vizsgáló indexek használhatók. Nem csak a bemutatott több szempontot kombináló indexek, hanem csak egy szempontot figyelembe vevők is. Ez azonban inkább csak elméleti lehetőség, gyakorlati alkalmazására nem láttam még példát. Nem alkalmasak azonban a klasszifikáció jóságának vizsgálatára az a priori csoportok elkülönülésének elemzésére szolgáló módszerek, például a diszkriminancia-analízis vagy az ANOSIM (Clarke 1993). Utóbbi hibás alkalmazására Aho és munkatársainak (2008) tanulmánya egy friss példa.

Nagyobb gyakorlati jelentősége van a dendrogramokban az egyes szétválásokat tesztelő eljárásoknak (Strauss 1982, Hunter & McCoy 2004). A korábbi módszereket továbbfejlesztve Hunter és McCoy (2004) a következő eljárást javasolta:

1. számos random adatsort állítunk elő

2. a random adatokat ugyanazzal a hierarchikus módszerrel csoportosítjuk, mint a terepi adatokat

3. a terepi adatok dendrogramjában az adott összevonáshoz tartozó fúziós szintet a megfelelő fúziós szint null-eloszlásához viszonyítjuk

4. ha a terepi fúziós szint szignifikánsan magasabb a random esetben vártnál, azaz az elválás szignifikáns, a továbbiakban a két részmátrixot külön randomizáljuk.

6.1.9. A klasszifikációk értékelésére szolgáló módszerek csoportosításának egyéb szempontjai

Az eddigiekben a klasszifikációk értékelésére használt módszereket az általuk figyelembevett szempont (kritérium) szerint csoportosítva mutattam be. Érdemes azonban röviden kitérni az egyéb csoportosítási lehetőségekre is.

A leggyakrabban említett csoportosítás (pl. Feoli et al. 1981, Gordon 1999, Aho et al.

2008) a figyelembevett adatok szempontjából osztja két részre a módszereket: a belső (internal) kritériumok olyan változókat vesznek figyelembe, amelyeket a csoportok kialakításánál is felhasználtunk, míg a külső (external) kritériumok olyan információt is felhasználnak, amit a csoportosításnál nem vettünk figyelembe. A bemutatott módszerek többsége az első kategóriába tartozik, kivételt a csoportosítás prediktív erejét mérő módszerek jelentenek. Szintén a külső kritériumokhoz sorolható, amikor a szimulált adatok elemzésekor a kapott csoportok az ismert helyes csoportosításhoz hasonlítjuk (lásd pl. a zajszűrésről szóló fejezetben).

Az optimális csoportszám megállapítására használható módszereket Gordon (1999) két csoportba sorolja: a globális módszerek a teljes klasszifikáció jóságát vizsgálják, míg a lokális módszerek azt tesztelik, hogy érdemes-e egy adott csoportot két részre osztani. A bemutatott módszerek döntő többsége globális kritérium. A lokális kritériumra példa Hunter és McCoy (2004) által javasolt eljárás.

70 16. táblázat: Az egyszerű jósági indexek néhány tulajdonsága

Geometriai /

Dunnmin-max geometriai K maximum ∞

Dunnavg-avg geometriai K maximum ∞

módosított Davis &

Bouldin

geometriai Cs, K minimum 0

Popma (súlyozatlan) geometriai Cs, K minimum 0

Popma (súlyozott) geometriai Cs, K minimum 0

Relatív divergencia nem-geometriai K maximum ∞

Crispness nem-geometriai K maximum -

átlagos L;7 nem-geometriai K maximum 1

OptimClass1 nem-geometriai Cs, K maximum -

átlagos nicheszélesség

nem-geometriai K minimum 0

71 Praktikus szempontból érdemes megkülönböztetni a klasszifikáció valamilyen tulajdonságát számszerűsítő egyszerű indexeket, és a több párhuzamos csoportosítás összehasonlításával az eredmények stabilitását vagy repetitivitását vizsgáló módszereket.

Kisebb számításigényük miatt a nagy adatbázisok elemzésekor inkább az egyszerű indexek alkalmazása célszerű. Ezek egy része csak a teljes partícióra értelmezhető, mások azonban kiszámolhatók az egyes csoportokra is, és a partícióra jellemző érték, a csoportok értékeinek (súlyozott) átlaga. Utóbbiak alapján nem csak a teljes osztályozás, hanem az egyes csoportok tömörsége és elkülönültsége is értékelhető. A sziluett értéke pedig az egyes felvételekre is kiszámolható, így megkereshetők a csoportokat összekötő, vagy éppen félreklasszifikált felvételek (16. táblázat).

Aho és munkatársai (2008) nyomán megkülönböztethetünk geometriai és nem-geometriai értékelő módszereket. Az előbbiek a csoportosítás során használt távolság (esetleg hasonlóság) mátrixot felhasználják az értékelés során is. Ezért ezek a módszerek nem használhatók a különböző távolságfüggvények közti választáshoz. Ha az a kérdésünk, hogy melyik távolságfüggvényt használva kapunk jobb csoportosítást (pl. Tichý et al. 2010) akkor nem geometriai értékelő módszert kell választanunk.

6.2. Az értékelő módszerek alkalmasságának összehasonlítása

Mint már említettem, a nagy adatbázisok elemzésekor, kisebb számításigényük miatt, érdemes az egyszerű indexeket választani. Az alábbiakban 23 ilyen index tulajdonságait értékelem szimulált adatok alapján.

6.2.1. Anyag és módszer

A klasszifikációkat értékelő módszerek tesztelésében úttörő szerepe volt Milligan (1981, Milligan & Cooper 1985) munkáinak, ezért érdemes az általa használt módszerekből kiindulni. Milligan és Cooper (1985) – és nyomukban más szerzők is (pl. Pal & Biswas 1997, Halkidi et al. 2002) – olyan szimulált adatokat vizsgáltak, ahol a csoportok száma előre ismert, és akkor tekintették jónak az értékelő módszert, ha a beállított csoportszámot jelezte optimálisnak. Ennek a látszólag kézenfekvő megoldásnak több hátránya is van. A legfontosabb, hogy ha az elméleti és az optimálisnak jelzett csoportszám megegyezik, az még nem bizonyítja, hogy az optimálisnak jelzett csoportosítás megegyezik az elméletivel (Dimitriadou et al. 2002), sőt az is lehetséges, hogy egy kicsit eltérő csoportszám esetén az elméletihez jobban hasonlító csoportosítást kapunk (Vendramin et al. 2010) (23. ábra). Az elméletivel megegyező optimális csoportszám aránya azért sem jó, mert nem jelzi, hogy mekkora a torzítás, amikor az értékelő módszer hibás eredményt ad. Az elméleti és az optimálisnak jelzett csoportszám különbsége – ahogy azt Milligan és Cooper (1985) javasolta – nem alkalmas erre, mert ugyanakkora eltérés, nagyon eltérő torzítást jelezhet (Vendramin et al. 2010) (23. ábra).

Vendramin és munkatársai (2010) szerint jobb kiindulópont a Milligan (1981) által használt módszer, amelynek alapgondolata, hogy az ismert szerkezetű mesterséges adatoknál a csoportosítások jóságát mérhetjük a hasonlóságukkal a valós csoportosításhoz.

72 a)

b)

c)

23. ábra: Egy kétváltozós mesterséges adatsor (Ruspini 1970) különböző klasszifikációinak eredményei. Az adatsor négy csoportot tartalmaz és az (a) esetben is négy csoportot kaptunk, mégis láthatóan természetesebb a 3 csoportot tartalmazó (b) vagy az 5 csoportos (c) klasszifikáció. Legjobbnak az utóbbi tekinthető, mert a (b) esetben a két valós csoport összeolvasztása információvesztést jelent (Vendramin et al. 2010 nyomán).

73 Az a jó belső adatokon alapuló index, amely minél inkább reprodukálni tudja ennek az összehasonlításnak az eredményét, vagyis amely erősen korrelál a hasonlóság értékekkel. A kapott csoportosítások és valós csoportosítás összehasonlítására többféle index létezik a szakirodalomban (Podani 1986), amelyek közül az egyik leggyakrabban használtat, a módosított Rand-indexet használtam (3. melléklet).

Milligan (1981) eredeti módszere szerint az összehasonlításhoz az ismert a valós csoportszámmal megegyező csoportszámú partíciókat kell használni, de Vendramin és munkatársai (2010) rámutattak, hogy ezzel túlságosan leszűkítjük a vizsgált partíciók körét, ezért különböző csoportszámok alkalmazását javasolták.

A mesterséges adatokat a 4.1.2 fejezetben leírt módon állítottam elő, így a valódi csoportok száma 5 volt. Minden adatsort négyféle klasszifikációs módszerrel – átlagos lánc (UPGMA), béta flexibilis (β=-0.25), teljes lánc (Podani 1997) és pam (partitioning around medoid; Kaufman & Rousseeuw 1990) – elemeztem, valamennyi esetben a Jaccard-különbözőséget használva távolságként. A nem-hierarchikus klasszifikációban a csoportszámot 2 és 10 között változtattam, a hierarchikus osztályozások dendrogramjait pedig úgy vágtam el, hogy 2-10 csoportot kapjak, így végül egy-egy adatsornak 36 különböző osztályozása állt rendelkezésemre. Ezeket hasonlítottam össze a valós csoportosítással, illetve ezekre számoltam ki a klasszifikációt értékelő indexeket. Ezután lineáris korrelációt számoltam a klasszifikációt értékelő index értéke, és a korrigált Rand-index között. A jobb összehasonlíthatóság kedvéért, azoknál az indexeknél, amelyeknek a kisebb értéke jelzi a jobb klasszifikációt, a kapott korrelációt mínusz eggyel megszoroztam. Vendramin és munkatársai (2010) javaslatát követve 50-szer megismételtem a szimulációt, így minden indexet 50 korrelációs érték eloszlása jellemez.

Bár a vizsgált indexek nem annak eldöntésére szolgálnak, hogy vannak-e egyáltalán csoportok az adatokon belül, mégis érdemes megvizsgálni jelzik-e és ha igen, hogyan a csoportstruktúra teljes hiányát. Ehhez a 4.1.2 fejezetben bemutatott sziklagyepi adatsorból állítottam elő 50 random adatsort. A randomizálás során Miklós és Podani (2004) módszerét használva összekevertem a bináris adatmátrixban az előfordulás és hiány értékeket, változatlanul hagyva a felvételek fajszámát és a fajok gyakoriságát. Ezután a felvételek Jaccard különbözősége alapján béta-flexibilis algoritmussal (β=-0.25) hierarchikus osztályzásokat készítettem, amelyeket 2-20 csoportból álló partíciókká alakítottam.

Vizsgáltam, hogy hogyan alakul az indexek értéke a csoportszám függvényében, illetve, hogy a viszgált tartományon belül melyik csoportszámot jelzik a legjobbnak.

A számításokat az R 2.9.2 programmal (R Development Core Team 2010) végeztem, felhasználva a vegan (Oksanen et al. (2010), cluster (Maechler et al. 2005) és clues (Chang et al. 2009) csomagokat.

6.2.2. Eredmények

Az azonos és eltérő csoportméretek esetén kapott eredmények között nem volt egyik index esetén sem lényeges eltérés. A hét index közül, amelyek azt vizsgálják, hogy mennyire torzul a távolságmátrixban rejlő információ, csak három adott jó eredményt: a Baker &

74 Hubert, a Hubert & Levine és a McClaine & Rao (24. ábra). A többi index esetén a korreláció a korrigált Rand-indexszel meglepő módon gyakran negatív. Csoportstruktúra hiányában Baker & Hubert index értéke a csoportszámmal nő, míg a Hubert & Levine és a McClaine &

Rao indexé csökken (27. ábra). A Hubert & Levine index esetén az optimálisnak talált csoportszám ilyen esetben változó, ezért ez az index nem jelzi a csoportstruktúra hiányát.

Ezzel szemben a Baker & Hubert és a McClaine & Rao indexeknél csoportstruktúra hiányában szinte mindig a megvizsgált legmagasabb csoportszám bizonyult a legjobbnak.

A csoportok tömörségét és elválását vizsgáló indexek közül a Popma-index súlyozott verziója korrelált legerősebben a korrigált Rand-indexszel, de nem sokkal maradt el tőle súlyozatlan változat sem (25. ábra). Kisebb, de még mindig döntően pozitív korrelációkat mutatott a Dunnmin-max és a helyesen klasszifikált felvételek aránya. A csoportstruktúra hiányát szinte csak a súlyozott Popma-index jelezte egyértelműen, bár az átlagos sziluett nagyon alacsony értékei alapján is gyanakodhatunk ugyanerre (27. ábra).

A csoportok értelmezhetőségét számszerűsítő indexek közül a Rand-indexszel való korreláció alapján jónak bizonyult a relatív divergencia, az átlagos korrigált R2 és az átlagos nicheszélesség. A karakterfajok számánál meglepő módon csak akkor kaptunk elfogadható korrelációt, ha a szignifikanciaszintet viszonylag magasra (10-3) választottuk (26. ábra). A csoportstruktúra hiányát jól jelzi a relatív divergencia és az átlagos nicheszélesség trendje (mindkét esetben egyértelműen a legnagyobb megvizsgált csoportszám bizonyult a legjobbnak), valamint a karakterfajok száma (OptimClass1), különösen, ha alacsonyabb szignifikancia szinteket választunk (29. ábra).

6.2.3. Diszkusszió

Habár számos vizsgált index kifejezetten ökológiai indíttatású, az ökológiai szakirodalomban nem találtam példát a klasszifikációt értékelő indexek tesztelésére. Aho és munkatársai (2008) vizsgálták a különböző indexek közti korrelációt, ebből azonban nem lehet következtetéseket levonni arra, hogy mely indexek a jól használhatók.

A más tudományterületeken – elsősorban a pszichológiában – elvégzett korábbi összehasonlító vizsgálatok (pl. Milligan & Cooper 1985, Vendramin et al. 2010) mesterséges adatai általában kevés dimenziós, euklideszi térben jól elkülönülő csoportokat alkotó pontfelhők. A vegetációs adatok viszont sokdimenziósak, gyakran bináris skálájúak, és még ha arány skálájúak is, nem euklideszi térbeli pontok. Ezért az ott kapott eredmények nem vehetők át előzetes ellenőrzés nélkül. Ahogy Vendramin és munkatársai (2010) cikkük zárszavában nagyon korrekten leszögezik: „As a word of caution, it is worth remarking that the above results and conclusions hold for a particular collection of data sets. Since such a collection is reasonably representative of a particular class, namely, data with volumetric clusters following normal distributions, it seems legitimate to believe that similar results are likely to be observed for other data sets of this class. However, nothing can be presumed about data sets that do not fall within this class, at least not before new experiments involving such data are performed.”

75 a)

b)

24. ábra: A távolságmátrix és a csoportosítás közötti kapcsolat szorosságát mérő indexek tesztelésének eredménye. a) egyenlő csoportméret, b) eltérő csoportméret.

Jelmagyarázat: 1. Pont-biszeriális korreláció, 2. Tau, 3. Baker & Hubert, 4. G+, 5.

Hubert & Levine, 6. McClaine & Rao, 7. PARTANA

1 2 3 4 5 6 7

-1.0-0.50.00.51.0

1 2 3 4 5 6 7

-1.0-0.50.00.51.0

76 a)

b)

25. ábra: A csoportok tömörségét és elválását mérő indexek tesztelésének eredménye. a) egyenlő csoportméret, b) eltérő csoportméret. Jelmagyarázat: 8. Dunnmin-max, 9.

Dunnavg-avg, 10. módosított Davis & Bouldin, 11. Popma (súlyozatlan), 12. Popma (súlyozott), 13. átlagos sziluett, 14. helyesen klasszifikált felvételek aránya, 15. Feoli

8 9 10 11 12 13 14 15

-1.0-0.50.00.51.0

8 9 10 11 12 13 14 15

-1.0-0.50.00.51.0

77 a)

26. ábra: A csoportok értelmezhetőségét mérő indexek tesztelésének eredménye. a) egyenlő csoportméret, b) eltérő csoportméret. Jelmagyarázat: 16. ISAMIC, 17. Morisita, 18.

relatív divergencia, 19. Crispness, 20. átlagos L;7 21. fidelitás értékek átlagos elsőfajú hibája, 22. OptimClass1 (p=10-3), 23. OptimClass1 (p=10-6), 24. OptimClass1 (p=10-9), 25. átlagos nicheszélesség

16 17 18 19 20 21 22 23 24 25

-1.0-0.50.00.51.0

16 17 18 19 20 21 22 23 24 25

-1.0-0.50.00.51.0

78 17. táblázat: A vizsgált indexek értékei az 50 vizsgált mesterséges adatsor egyikénél a valódi csoportosítás, és egy két csoportból álló partíció esetén. Mivel az indexek egy

78 17. táblázat: A vizsgált indexek értékei az 50 vizsgált mesterséges adatsor egyikénél a valódi csoportosítás, és egy két csoportból álló partíció esetén. Mivel az indexek egy