• Nem Talált Eredményt

3. A KUTATÁS TARTALMA, MÓDSZERE

3.3. A LKALMAZOTT MÓDSZERTAN

3.3.1. Klaszteranalízis

Az európai országok és a magyar megyék idegenforgalmi adóztatás szempontjából történő csoportosítása érdekében klaszteranalízis alkalmazására került sor, ami olyan dimenzió-csökkentő eljárás, amellyel adattömböket lehet viszonylag homogén csoportokba klasszifi-kálni az egyedeknek egy bizonyos ismérv-rendszerben felvett értékeit figyelembe véve. Ál-talános célja annak kiderítése, hogy léteznek olyan csoportok, amelyek tagjai jobban hason-lítanak egymáshoz, mint más csoportok tagjai, vagyis az egy csoporton belüli elemek min-den ismérv mentén közel vannak egymáshoz és minmin-den más csoporttól távol vannak. Az alapvető fogalom a klaszterelemzésnél tehát a távolság. Ennél az eljárásnál, ellentétben a diszkriminancia-elemzéssel, nem rendelkezünk előzetes, priori információkkal egyetlen elem klasztertagságáról sem. Minél nagyobb a homogenitás a csoportokon belül és minél nagyobb a különbség az egyes csoportok között, annál pontosabb a klaszteranalízis eredmé-nye. A klaszterek egy teljes gyűjteményére általában a klaszterezés elnevezés használatos (Tan – Steinbach – Kumar, 2006; Takács – Makrai – Vargha, 2015). A klaszterelemzést leggyakrabban piacszegmentálásra, piacszerkezet-elemzéshez, adatcsökkentéshez, a megfi-gyelési egységek számának csökkentésére használjuk, ebből következően az elemzés ered-ménye alapján a mintából nem vonhatók le következtetések az alapsokaságra (Sajtos – Mitev, 2007), hanem elsősorban feltáró statisztikai módszer.

A klaszterezési eljárások egyik lehetséges felosztása a hierarchikus és nem hierarchi-kus szempont szerinti besorolás. Lényeges különbség a két eljárás között, hogy a klaszterek száma a hierarchikus módszerekben nincs előre meghatározva, míg a nem hierarchikus osz-tályozásoknál előre meghatározott számú klaszterbe sorolódnak az esetek. A vizsgált minta kis elemszáma miatt elsősorban a hierarchikus eljárás kap szerepet. A hierarchikus elneve-zés azt tükrözi, hogy az eljárás az adathalmaz klasztereit egy hierarchikus adatszerkezet szerint dolgozza fel, amely szerkezet általában egy fa, annak csúcsai pedig maguk a klasz-terek. A hierarchikus módszer lehet agglomeratív (összevonó) vagy divizív (felosztó), előb-binél alulról felfelé, utóbbinál fentről lefelé irányuló stratégia valósul meg (Han – Kamber

– Pei, 2001). Az összevonó klaszterezés esetén minden elemet önálló klaszternek tekintünk, amelyek közül lépésenként összevonjuk a két legközelebbit, míg a felosztó klaszterezésnél egyetlen, minden elemet tartalmazó klaszterből indulunk ki és azt osztjuk ketté mindaddig, amíg minden elem önálló klaszter nem lesz (Tan – Steinbach – Kumar, 2006). A hierarchi-kus eljárás tehát az új klasztereket az előzőleg kialakított klaszterek alapján keresi meg, ezzel szemben a nem hierarchikus algoritmus egyszerre határozza meg az összes klasztert.

Az elemzés során a hierarchikus és nem hierarchikus típusú klaszterezési eljárások (6. ábra) kombinálva történtek: a hierarchikus klaszteranalízis segítségével megállapításra került a klaszterek ideális száma, majd a kiugró elemek kiszűrését követően nem hierarchikus klasz-terezési vizsgálattal alakultak ki a végső országcsoportok.

6. ábra: Klaszterezési eljárások csoportosítása Forrás: Sajtos – Mitev, 2007

A vizsgálatok elvégzéséhez szükséges kvantitatív változók meghatározása után azok korre-lálatlanságának igazolása Perason-féle lineáris korrelációs együttható számításával történt, melynek értéke a következő módon határozható meg:

ahol N az elemszám,

𝑥̅, 𝑦̅ az xi, yi értékek átlagai.

Ezután meghatározásra került a távolságnak az elemzésben használt mértékegysége, a négyzetes euklideszi távolság, amely a következő képlet alapján számítható ki:

𝑑𝑖𝑗 = ∑(𝑥𝑖𝑘− 𝑥𝑗𝑘)2

𝑝

𝑘=1

ahol p egy egynél nem kisebb valós szám.

A klaszterképző változók különböző mértékegységűek, ezért a mértékegység befolyásoló hatását az elemzés előtt standardizálással ki kellett küszöbölni, hogy ezáltal is növekedjen a jobb besorolás esélye. A változókból kivonásra került az átlaguk (𝑥̅), majd az eredményt szükséges volt osztani a szórásukkal (s), ezáltal egy 0 átlagú, 1 szórású változóvá (z) transz-formálódtak az alábbi képlet alapján:

𝑧

𝑖

=

𝑥𝑖𝑠−𝑥̅

𝑥 .

A klaszteranalízis első fázisában hierarchikus klaszterezési eljárással történt az orszá-gok klaszterekbe sorolása. Az egyes hierarchikus eljárások abban különböznek egymástól, hogy milyen elv alapján számítják a távolságot az adott elem és az új klaszter között. Ez alapján az alábbi hierarchikus agglomeratív eljárásokat különböztetjük meg:

 legközelebbi szomszéd vagy egyszerű láncmódszer (single linkage), amely azokat az elemeket vonja össze első lépésben, amelyek között a távolság a legkisebb, vagyis amelyek a legjobban hasonlítanak egymáshoz (Ennél a módszernél két klaszter kö-zötti távolságot mindig a két legközelebbi pont távolsága határozza meg.);

 legtávolabbi szomszéd vagy teljes láncmódszer (complete linkage), amelynél két klaszter közötti távolságot a két legtávolabbi pont határozza meg;

 átlagos láncmódszer, amely esetén két klaszter távolságát az összes elem páronkénti távolságának átlaga definiálja;

 Ward-féle eljárás, amely olyan variancia módszer, melynek keretében minden klasz-terre kiszámításra kerül az összes változó átlaga, majd minden elemre meghatározzuk a négyzetes euklidészi távolságot, és minden lépésnél azt a két klasztert vonjuk össze, amelyeknél a klaszteren belüli szórásnégyzet növekedése a legkisebb;

 centroidmódszer, melyben két klaszter közötti távolság megegyezik a centroidjuk (összes változó átlaga) közötti távolsággal és a centroidokat minden lépés után újra számoljuk (Obádovics, 2009; Csallner, 2015).

Az elemzés elsősorban a Ward-féle eljárást alkalmazta, ami a gazdasági alkalmazásokban rendkívül elterjedt, a legtöbb esetben a szakirodalom és annak vizsgálatai alapján jó felosz-tásokat eredményez és az egyes elemek csoportokba sorolása is megfelelőnek bizonyul (Si-mon, 2006). A kiugró értékeket az egyszerű láncmódszer segítségével lehetett kiszűrni. Az

eljárás más távolságmértékekkel is megismétlődött, mint például a Csebisev-távolsággal, amely az alábbi képlet alapján határozható meg:

Ezt követően a végleges csoportképzés érdekében nem hierarchikus módszer került alkal-mazásra, k-központú klaszterképzéssel (k-means cluster). Ez a módszer a legszélesebb kör-ben elterjedt nem hierarchikus eljárás, amit először MacQueen írt le tanulmányában (1967).

A módszer az egyszerű euklideszi távolságot használja a klaszterek közti távolságok méré-séhez, amelyet a következő képlet alapján számolunk.

𝑑𝑖𝑗 = √∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘)2

𝑝

𝑘=1

ahol p egy egynél nem kisebb valós szám.

A klaszteranalízis megbízhatóságát különböző eljárások segítségével növelhetjük (Han – Kamber – Pei, 2001; Obádovics, 2009; Sajtos – Mitev, 2007). Az elemzéshez más távolságmértékeket vagy más klasztereljárásokat alkalmazhatunk, kevesebb elemmel is el-végezhetjük, majd a különböző módszerek által létrehozott klasztereket összehasonlítva meg lehet bizonyosodni az analízis validitásáról. Nem hierarchikus eljárás esetén az ered-mény az elemek adatbázisban elfoglalt helyétől is függhet, így az elemzést az elemek más sorrendjével is célszerű lehet elvégezni.