Az elemzés klaszteranalízis segítségével

Porter makrogazdasági versenyképesség modellje

7.2. Kutatási módszertan

7.2.2. Az elemzés klaszteranalízis segítségével

A piacszegmentálás során alkalmazott módszertan a piackutatásban elfogadott irányelvek szerint (Hoffmann-Kozák-Veres [2000], Malhotra [2001]) az adatredukciós módszerek közül a klaszteranalízist helyezi eloté rbe

A klaszterelemzés segítségével a rekordok számát csökkentjük úgy, hogy azokat olyan viszonylagosan homogén sokaságokra osztjuk, amelyek egymáshoz képest relatíve heterogén elemek halmazát adják (Malhotra, [2001]). A klaszteranalízis adja tulajdonképpen a szegmentáció alapját, az egyes klaszterek képezik a késobbi piaci szegmenseket.

A klaszterelemzés egy dimenziócsökkentési eljárás, amelynek jelentéstartalma annyi, hogy a megfigyelési egységeket úgy csoportosítjuk, hogy az egy klaszterbe tartozó változók közötti távolság kicsi, az egyéb klaszterektol való távolsága viszont nagy legyen (Székelyi-Barna, [2002]).

A nagy mintákon legjobban alkalmazható klaszterelemzési eljárás Székelyi-Barna szerint az úgynevezett gyors klaszter (K-közép klaszter, K-középpontú klaszter, K-Means Cluster), ami egy nem-hierarchikus eljárás.

A K-középpontú klaszter eljárásának rövid ismertetése¹⁰

A kutató elozetesen meghatározott számú klaszter létrehozása melletti döntése után a statisztikai programcsomag (jelen esetben az SPSS for Windows) az egyes klaszterekhez középpontokat társít. A középpontok pedig az adatállomány adott eljárással kiválasztott elemeinek adataiból keletkeznek.

• A kezdeti klaszterközéppontok (iniciális klaszterközéppontok) eloször az adatállomány elso k elemének adataiból adódnak, ahol ez az elso k elem a meghatározott klaszterek száma. Ezután a statisztikai program egymás után elemzi a következo rekordokat, és abban az esetben, ha a soron következo

10 Székelyi-Barna [2002] nyomán. Megjegyzendo, hogy a módszer Hartigan nevéhez fuzodik (lásd Hartigan [1975, 1979])

elem távolsága nagyobb, mint a két egymáshoz legközelebbi klaszterközéppont távolsága, akkor a klaszterközéppontokat kicseréli¹¹.

Az iniciális klaszterközéppontok meghatározása után a szoftver rendezi a rekordokat a középpontok által determinált klaszterekbe. Ezt a lépéssorozatot iterálva helyezi el a program az összes elemet az egyes klaszterekbe.

A klaszterelemzés további feltételei:

• a hiányzó adatok kezelése,

• az adatok összehasonlíthatósága (standardizálás).

Amennyiben az adatállomány egy rekordjának legalább egy adata hiányzik, a klaszterképzés során az a rekord nem sorolható be egyik klaszterbe sem. Például ha egy cég esetében nem ismert az árbevétel, az adott cég kimarad az elemzésbol. A legbiztonságosabb megoldás ebben az esetben az, ha az adott rekord nem kerül bele a klaszterelemzésbe, azaz az adatállomány további szurést igényel. A korábban már módosított adatbázist leszurve így n=611 cégrol volt információ.

A figyelembe vett változói nómenklatúra mindegyike numerikus , többsége kategorizált, a folytonos változók (pl. az alapítás éve) viszont egyértelmuen kategorizálhatók, így sikerült kialakítani ordinális változói skálákat. Mivel az egyes változók értéke az adott változóhoz képest volt csupán értelmezheto, ezért az adatok standardizálására volt szükség. Az egyes változók értékeinek standardizálása az SPSS által is alkalmazott módszer segítségével, vagyis a

∑

⁻

i i

i x

t x transzformáció

alkalmazásával történt meg.

11 A távolság meghatározása a klaszterképzo eljárásokban többféle is lehet. A leggyakrabban alkalmazott módszerek az euklideszi távolságon alapuló, az euklideszi távolság négyzetén alapuló számítások, valamint az asszociáción alapuló közelség-távolság számítások (részletesebben lásd:

Székelyi-Barna [2002].

A klaszterek meghatározása

Több kísérlet után a négyklaszteres megoldás elégítette ki a leginkább a klaszterekkel szemben korábban megfogalmazott kritériumokat, melynek a levezetése – a fontosabb részletek szemléltetésével – a következokben olvasható¹².

Az iniciális klaszterközéppontok meghatározása után a z iteráció 9 lépésben lezajlott.

Iteration History^a

Convergence achieved due to no or small distance change. The maximum distance by which any center has changed is ,000. The current iteration is 9. The minimum distance between initial centers is 5,862.

18. táblázat: Az iniciális klaszterközéppontok meghatározásátköveto iterácói

Forrás: KSH, saját számítás

Az egyutas varianciaanalízisek (ANOVA) futásának eredményeként megállapítható, hogy a klaszterelemzés mindegyik bevont változója szignifikánsan különbözik egymástól az adott modellben, hiszen az F-statisztika mellett álló szignifikancia-értékek mind 0,05 alatti számot mutatnak (Székelyi-Barna, 2002 nyomán). Ez nem

12 A K-középopntú klaszterelemzési eljárások alkalmával a klaszterek számának meghatározása nagyrészt a kutatói intuíciókon múlik. Gyakori eset, hogy a kutatónak elozetes hipotézisei vannak a különbözo klaszterek típusáról, ez pedig valamely mértékben determinálja a klaszterek számát is.

Ebben a klaszterezési eljárásvana klaszterek interpretációja, vagyis a megalkotott csoportok magyarázhatósága dönto lehet a klaszterek számának meghatározásában is, amint az a jelen esetben is történt.

jelent mást, mint azt, hogy az egyes klaszterek egymástól távol helyezkednek el, tehát heterogén csoportokat alkotnak.

Az F-statisztika értékeibol levonható következtetések megadják, hogy mely változók modellbeli szerepeltetése járult hozzá a klaszterek kialakításához: minél magasabb az F-statisztika értéke, annál erosebb szerephez jutott az adott változó a klaszterekben (Székelyi-Barna [2002] nyomán). A 19. táblázat alapján levonható következtetések, tehát a következok.

Az alkalmazotti létszám és az árbevétel jelenléte a legerosebb, amit az alapítás éve követ. Emögött az áll, hogy a klaszterek kialakulása elsosorban a vállalat méretétol és „életkorától” függ. A klaszterek meghatározása során viszonylag eros hatással bír az egyes társaságok gazdasági formája, vagyis a közkereseti társaságoktól a szövetkezeteken át a részvénytársaságokig: az egyes muködési forma meghatározza azt, hogy mely szegmensbe sorolható egy adott cég.

Szignifikáns, de szinte alig jelentos annak a figyelembevétele, hogy az adott cég szolotermeléssel, vagy bortermesztéssel foglalkozik, de a legcsekélyebb magyarázó ereje a társaság székhelyének van. Ez utóbbi utal arra, hogy a bortermelo cégek különbözo szegmenseit alacsony mértékben írja le a területi elhelyezkedés.

ANOVA

3,500 3 ,988 607 3,544 ,014

13,362 3 ,939 607 14,232 ,000

37,050 3 ,822 607 45,083 ,000

150,137 3 ,263 607 571,054 ,000

152,420 3 ,252 607 605,723 ,000

74,295 3 ,638 607 116,494 ,000

Zscore(MEGYE)

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

19. táblázat: A vizsgált változók szignifikancia-szintje Forrás: KSH, saját számítás

A klaszterképzés végén megismerheto a szukített adatbázisban szereplo n=611 cég besorolása, vagyis az, hogy mely klaszterekben „foglalnak helyet” az egyes társaságok. Láthatjuk, hogy az n=4 klaszterben a cégek megoszlása egy domináns

szegmens (az elso klaszter), egy nagyméretu szegmens (a harmadik klaszter) és két alacsony elemszámú szegmens (a második és a negyedik klaszterek) összességébol adódik.

Number of Cases in each Cluster 415,000

8,000 175,000 13,000 611,000 ,000 1

2 3 4 Cluster

Valid Missing

20. táblázat: Az egyes klaszterek minta-elemszáma Forrás: KSH, saját számítás

In document A hazai borágazat versenyképessége a nemzetközi piacokon, különös tekintettel az Európai Unióra (Pldal 100-104)