• Nem Talált Eredményt

Leíró statisztikák kiválasztása az adatok mérési skálája alapján

In document Többváltozós adatelemzés (Pldal 12-16)

1. Leíró és feltáró adatelemzés

1.2. Leíró statisztikák kiválasztása az adatok mérési skálája alapján

Leíró statisztikát készítünk, ha nem állítunk fel és tesztelünk hipotézis(eke)t, csak a változók és a megfigyelések jellemzése a célunk. Leggyakrabban központi értéket vagy szóródási jellemzőt számítunk, az eloszlás alakját mutatjuk be numerikus és/vagy grafikus eszközökkel. Vizsgálhatjuk a teljes adatállományt együtt, vagy részekre tagolva is.

Az SPSS-ben az Analyze/Descriptive Statistics menűpont alatt találunk három eljárást, amelyek több mutató:

 A „Frequencies” funkció választásával a nominális és ordinális változók kategóriáihoz tartozó gyakoriságok listázása válik lehetővé. Továbbá gyakoriságokat és relatív gyakoriságokat is megadó ábrákat is készíthetünk itt. Emellett tetszőleges skálán mért adatokat is elemezhetünk, mert minden statisztikai mutatót felajánl ez a menüpont is választási lehetőségként.

 A „Descriptive” funkció az intervallum vagy arány skálájú változók leírására, jellemzésére csak numerikus statisztikákat számol. Itt kérhetjük és menthetjük el a változók sztenderdizált értékeit.

 Az Explore2 funkciót választjuk, ha almintákat is feltételezünk, vagy egy kategóriaképző – nominális/ordinális – változó szerint tagoljuk a megfigyeléseket, és intervallum vagy arányskálán mért változó(k)ra leíró statisztikát készítünk. A „feltárás” elnevezés arra utal, hogy ez az elemzés megelőzi pl. a két minta átlagának egyezésére vonatkozó hipotézis megfogalmazását, a normalitási teszt elvégzését, stb.

Mindegyik eljárás megengedi, hogy egyszerre több változót válasszunk ki, és ezek mindegyikére elvégzi az összes általunk kért műveletet. Ezért célszerű egyszerre csak azonos mérési szintű változókat felsorolni, így csak a szakmailag korrekt eredményeket állítjuk elő.

Az 1.1. táblázatban összefoglaljuk azt, hogy melyik SPSS menűpontban találhatók meg a leíró statisztika eszközei a mérési skálák szerinti bontásban. A magasabb szintű mérési skálákon az előző skálákhoz rendelt eljárások mindig alkalmazhatók.

D jelöli a Descriptive, F a Frequency és E az Explore funkciót.

1.1. táblázat: Elemzési célokat megvalósító funkciók

Cél / Skála Nominális Ordinális Intervallum/arány Központi

Szóródás Gyakoriság, relatív gyakoriság sztenderd hiba F,D,E

Eloszlás - numerikus

- - Ferdeség,

csúcsosság F,D,E Normalitási teszt E Eloszlás -

grafikus

Gyakoriságra oszlop- és kördiagram F

Stem&leaf E Hisztogram F, E boxplot E

A legfontosabb leíró statisztikai mutatókat röviden áttekintjük, és a képleteket is megadjuk.

2 Az Explore nemcsak alminták összehasonlítására alkalmas. Egyetlen homogén minta esetében a Descriptive-vel azonos eredményeket ad, továbbá nyesett átlagot is számol.

Mean: számtani átlag,

Az elméleti várható érték (m) általában nem ismert. Értékét az (1.1) szerint számított mintabeli átlaggal (

x

) helyettesítjük.

Range: terjedelem= maximum-minimum

Variance: szórásnégyzet, a sokaságban: σ2 , ennek mintabeli becslése s2 és gyöke a szórás, s. A szórás angol neve standard deviation, röviden: Std. dev.

1

Std.Error: az átlag sztenderd hibája:

n

A ferdeség negatív értéke balra hosszan elnyúló eloszlást, a pozitív értéke pedig jobbra elnyúló eloszlást jelez. Ha nulla közeli a mutató, akkor szimmetrikus az eloszlás. (De itt ne csak a normális eloszlásra gondoljunk, mert az U alakú eloszlás is szimmetrikus.)

A ferdeség varianciája =

( )

szerepel „standard error” elnevezéssel az eredményeket bemutató 1.2. táblában.

A ferdeség torzítatlan becslése

A nullhipotézis szerint a ferdeség=0. A ferdeségi mutató és a sztenderd hiba hányadosát hasonlítjuk az (n-1) szabadsági fokú Student eloszlás kritikus értékéhez.

A ferdeséghez tartozó t-teszt képlete:

γ

1

( ) γ

1

t= SE (1.5)

Kurtosis: csúcsosság, mérőszáma: γ2 =

( )

4

1

4

σ

x m

n i , értéke sztenderd normális eloszlás esetében = 3. Ezt levonva közvetlenül (γ2 - 3) alakban kapjuk a mutatót az SPSS-ben. Más gépi programok ezt „kurtosis excess” néven adják meg.

A csúcsosság varianciája =

( ) [ ( ) ]

„standard error” elnevezéssel az 1.2. táblázatban.

A csúcsossági mutató torzítatlan becslése:

(n-1) szabadsági fokú Student eloszlás kritikus értékéhez. A csúcsossági mutatóhoz tartozó t-próba képlete: t=

γ

2 SE

( ) γ

2 (1.7)

A pozitív csúcsosság a normális eloszlás sűrűségfüggvényénél hosszabb, vastagabb farok részt, a központi érték körüli tömörülést vagy mindkettőt jelezheti. A negatív érték lapult eloszlásra utal, amelynek a haranggörbénél rövidebb, vékonyabb farok része van, és középen sem sűrűsödnek a megfigyelések.

A lapultság minimális értéke –2, mert a ferdeség és a csúcsosság mértéke között fennáll a következő egyenlőtlenség: csúcsosság ≥ (ferdeség2 – 2)

A ferdeség csak az egyik oldalon, a csúcsosság a mindkét oldalon előforduló extrém értékek előfordulását jelezheti. Az extrém, outlier megfigyelések nagy hatással lehetnek az átlagra és a szórásra, ezért érdemes grafikusan (például hisztogramon) is megnézni a változók alakját.

 A mintaátlag ferdesége:

γ

1

/ n

és csúcsossága:

γ

2

/ n

. A mintanagyság növelésével csökken a ferdeség, és még gyorsabban csökken a csúcsosság.

Van néhány egyszerű, de hasznos nagyságrendi összefüggés a leíró statisztikák között, amire itt felhívjuk a figyelmet.

• Szimmetrikus eloszlás esetén az átlag=medián=módusz, míg eltérésük ferde eloszlásra utal.

• Pozitív ferdeségű az eloszlás, ha módusz<medián<átlag, és negatív ferdeségű, ha átlag<medián<módusz áll fenn.

• A medián kevésbé érzékeny az adathiányra és a szélső értékekre, mint az átlag.

• A terjedelem közelítőleg a szórás négyszerese.

Az SPSS nem számol relatív szórást, amely a szórás és az átlag hányadosa. A Csebisev egyenlőtlenségen alapuló hüvelykujj szabály alapján magas a szórás, ha ez az arány meghaladja a kettőt. Ez arra utal, hogy az adatrendszerben több alminta lehet, ezek feltárását grafikus módszerekkel érdemes elvégezni.

A pénzügyi adatokban általában a szórás a kockázat mértéke, a biztosításban pedig a relatív szórás méri a kockázatot. A relatív szórás alkalmazását indokolja az is, hogy így a különböző mértékegységet kiküszöböljük, tehát pl. különböző valutanemben kifejezett változók szórása is így vethető össze.

Ha egy változónak nagy a szórása, akkor ez a változó mentén megvalósítható nagyobb szeparációs képességet jelzi. Az alacsony szórás az átlag körül koncentrálódó (általában csúcsos eloszlású) megfigyelésekre utal.

A „Descriptive” a sztenderdizált „z-score” változók elmentését is lehetővé teszi.

A zérus átlagú és egységnyi szórású új változó ferdesége és csúcsossága nem változik meg.

s x z

x

x

=

(1.8)

Normális eloszlás (és/vagy nagy minta) esetén a központi határeloszlás tétel alapján a sztenderdizált változó

n s

m z

x

x

/

= −

standard normális eloszlású lesz, kis mintára pedig (n-1) szabadságfokú Student t-eloszlást követ.

Több érv szól a változók sztenderdizálása mellett. A mértékegység kiküszöbölése, az ismert átlag és szórás különösen akkor hasznos, ha többváltozós elemzést végzünk, azaz egyszerre több változót használunk.

A fejezet végén óvjuk az olvasót attól, hogy bármely programcsomagot mechanikusan alkalmazzon. A szórás mintából történő becslésekor az SPSS-ben (n-1) szerepel a nevezőben, akár kicsi a minta, akár nagy. A csúcsossági mutatóból – előzetes figyelmeztetés nélkül – levonja az SPSS a sztenderd normális eloszlásra jellemző hármat. Az R-ben pedig a >range(x) menűpont nem a terjedelmet adja meg, hanem a minimum és a maximum értékeket írja ki egymás mellé.

In document Többváltozós adatelemzés (Pldal 12-16)