Schäffer, K.A.: A faktoranalízis és alkalmazási lehetőségei

(1)

A STATISZTIKA ÁLTALÁNOS ELMÉLETE ÉS MÓDSZERTANA MATEMATIKAI STATISZTIKA

SCHÁFFER, K. Al:

A FAKTORANALIZIS

És ALKALMAZÁSI LEHETÖSÉGEI

(Faktorenanalyse um] ihre Anwendungsmöglichkeí—

ten.) —— Allgemeines Stalistz'schex Archiv. 1969. 1. sz.

51—72. 1).

A szerző abból a gondolatból indul ki, hogy a statisztikai táblák csak viszonylag szűk körben alkalmazhatók a társadalmi-gazdasági jelenségek közötti kapcsolatok feltárására, elemzésére. Ennek részben az az oka, hogy a statisztikai táblák áttekinthetősége a. figye- lembe vett ismérvek (változók) számának növekedésével párhuzamosan rohamosan csökken, részben pedig az, hogy a gyakorlat- ban — általában véletlen mintákról lévén szó

— a vizsgált sokaság nem tagolható tetszőleges mélységben. Ezért egy adott jelenség több változó szerinti együttes vizsgálatára olyan, ún. többváltozós elemzési módszerekre van szükség, amelyek lehetővé teszik a sokaság valóságnak megfelelő adatkomplexumként való kezelését. E módszerek közé tartozik a faktoranalízis is, melyet az 1930-es 1940-es években alapoztak meg elméletileg. A módszer gyakorlati alkalmazását eddig két körülmény gátolta: az igen *magas számításlgény, és az a. tény, hogy a f'aktoranalízíst részben egy speciális tudományra — a pszichológiára ——

építve, részben pedig matematikailag absztrakt módon fejlesztették ki.

A faktor-analizis feladata, éppúgy mint a tudományos kutatásé, az empirikus tények halmazának logikai rendszerezése és minél egyszerűbb formában történő értelmezése. A faktoranalízis rendszerint azon feltevésből indul ki, hogy egy nagyszámú mérhető változó mögött csak viszonylag kevés számú, a vizsgált összefüggést befolyásoló tényező húzódik meg.

A faktoranalízis feladata éppen a feltételezett, nem mérhető befolyásoló tényezők előállítása egy megfigyelt változóhalmaz alapján. Ezek a befolyásoló tényezők a faktorok, amelyekkel szemben a következő három követelményt tamasztjak:

1. aszerkezetük legyen egyszerű és legyenek könnyen értelmezhetők;

2. számuk legyen minél kisebb;

3. kielégítően tükrözzék vissza a megfigyelt változók közötti kapcsolatokat.

A szerző ezután a faktorok előállításának néhány módszerét vázolja.

Induljunk ki abból, hogy m változó N egy- ségre vonatkozó értékei állnak rendelkezéere.

Legyen Xij az 'a'-edik változó j—edik soka- sági egységre vonatkozó értéke. A faktoranalizis céljaira ezen értékeket standardizáljnk — azaz összehasonlithatóvá tesszük — az

X ij — X i

9517: T / 1/

módon, ahol Xi az i-edik változó átlaga, Sí

pedig annak szórása.

A faktoranalizis módszerét először geometriailag szemlélteti a szerző. A rendelkezésre álló N- m érték ábrázolása szempontjából legelőször a korrelációs elemzéseknél használatos ún.

pontdiagram jöhet szóba. A pontdiagrammal szemben általában előnyben részesítjük az

ún. ,,mintateret", amikoris az m számú válto—

zót ábrázoljuk, s a koordinátatengelyek az egyes sokasági egységeket képviselik. A meg.

figyelt változók közötti kapcsolat, ha azok mennyiségi jellegűek, a Pearson-féle korrelá—

ciós együtthatóval mérhető:

1 N

.ríh : ————-——— Z wil-mh] (i,h:1, 2,.-., n). /2/

N— 121

Az Tfh korrelációs együttható nem más, mint az 'a'—edik és h—adik változót a mintatérben reprezentáló két vektor hajlásszögének koszinusza. Ily módon egyszerű megfeleltetés létesíthető a /2/ korrelációs együtthatók és a mintatér vektorai között.

A faktoranalízis első lépése az, hogy a kiindulás alapját képező nagyszámú változót minél kevesebb ,,komponenssel" helyettesitjük oly módon, hogy e komponensek páronként korrelálatlanok legyenek és az eredeti változó—

rendszer variancíájának a lehető legnagyobb részét magyarázzák meg. Az e feltételeknek eleget tevő komponenseket ,,főkomponensek—

(2)

STATISZTIKAI IRODALMI FIGYELÖ

323

nek" nevezzük. A főkomponensek meghatá- rozása geometriailag azt jelenti, hogy a minta—

tér koordinátáit egy olyan új koordináta—

rendszerrel helyettesítjük, melyben az első új koordináta az összes változó szórásnégyzetének maximális hányadát hordozza. A további koordináták meghatározása esetén ez az opti- malitási kritérium a reziduális varianciákra értendő. E módszer gyakorlati alkalma—

zása szempontjából két kérdés merül fel:

1. hogyan határozhatók meg a Zk : ism, zkz .. .,

sz] főkomponensek,

2. hogyan határozható meg ezeknek száma.

Induljunk kia főkomponensek és változók kapcsolatát leíró

/3/

mi :an zal—kam za-f—url—alk zk—i—...-l—a1pzp (ez zaz! Zi'i'aza zz-F...—)—a2k zk—k...—l-aap zp

mi :aíl zl—l—al-2 zz—F...4-aik zkt"

. . .

utal-p zp

wmzamlzl—J-amzan "lam/akin . . %ampzp

alapmodellből, ahol 10 § m a főkomponensek száma. Ezek az egyenletek bizonyos hasonló- ságot mutatnak a lineáris regressziós egyenle- tekkel. Az egyetlen különbség az, hogy a Z,, . . . , zp változók nem figyelhetők meg köz- vetlenül, hanem egy, az előbbiekben már emlí- tett maximum elv alapján vannak megkonstru- álva.

Megmutatható, hogy a már említett köve- telmények az

/4/

(l—Ákmlk-l— rugtak—t...)— O rnalk—Hl—Ák)a2k—l-...-)—

rlmamk : , 7'zmamk : 0

rmlalk-f— rmgazk—l—UA-(l—kamk : 0

(k : 1, 2, ...,p)

egyenletrendszerekhez vezetnek, amelyekből

már meghatározhatók az ismeretlen aik együtt- hatók. A /4/ egyenletrendszerben szereplő 2 k ér—

tékek a vizsgalt változók korrelációs matrixa- nak egymást nagyság szerint növekvő sorrend—

ben követő sajat/értékei.

A kapott megoldas alapján igen egyszerűen meghatározhatók a iökomponensek, melyek az eredeti változók lineáris kombinációi.

A főkomponensek számára vonatkozó kérdés a ik sajatértékek vizsgálata alapján válaszol- hato' meg. H. F. Kaiser javaslata szerint csak azon főkomponenseket érdemes meghatározni, amelyekre névze ők )l.

A szerző ezenkívül említést tesz a faktor- analízis teljesebb kiinduló modelljéről is, amelyet részletesen nem tárgyal.

Ezután következhet csak a faktoranalízis második lépése, melynek az a lényege, hogy a.

főkomponensekból kiindulva egy alkalmas transztormáció (forgatás) segítségével olyan új változókat — faktorokat — határozunk meg, amelyek a főkomponenseknél egyszerűbb szerkezetűek, s következésképpen egyszerűb- ben is értelmezhetők. Gépi szamitasok esetén a szerző szerint erre a célra a Kaisertől szar- mazó varz'max-elvet célszerű alkalmazni.

A módszer ismertetése után a szerző a faktoranalízis néhény alkahnazási lehetőségét vázolja. Az első általa ismertetett alkalmazási lehetőség a változószám csökkentése. Ennek különösen akkor van jelentősége, ha például termelési függvényeket kivánunk meghatá- rozni. A kapott főkomponensek ugyanis páronkint korrelalatlanok, ami az ún. multi- kollinearitással kapcsolatos problémák szem—

pontjából bír döntő jelentőséggel.

A faktoranalízis felhasználható ezenkivül komplex jelenségeket mérő mutatószámok (indexek) konstrualásara is. Erre akkor van lehetőség, ha az első főkomponens a változók

szórásnégyzetének legalabb 50 százalékát meg- magyarázza és megfelelően interpretálható is.

Végül a faktoranalízis igen hasznos lehet különböző egységek osztályozásakor és össze' fonódó tényezők szétválasztásakor is.

(Ism.: Vita László)

DEMOGRÁFIA

COOKE, D. S.:

KfSÉRLET *A NÉPESSÉG NÖVEKEDÉSÉNEK BECSLÉSÉRE PAKISZTÁNBAN

(Population growth estimation experiment in Pakis- tan.) —- statistical Reporter. 1969. május. ]73—176. p.

A cikk rövid összefoglalója a pakisztáni Gazdaságfejlesztésí Intézet jelentésének egy 1962—1965 közt végzett kísérletről, melynek

tárgya a népességnövekedés becslése (Popula- tion Growth Estímation —— a továbbiakban az angol jelölést használjuk: PGE) volt.

7*

A kísérlet célja az volt, hogy —— tekintette a speciális helyi körülményekre — olyan módszert alakítsanak ki, amellyel a gazdasági tervezésben nélkülözhetetlen, megbízható né—

pességstatisztikai adatokhoz juthatnak. A munkában közreműködtek a New York—i Népesedési Tanács és az Egyesült Államok Egészségügyi Statisztikai Központjának mun- katársai. A megfelelő adatgyűjtési módszer kidolgozása nemcsak Pakisztán, hanem más fejlődő országok közös igénye volt. Bár a munka kísérleti jellegű volt és a hivatalos