A STATISZTIKA ÁLTALÁNOS ELMÉLETE ÉS MÓDSZERTANA MATEMATIKAI STATISZTIKA
SCHÁFFER, K. Al:
A FAKTORANALIZIS
És ALKALMAZÁSI LEHETÖSÉGEI
(Faktorenanalyse um] ihre Anwendungsmöglichkeí—
ten.) —— Allgemeines Stalistz'schex Archiv. 1969. 1. sz.
51—72. 1).
A szerző abból a gondolatból indul ki, hogy a statisztikai táblák csak viszonylag szűk körben alkalmazhatók a társadalmi-gazdasági jelenségek közötti kapcsolatok feltárására, elemzésére. Ennek részben az az oka, hogy a statisztikai táblák áttekinthetősége a. figye- lembe vett ismérvek (változók) számának növekedésével párhuzamosan rohamosan csökken, részben pedig az, hogy a gyakorlat- ban — általában véletlen mintákról lévén szó
— a vizsgált sokaság nem tagolható tetszőleges mélységben. Ezért egy adott jelenség több változó szerinti együttes vizsgálatára olyan, ún. többváltozós elemzési módszerekre van szükség, amelyek lehetővé teszik a sokaság valóságnak megfelelő adatkomplexumként való kezelését. E módszerek közé tartozik a faktoranalízis is, melyet az 1930-es 1940-es években alapoztak meg elméletileg. A módszer gyakorlati alkalmazását eddig két körülmény gátolta: az igen *magas számításlgény, és az a. tény, hogy a f'aktoranalízíst részben egy speciális tudományra — a pszichológiára ——
építve, részben pedig matematikailag absztrakt módon fejlesztették ki.
A faktor-analizis feladata, éppúgy mint a tudományos kutatásé, az empirikus tények halmazának logikai rendszerezése és minél egyszerűbb formában történő értelmezése. A faktoranalízis rendszerint azon feltevésből indul ki, hogy egy nagyszámú mérhető változó mögött csak viszonylag kevés számú, a vizsgált összefüggést befolyásoló tényező húzódik meg.
A faktoranalízis feladata éppen a feltételezett, nem mérhető befolyásoló tényezők előállítása egy megfigyelt változóhalmaz alapján. Ezek a befolyásoló tényezők a faktorok, amelyekkel szemben a következő három követelményt tamasztjak:
1. aszerkezetük legyen egyszerű és legyenek könnyen értelmezhetők;
2. számuk legyen minél kisebb;
3. kielégítően tükrözzék vissza a megfigyelt változók közötti kapcsolatokat.
A szerző ezután a faktorok előállításának néhány módszerét vázolja.
Induljunk ki abból, hogy m változó N egy- ségre vonatkozó értékei állnak rendelkezéere.
Legyen Xij az 'a'-edik változó j—edik soka- sági egységre vonatkozó értéke. A faktoranali- zis céljaira ezen értékeket standardizáljnk — azaz összehasonlithatóvá tesszük — az
X ij — X i
9517: T / 1/
módon, ahol Xi az i-edik változó átlaga, Sí
pedig annak szórása.
A faktoranalizis módszerét először geometri- ailag szemlélteti a szerző. A rendelkezésre álló N- m érték ábrázolása szempontjából legelőször a korrelációs elemzéseknél használatos ún.
pontdiagram jöhet szóba. A pontdiagrammal szemben általában előnyben részesítjük az
ún. ,,mintateret", amikoris az m számú válto—
zót ábrázoljuk, s a koordinátatengelyek az egyes sokasági egységeket képviselik. A meg.
figyelt változók közötti kapcsolat, ha azok mennyiségi jellegűek, a Pearson-féle korrelá—
ciós együtthatóval mérhető:
1 N
.ríh : ————-——— Z wil-mh] (i,h:1, 2,.-., n). /2/
N— 121
Az Tfh korrelációs együttható nem más, mint az 'a'—edik és h—adik változót a mintatérben reprezentáló két vektor hajlásszögének koszinusza. Ily módon egyszerű megfeleltetés létesíthető a /2/ korrelációs együtthatók és a mintatér vektorai között.
A faktoranalízis első lépése az, hogy a kiindulás alapját képező nagyszámú változót minél kevesebb ,,komponenssel" helyettesitjük oly módon, hogy e komponensek páronként korrelálatlanok legyenek és az eredeti változó—
rendszer variancíájának a lehető legnagyobb részét magyarázzák meg. Az e feltételeknek eleget tevő komponenseket ,,főkomponensek—
STATISZTIKAI IRODALMI FIGYELÖ
323
nek" nevezzük. A főkomponensek meghatá- rozása geometriailag azt jelenti, hogy a minta—
tér koordinátáit egy olyan új koordináta—
rendszerrel helyettesítjük, melyben az első új koordináta az összes változó szórásnégyzetének maximális hányadát hordozza. A további koordináták meghatározása esetén ez az opti- malitási kritérium a reziduális varianciákra értendő. E módszer gyakorlati alkalma—
zása szempontjából két kérdés merül fel:
1. hogyan határozhatók meg a Zk : ism, zkz .. .,
sz] főkomponensek,
2. hogyan határozható meg ezeknek száma.
Induljunk kia főkomponensek és változók kapcsolatát leíró
/3/
mi :an zal—kam za-f—url—alk zk—i—...-l—a1pzp (ez zaz! Zi'i'aza zz-F...—)—a2k zk—k...—l-aap zp
mi :aíl zl—l—al-2 zz—F...4-aik zkt"
. . .
utal-p zp
wmzamlzl—J-amzan "lam/akin . . %ampzp
alapmodellből, ahol 10 § m a főkomponensek száma. Ezek az egyenletek bizonyos hasonló- ságot mutatnak a lineáris regressziós egyenle- tekkel. Az egyetlen különbség az, hogy a Z,, . . . , zp változók nem figyelhetők meg köz- vetlenül, hanem egy, az előbbiekben már emlí- tett maximum elv alapján vannak megkonstru- álva.
Megmutatható, hogy a már említett köve- telmények az
/4/
(l—Ákmlk-l— rugtak—t...)— O rnalk—Hl—Ák)a2k—l-...-)—
rlmamk : , 7'zmamk : 0
rmlalk-f— rmgazk—l—UA-(l—kamk : 0
(k : 1, 2, ...,p)
egyenletrendszerekhez vezetnek, amelyekből
már meghatározhatók az ismeretlen aik együtt- hatók. A /4/ egyenletrendszerben szereplő 2 k ér—
tékek a vizsgalt változók korrelációs matrixa- nak egymást nagyság szerint növekvő sorrend—
ben követő sajat/értékei.
A kapott megoldas alapján igen egyszerűen meghatározhatók a iökomponensek, melyek az eredeti változók lineáris kombinációi.
A főkomponensek számára vonatkozó kérdés a ik sajatértékek vizsgálata alapján válaszol- hato' meg. H. F. Kaiser javaslata szerint csak azon főkomponenseket érdemes meghatározni, amelyekre névze ők )l.
A szerző ezenkívül említést tesz a faktor- analízis teljesebb kiinduló modelljéről is, amelyet részletesen nem tárgyal.
Ezután következhet csak a faktoranalízis második lépése, melynek az a lényege, hogy a.
főkomponensekból kiindulva egy alkalmas transztormáció (forgatás) segítségével olyan új változókat — faktorokat — határozunk meg, amelyek a főkomponenseknél egyszerűbb szerkezetűek, s következésképpen egyszerűb- ben is értelmezhetők. Gépi szamitasok esetén a szerző szerint erre a célra a Kaisertől szar- mazó varz'max-elvet célszerű alkalmazni.
A módszer ismertetése után a szerző a faktoranalízis néhény alkahnazási lehetőségét vázolja. Az első általa ismertetett alkalmazási lehetőség a változószám csökkentése. Ennek különösen akkor van jelentősége, ha például termelési függvényeket kivánunk meghatá- rozni. A kapott főkomponensek ugyanis páronkint korrelalatlanok, ami az ún. multi- kollinearitással kapcsolatos problémák szem—
pontjából bír döntő jelentőséggel.
A faktoranalízis felhasználható ezenkivül komplex jelenségeket mérő mutatószámok (indexek) konstrualásara is. Erre akkor van lehetőség, ha az első főkomponens a változók
szórásnégyzetének legalabb 50 százalékát meg- magyarázza és megfelelően interpretálható is.
Végül a faktoranalízis igen hasznos lehet különböző egységek osztályozásakor és össze' fonódó tényezők szétválasztásakor is.
(Ism.: Vita László)
DEMOGRÁFIA
COOKE, D. S.:
KfSÉRLET *A NÉPESSÉG NÖVEKEDÉSÉNEK BECSLÉSÉRE PAKISZTÁNBAN
(Population growth estimation experiment in Pakis- tan.) —- statistical Reporter. 1969. május. ]73—176. p.
A cikk rövid összefoglalója a pakisztáni Gazdaságfejlesztésí Intézet jelentésének egy 1962—1965 közt végzett kísérletről, melynek
tárgya a népességnövekedés becslése (Popula- tion Growth Estímation —— a továbbiakban az angol jelölést használjuk: PGE) volt.
7*
A kísérlet célja az volt, hogy —— tekintette a speciális helyi körülményekre — olyan módszert alakítsanak ki, amellyel a gazdasági tervezésben nélkülözhetetlen, megbízható né—
pességstatisztikai adatokhoz juthatnak. A munkában közreműködtek a New York—i Népesedési Tanács és az Egyesült Államok Egészségügyi Statisztikai Központjának mun- katársai. A megfelelő adatgyűjtési módszer kidolgozása nemcsak Pakisztán, hanem más fejlődő országok közös igénye volt. Bár a munka kísérleti jellegű volt és a hivatalos