• Nem Talált Eredményt

A klaszter-elemzés módszerei és alkalmazási lehetőségei a statisztikában

N/A
N/A
Protected

Academic year: 2022

Ossza meg "A klaszter-elemzés módszerei és alkalmazási lehetőségei a statisztikában"

Copied!
9
0
0

Teljes szövegt

(1)

ÉS ALKALMAZÁSI LEHETÓSÉGEI A STATISZTIKÁBAN*

CSICSMAN JÓZSEF

A megkülönböztetés és az osztályozás problémája alapvető kérdés a tudomá- nyokban — ezzel a megállapítással kezdte 1938-ban megjelent írását R. C. Bose és S.M. Roy, és ez a tanulmány egyik alapja a matematikában alakfelismerésnek neve- zett ma már önálló résztudománynak. Az alakfelismerés o valószínűségszámítás. a matematikai statisztika, illetve újabban a gráfok elméletére épülő, a gyakorlathoz igen közel álló módszerek összessége. Fejlődése összefügg a számítógép-tudomány

létrejöttével és rohamos fejlődésével.

Ha az idézett megállapítás igaz a tudományokra általában, akkor különösen igaz a statisztikára vonatkozóan. A statisztikai munkában alakfelismerési probléma

például a népesség struktúrájának meghatározása. a statisztikai sokaság jellemzői—

nek feltárása. a lényeges, illetve lényegtelen jellemzők szétválasztása, a kérdőívek

helyességénekvizsgálata abban az értelemben, hogy a válaszok az elemezni kívánt

jelenséget jellemzik-e stb.

Az alakfelismerés módszerei két alapvető részre:

tanítás és tanító nélküli

eljárásokra bonthatók.

A tanítás módszereknél mindig adott egy vagy több tanító algoritmus, amelyek alapján eldönthető az osztályba tartozás. a hasonlóság kérdése, azaz a vizsgált probléma jellegéről, struktúrájáról alapvető kezdeti információk állnak rendelke-

zésre. ilyen például a statisztikai elemzéseknél egyre gyakrabban alkalmazott fak-

toranalízis.

Mivel sok esetben olyan elemzéseket is el kell végezni, amelyek kezdetén a vizs- gált probléma főbb jellemzőiről semmit sem tudunk. olyan módszerekre is szükség

van, amelyek automatikusan működnek. 5 Csak a kapott eredmények alapján kell

döntenünk a vizsgált probléma természetéről. Ezek a módszerek összefoglaló ne—

vükön a tanító nélküli alakfelismere's módszerei. Természetesen ezen eljárások eg-

zakt. matematikai leírása nagy nehézségekbe ütközik. Bár az elmélet pontos kidolgo-

zása érdekében igen jelentős kísérletekre került sor, általában csak a kiinduló fel-

tevések és a felmerült problémák sokasága ismert. Mindezek ellenére a gyakorlat-

ban igen hatékonyan használható módszereket hoztak létre a legkülönbözőbb tudo-

' A tanulmány a Magyar Tudományos Akadémia Rendszenechnikol Bizottságának % Statisztikai Bl- zottságának 1978. március 164 közös vitoüiésén elhangzott előadás alapján készült.

(2)

mányok területein: a statisztikában, a pszichológiában, a szociológiában, a biológi-

ában, az orvostudományban stb. '

A tanító nélküli alakfelismerés egyik legfontosabb módszere a klaszter-elem-

zés. (Használják még a numerikus taxonómia. az automatikus osztályozás. a wroc-

lawi taxonómia stb. elnevezést is.)

_A klaszter—elemzés alapfeladata. hogy valamely elemek halmazának struktúrá—

jót az elemek tulajdonságai alapján feltárja. Az elemeket — továbbiakban bbi-élem;

mokat — az elemek jellemzőiből adódó kapcsolataik alapján csoportokba, ún. klasz- terekbe sorolja oly módon, hogy az egymáshoz hasonló objektumokat azonos, a

kevésbé hasonlók különböző klaszterekbe tartozzanak. Az elemzés feladata a tulaj-

donságok vizsgálata is a jellemzett objektumokból adódó kapcsolataik alapján.

A választott jellemzők alapján a klaszter-elemzésnek két fő ága alakult ki: a

matematikai statisztikai és az információtudományi ág. A Központi Statisztikai Hi—

vatal Számítástechnikai lgazgatóságán mindkét tipusú feladat megoldására megfe—

lelő módszerek állnak rendelkezésre. A továbbiakban a két rendszer elvét és sta- tisztikai feladatok megoldására történő alkalmazását ismertetem röviden.

A matematikai statisztikai klaszter-elemzés

A matematikai statisztikai klaszter—elemzés során az objektumok valamely való—

színűségi mező pontjai 5 közös eloszlásfüggvényük vizsgálatával keressük a meg-

felelő felbontásokat. Általában nem ismerjük az eloszlásfüggvényt. és ezért csak va-

lamilyen statisztikus módszer alapján végezhetjük az elemzést.

Jellemezze az N objektumot k változó, és tegyük fel, hogy az objektumok a k dimenziós euklidészi tér pontjai. s hogy a hasonlóság vagy különbözőség mérésére az euklidészi távolságot használjuk. Ezek után azok az objektumok tartozzanak egy

klaszterbe. amelyek a legközelebb vannak egymáshoz.

E modell alkalmazása még a megfelelő elemző rendszer kialakítása előtt is igen sok problémát vet fel:

— a mérés vagy skálakonverzió problémáját: a kvantitatív. illetve a kvalitatív mérési eredményekhez milyen módon rendeljünk megfelelő számértékeket?

— a mérték problémáját: a különböző változók mértékegységei nem szükségképpen azo- nosak. viszont az euklidészi távolság változik a mértékegységek változásával;

—- a hasonlóság problémáját: több objektum vizsgálatakor el kell dönteni. hogy me- lyek a leghasonlóbbak. azaz a hasonlóság mérését hogyan határozzuk meg.

E problémák feloldására olyan mértékfogalmat kell bevezetni, amely invariáns

a pontok nem szinguláris lineáris transzformációival szemben, azaz a mértéket nem változtatja a pontok eltolása, forgatása, illetve a tér nagyítása, kicsinyítése. illetve

az összes objektumra vonatkozó hasonlóság mérésére valamilyen függvény (ún.

klaszter-függvényt) kell definiálni.

A klaszter-struktúra definíciói alapján két alapvető klaszter—kereső eljárás típus

alakultki:

-- a hierarchikus eljárások esetén az objektumokat olyan módon soroljuk ré'szhalmazok-

ba, hogy a klaszterek diszjunktak legyenek, vagy tartalmazzák egymást;

— a nem hierarchikus modell esetén a klaszterek diszjunktak.

Mindkét modell esetén kikötés az, hogy minden objektum tartozzék valamilyen!

klaszterbe.

A KSH Számítástechnikai Igazgatóság programkönyvtárában a !. Rubinés H. P.

Friedmann által kifejlesztett. nem hierarchikus klaszter-elemző eljárás található, a—

(3)

mely a fenti problémákat megfelelően megoldja. Az itt alkalmazott módszer az ún.

súlypontok módszere, amely azzal a feltételezéssel él, hogy a klaszterek száma előre adott, s az objektumok sűrűségfüggvénye olyan egyszerű szerkezetű, hogy egy klasz- terben konstans.

Be kell vezetni egy megfelelő klaszter-függvényt, melynek segítségével a külön- böző g csoportra való bontások esetén eldönthetjük. hogy melyik felbontás a leg-

jobb. '

Legyen adott n objektum és minden egyes objektum jellemzésére p mérés, s tegyük fel, hogy 9 klaszterbe kívánjuk csoportosítani az objektumokat. A mérések

eredményét matrix alakban tároljuk.

Az X matrix sorai:

Pí:(xi1, xiz , .... Xip) (i : 1. 2, ..). n) és P,- legyen a p dimenziós euklidészi tér pontja.

Az általánosság megszorítása nélkül feltehetjük, hogy az n pont tömegközép- pontja az origó. Ekkor az n pont totális szórásmatrixa (a T transzponálás jele):

"

T : XTX: 2 PIPI.

iz1

Jelölje ni, "2, n); az objektumok számát az egyes csoportokban úgy. hogy:

nj—l—nz—j— —l—ng : n. Ezután definiáljuk a k-adik csoport szórásmatrixát a Ck tömegközépponttal :

"k

wk : ,; (Phk — Ck)T(Pí,k — ck)

A csoportok szórásmatrixa pedig legyen

E

w : ;: wk

k:1

A csoportok közötti szórásmatrixot definiálja a

3 T

B :: kankckck

Ezekből kapjuk a Wilkstől származó matrixegyenletet:

T :: W—l—B

Ezen matrixegyenlet segítségével definiálhatók olyan klaszter-függvények, ame- lyek a nem szinguláris lineáris transzformációkkal szemben invariánsak, s így a ko—

rábban említett problémákat feloldják.

Az említett programcsomag hill—climbíng eljáráson alapulva a megfelelő klasz- ter-függvény szélső értékét keresve határozza meg a legjobb klasztereket. A prog-

ramcsomag jelenlegi állapotában legfeljebb 250 objektum elemzésére képes úgy.

hogy az objektumokat jellemző változók száma 25, illetve a klaszterek száma 50 le—

het. _

A közeljövő fejlesztése alapján az objektumok száma 1000-re. a változóké 50-re

terjeszthető ki. Ez valószínűleg alkalmassá teszi a klaszter-elemzést például az ipari struktúra vállalatonkénti vagy főbb termékenkénti vizsgálatára.

(4)

Természetesen a klaszterek számának előredefiniálása nagyon fontos kikötés,

igy az elemző közgazdászok vizsgálatai alapján. a programcsomag többszöri futta- tása után kapható meg a legjobb eredmény.

Eddig a Központi Statisztikai Hivatalban ezt a módszert két témakörben alkal-

mazták.

A KSH Népességtudományi Kutató lntézete a katonaköteles fiatalok vizsgála—

tánál használta fel. A különböző elemzések során bebizonyosodott, hogy ez a mód- szer volt számukra a legmegfelelőbb. Tíz lényegesen elkülönülő osztályba sorolták a fiatalokat. Az eredményeket vizsgálva olyan csoportosítási tényezőkre is felfigyel—

tek. amelyeket a korábbi vizsgálatok során nem használtak. A feldolgozást 198 sze- mély 11 jellemző tulajdonságának felhasználásával végezték.

A Központi Statisztikai Hivatalban a Területi Statisztikai főosztályon a magyar—- országi települések vizsgálatát végezték és végzik e módszerrel a különböző fej- lettségi mutatók alapján. Befejeződött a Nógrád megyei anyag feldolgozása. illetve folyamatban van az alföldi városok és a Pest megyei települések anyagának feldol—

gozása.

A Nógrád megyei anyag feldolgozása során jól kirajzolódtak a két város. Sal- gótarján és Balassagyarmat vonzáskörzetei. a jobban és a kevésbé ellátott telepü—

lések csoportjai, illetve a mezőgazdasági és az ipari jellegű falvak. A települések jel-

lemzésére a települések iparának. mezőgazdaságának, közművesítettségének. köz-

ellátásának stb. mutatóit használták.

Hasonló eredményekre vezetett az alföldi városok anyagának elemzése is. Erő- sen kivált a két nagy város, Debrecen és Szeged, megfigyelhetők az iparilag fej—

lettebb városok csoportjai, illetve azon városok csoportjai, amelyeknél a mezőgaz—

dasági termelésnek is nagy szerep jut.

A Pest megyei kiemelt települések vizsgálatánál egyértelműen kimutatható Bu—

dapest nagy hatása. sőt az eredmények az elemző statisztikusokat arra ösztönözték, hogy más mutatókat is megadjanak. mivel Budapest közelsége bizonyos torzitásokat idézett elő a települések fejlettségi szinvonalának elemzésében. , E feladatok elvégzésében hatékony segítséget nyújtott a faktoranalízis mód—

szere, melynek segítségével redukálni lehetett az objektumokat jellemző változók igen nagy számát.

A feldolgozások eddigi eredményei is jelzik, hogy a statisztikusok a módszert jól használhatják olyan területeken. ahol a klasszifikálásnak, illetve a fogalomalkotás-

nak nagy szerepe van.

További fontos alkalmazási lehetőség a Központi Statisztikai Hivatalban a min-

tavételi feladatok elősegítése. Matematikailag bizonyított tény. hogy rétegezett min-

tavétel esetén a minta statisztikai jellemzői jobban közelítik a vizsgált sokaság jel- lemzőit, mint egyéb mintavételi eljárás esetén. Gyakran viszont kérdéses a sokaság rétegeinek meghatározása. Az ismertetett módszer megfelelő alkalmazásával ezek

a rétegek kialakíthatók, s ily módon jelentősen javítható a mintavétel azokban az

esetekben. amikor gyakran kell ismételni a mintavételt.

Az információtudományí klaszter-elemzés

Az információtudományi klaszter-elemzésnél adott az objektumok (dokumentu—

mok -— D) és az objektumok jellemzésére használt tárgyszavak (K) halmaza:

D : (d,, d,, dm;

K : (ki, kz, km)

(5)

Az objektumok jellemzésére (: k halmaznak egy-egy általában nem rögzített

elemszámú részhalmazát használják. Két objektumot akkor tartanak hasonlónak, ha a jellemzésükre használt deszkriptorok (tárgyszavak) közül legalább egy közös.

A feladat itt is a leghasonlóbb objektumhalmazok meghatározása. A megoldá s

vizsgálatakor új eredmény a hipergráfmodell alkalmazása, melynek segítségével mind a primál feladat — az objektumok klaszterezése —. mind a duál feladat — a tárgyszavak klaszterezése — megoldható.

Definíció: legyen

X : (xi, xz, ..., x")- véges halmaz és

s : (El, E2, ...,VEm)

az X halmaz részhalmazainak osztálya. A H :: [X: a] pár hipergráf. ha

§],ng (i:V1,2,...,m)

Az X halmaz elemeit pontoknak. az 8 halmaz elemeit éleknek nevezzük.

A KSH Számítástechnikai Igazgatóságon kifejlesztettük a dr. Futó Péter elmé-

letén alapuló hierarchikus klaszter—elemző rendszert,1 amely a hipergráfok ún. kvázi- komponenseinek vizsgálatával adja meg az optimális klasztereket. A következőkben a statisztikai alkalmazási lehetőségek közül hármat ismertetünk.

Automatikus osztályozás és tezaurusz-elemzés

A statisztikai feldolgozásokban visszatérő probléma a vizsgálandó jelenségek és azok leírására vonatkozó halmazok megfelelő klasszifikálása és kialakítása. Az in—

formációtudományi klaszter—elemzés hipergráfok kvázikomponenseinek meghatáro- zásán alapuló módszere elősegíti a megfelelő osztályozási rendszer létrehozását.

E módszernél a klosszifikálandó halmaz elemei az objektumok. s az objektu- mokat deszkriptorok írják le. (A deszkriptorokhoz súlyokat is rendelhetünk fontossá- guk szerint.) A leírásokban szereplő összes deszkriptor halmaza a tezaurusz. A teza- urusz—halmaz elemei tulajdonságokat fejeznek ki. Az objektumok klaszter—elemzésé- vel megkapjuk a megfelelő osztályozást.

A kapott eredmény vizsgálatakor kiderülhet, hogy nem volt megfelelő (: deszk- riptor—kiválasztás, például olyan objektumok nem kerültek egy klaszterbe, amelyek logikailag összetartoznak, vagy túl egysíkú az osztályozás, sok objektum tartozik ugyanabba a klaszterbe, amely azután rögtön szétválik elemi részekre. Ezek abból a hibából adódhatnak, hogy nem megfelelő számú deszkriptorral írtuk le az objek- tumokat. vagy sok objektumot csak azonos deszkriptorokkal jellemeztünk. E hibák

kiküszöbölésére bővíteni kell a tezauruszt, vagy a deszkriptorokat megfelelőbb sú-

lyokkal kell ellátni.

Felmerülhet természetesen az a kérdés. hogy megfelelő volt-e a deszkriptor—hal- maz. Ennek megválaszolása érdekében az előző feladat duálisának megoldásával vizsgálhatjuk a tezaurusz struktúráját.

1 E rendszert (: vitaülésen dr. Futó Péter előadása (lásd az előző tanulmányt) Ismertette. (Megjegyezzük, hogy a Szigma 1977. évi 3. számának valamennyi cikke (: klaszter-elemzéssel foglalkozik.)

(6)

Lehetnek olyan deszkriptorok. amelyek erősen kapcsolódnak, sőt előfordulhat.

hogy mindig együtt szerepelnek az objektumok leírásában. Meggondolandó, hogy az ilyeneket nem érdemes-e összevonni?

Azok a deszkriptorok is ..gyanúsak", amelyek csak egy vagy igen kevés objek- tum leírásában szerepelnek. s elképzelhető, hogy lényeges információt nem tartal-

maznak. és elhagyhatók a tezauruszból.

A deszkriptorok vizsgálatával elérhetjük azt. hogy a tezaurusz szinoníma- és ha—

moníma mentes legyen.

Az automatikus osztályozási eljárás lényege — összefoglalóan — a következő:

-— néhány futtatás és elemzés után kialakítjuk az adott téma megfelelő tezauruszát, majd elemeivel leírjuk az osztályozandó objektumokat. s elvégezzük a klaszter-elemzést;

— ha a vizsgált objektumok száma növekszik vagy csökken, ismételten elvégezzük a feldolgozást úgy. hogy az új objektumokat a meglevő tezaurusz elemeivel írjuk le, tehát szük- ség szerint csökkenhet vagy bővülhet a tezaurusz elemszáma, és e változásokat igen egy- szerű program elkészítésével (: többi objektum leírásában is követhetjük (az így kialakított rendszer rugalmasan kezelhető, s igen kevés munkaerő-ráfordítással használható)-.

A Központi Statisztikai Hivatalban (az Adatgyűjtés-koordináló főosztályon) a

magyarországi szolgáltatások osztályozása keretében már rendelkezésre állnak bi- zonyos kísérleti eredmények és tapasztalatok.

Az adatbázis—rekord tervezése klaszter—elemzéssel

A nagyméretű adatbázisok hatékonysága erősen függ az adatbázis rekordjaitól

és a rekordokon belüli szegmens-hierarchiától. A továbbiakban egy automatikus módszert mutatunk be az adatbázis—rekordok tervezésére. mely oly módon határozza meg a rekordon belüli szegmenseket. hogy azok az adatok elérési ideje szempont—

jából optimálisak legyenek.

Először is definiáljuk a felhasznált fogalmakat:

a mező a legkisebb logikai adategység;

a szegmens az a minimális logikai adategység. amely az egymással összefüggő mezőket tartalmazza;

a rekord az a logikai adategység. amely az összefüggő szegmenseket tartalmazza, s amelyet valamilyen módon együtt fogunk tárolni.

Továbbiakban a rekordokon belüli mezőkkel foglalkozunk. Jelöljük az adatbá- zist felhasználó programok halmazát G-vel:

G : (91. 92: 93

ahol 9, az i—edik felhasználói program (í : 1, 2. . . ., r).

Az összes felhasznált mező halmaza legyen

I: (aj, 02, ..., a")

ahol a, valamilyen rendezésben az í-edik mező (í : 1. 2. . . .. n).

Jelölje Ig; I valamely részhalmazát. mely azokat a mezőket tartalmazza. melye- ket az i-edik felhasználói program használ:

'le lgzu u Ig, ::

Csoportosítsuk ! halmazt m szegmensbe. és S jelölje a szegmensek halmazát:

S :: (51, 52, S,")

(7)

ahol 5 elemei tartalmazzák egymást vagy diszjunktak.

Jelölje

lskgl (k:1.2,....m)

l-nek a részhalmazát, melynek elemeit az Sk szegmens tartalmazza. Minden mező tartozzék valamely szegmensbe.

Definiáljuk a következő függvényt az 'sk (k : 1. 2. . . .. m) és az lgi (i : 1

2, . . ., r) halmazok között:

k:1

ahol: '

1. ha Isk O lgp ;6 Z "

öp.k : 0, ha Isk n lgp : g

(p : Él §: (AT(p, k) —j—AA(p, k) ap, k))

AT (p, k) és AA (p. k) az adatok elérésére vonatkozó függvények. ahol AA (p, k), il-

letve AT (p. k) a szegmens programmal való elérését fejezi ki az adathordozóban,

illetve a memóriában.

Ezek után elérési idő szempontjából optimális megoldást kapunk. ha a 90 függ- vényt minimalizáljuk.

A rekordok optimális szerkezetét klaszter—elemzéssel állíthatjuk elő a következő módon:

—- minden mezőhöz adjuk meg, hogy mely felhasználói program használja; a modellben a mezők lesznek az objektumok. a felhasználói programok pedig a tórgyszavak;

—— (: tárgyszavakhoz. azaz a programokhoz valamilyen súlyfüggvényt rendeljünk hozzá fontosságuk, illetve gyakori felhasználásuk szerint (természetesen a programhoz is megadhat—

juk, hogy mely mezőket használjuk, ez esetben a duális feladatot kell megoldani).

A klaszter-elemzés utáni szegmens-felbontás

R—p R:

/ 33

,, VX;

A ._._--.. S, . . .

A A

:, a, .— ), on 03

l- ... 43, " IV. L---,,---J54

Az adatok megoldása után végezzük el a klaszter—elemzést. Az eredményeket a következő módon használjuk fel.

(8)

A rekordok szegmensei az eredményül kapott fastruktúra elemei: a klaszterek

legyenek.

Azt. hogy a struktúrát miként bontsuk fel szegmensekké, a függvény optimali-

zálása határozza meg. Ha a (P függvényben szereplő AA(p, k) és AT (p, k) függ- vényekről nincs mérési eredmény, a módszer akkor is hatékony. ha helyettük kons-

tansokat veszünk fel (például indexelt szekvenciális elérésnél egy második szint át—

lagos elérését). E módszer előnye a jó időkihasználáson kívül az is, hogy az adat-

bázis—tervezés ide vontkozó részei automatizálhatók.

Az ábra a klaszter—elemzés utáni szegmens—felbontásokat szemlélteti. és mu-

tatja. mely felbontásokra kell ellenőrizni a ?? függvény minimumát. A példa alapján célszerű az R1 és Rz struktúrának megfelelően szervezni a rekordokat. mivel azok elemeit közösen egyik felhasználói program sem használja.

Az automatikus hibajavító módszerek és a klaszter—elemzés

A nagy felvételek, különösen a népszámlálások anyagának gyors és pontos fel-c

dolgozása megköveteli automatikus hibajavító rendszer létrehozását. Az 1980. évi népszámláláshoz már megtervezett és kifejlesztés alatt álló rendszer rekordokon

belüli javításának stratégiáját hatékonyan segítheti a hierarchikus klaszter-elemző

módszer. A rekordokon belüli összefüggések vizsgálatakor majd 2000 szabály telje—

sülését kell figyelni. A szabályok struktúrájának ismeretében hatékony stratégia ké—

szíthető, mely az ilyen nagy terjedelmű feldolgozások esetében döntő jelentőségű lehet. Klaszter-elemzéssel felderítve a szabályok halmazstruktúráját. a javítási stra—

tégia létrehozása automatizálható. Mivel ez az automatikus javító rendszer nemcsak a népszámlálási feladatok elvégzésére készül, az ily módon szükségessé vált na-

gyobb előkészítő munka elvégzése nem jelent felesleges többletet.

IRODALOM

Rubin, ]. - Friedman, H. P.: A cluster analysis and taxonomy system for grouping and classifying data.

IBM Contributed Program Library. 1967. New York. 220 old.

Wrigh, A. C.: Axioms of cluster analysis. Panem Recognition. 1972. évi 8. sz. 78—102. old.

Wilks, S. S.: Mathematical Statistics. John Wiley end Sons. New York. 1962. 644 old.

Fritz József Révész Pál.: Az alakfelismerés statisztikus módszerei. MTA Matematikai Kutatóintézet.

Budapest. 1974. 258 old.

Anderberg, M. R.: Cluster analysis for applications. Academic Press. New York. London. 1972. 359 old.

Dr. Futó Péter: Új cluster definíció és eljárás kidolgozása. Építéstudományi Intézet. Budapest. 1977.

132 old.

Berge, C.: Graphs and hypergraphs. North Holland —- American Elsevier. Amsterdam London New York. 1973. 528 old.

Bose, R. C. Roy, S. N.: Essays in probability and statistics. University of North Carolina Press. Chapel Hill. 1970. 750 old.

Níshigaki, T. - Hogi. H. Miyamoto, Si: Segments organization by cluster anoiysis. Information Process- ing in Japan. 1976. évi 16. sz. 153—159. old.

PE3l-OME

Crarss HanucaHa Ha ocnoaaHuu marepuana ,aoxnaga, npenc'rasneHHoro Ha cocronameM- cs 16 Mapra 1978 COBMeCTHOM 36CeAaHHH Crarucmuecxoü KOMHCCHH u CucreMHo-rexHuuec—

noi—í KOMHCCHH Benrepcxoü aKöAeMHM Hayk. Aarop Aemoucrpupye'r meronu Knacrepnoro ananuaa, nx npuMeHem—fe " sosmomr—rocm ux anMeHeHMSI :; Liem-panbnom crarucrmecxom ynpasnenuu.

Hanarae-r OCHOBHYIO sagauy maremaruxo—c'ramcrmecnoro " HayuHo-uutpopmauuounoro Knacrepuoro ananusa, a aareM ocranaanuaae'rcn Ha rex Meronax, nna KOTOprX uMeercn cooraercrayrouwü napi: Bbil-IHCDHTeanhIX Mammy !; Aupekum no abruwcnurenbnoü rexuuke LLCY. AeMoHCTpupyer ocuosuaaroumücs Ha merone uempoa Tnmecw MaremaruKo-crarucm—

uecnm'i Knacreprlü allam—13 u onbrr ero npuMer-remm a paspaőorkax no .neMorpadaw-lecxoü M

(9)

reppmopnanbi—ioü cramcmxe. B one paCCMorpeHm HayuHo—nnmopmauuonuoro Knacrep- Horo anal-maa aarop nanaraer eoamomnocw ero npuMeHem—m, Tax Hanpumep :; oőnacm nnaanoBaHnn öasbr AaHHle, CPOpMHpoBaHHH cucreMu aBTOMamueCKoü Knaccucpunauuu.

SUMMARY

The article was prepared on the basis of a lecture delivered at the joint session of the Statistical and System Technical Committees of the Hungarian Academy of Sciences held on lóth March 1978. The author shows the methods of cluster analysis, its application and pos- stibilities in the Hungarian Central Statistical Office.

The article discusses the basic task of cluster analysis, a means of mathematical statis- tics and informatics, then deals with the methods for which the computer techniaues are avail- able in the Computing Centre of the Central Statistical Office. The author shows the math- ematical statistical cluster analysis based on the method of centre of gravity and the ex- periences of tis application in the processing of population and regional statistics. Discussing the informatical cluster analysis the author shows its applicabílity in planning the data bases, elaborating the automatic system of classification, supporting the editing systems.

3 Statisztikai Szemle

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

A zsírmáj kialakulásának számos oka lehet, leggyakoribb kóroki tényezők az elhí- zás, a hyperlipidaemia és az inzulinrezisztencia (nem alkoholos

günkke' teszi a vállalatok munkájának dinamikus vizsgálatát. Tekintettel'a szocialista kereskedelem viszonylag rövid multjára, ezt általában a negyed- évek

A tervszerűség vizsgálatánál kiderült, hogy csak egy gyártmányban van lemaradás, mely vagy arra mutat, hogy a hónap során már súlyos mulasztás történt e

A továb— * biakban azt kell vizsgálnunk, hogy az üzemképes gépkocsinapok aránya az összes ge'p'kocsinapokhoz viszonyítva hogyan alakul, mert .ez a mutató világít rá a

Mivel a módszer az input-output modellek elemzési eszközeit használja, ezért segítségével megállapíthatók – az input-output modellekben használt egyéb

Ösztöndíjat nyert könyvtárosok: Csehily Adrienn (Községi Könyvtár, Salánk) • Karda Beáta (Kájoni János Megyei Könyvtár, Csíkszereda) • Kovács László Sándor

Ahogy a fürdőszobaszekrényt kinyitottam most az előbb, láttam, ott a pohár – ilyesképp jöttem rá, hogy álmom, gyötört kis mozzanat, becsapott, a' vagy épp boldogított

A kaland mindig is az ifjúsági irodalom immanens alkotóeleme volt, aho- gyan Komáromi Gabriella mondja: „Az ifjúsági próza egyenesen kalandtár.” 4 A kortárs