• Nem Talált Eredményt

Hipergráf modellen alapuló klaszter-elemzés és alkalmazása

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Hipergráf modellen alapuló klaszter-elemzés és alkalmazása"

Copied!
7
0
0

Teljes szövegt

(1)

HlPERGRÁF MODELLEN ALAPULÓ KLASZTER—ELEMZÉS ÉS ALKALMAZÁSA*

DR. FUTÓ PÉTER

A klaszter—elemzés feladata bonyolult rendszerek struktúrájának feltárása. A rendszer objektumait adott szempontok figyelembevételével — kizárólag jellemzőik- ből adódó kapcsolataik alapján — úgy csoportosítja. hogy a hasonló objektumok egy csoportba, ún. klaszterbe. a jelentősen különböző objektumok más-más klasz—

terbe kerüljenek.

A csoportosítási szempontok a jellemzők megválasztása, valamint a kapcsolat, illetve a hasonlóság értelmezése révén érvényesülnek.

A választott jellemzők típusa szerint a klaszter-elemzésnek két fő ága alakult ki: a statisztikai klaszter-elemzés és az informáciátudományi klaszter—elemzés. Az előbbi, a statisztikai klaszter-elemzés a vizsgált rendszer minden objektumát egy adott rendezett jellemző halmaz felhasználásával írja le, az információtudományi

klaszter—elemzés az objektumokat tárgyszavakkal jellemzi.

A klaszter-elemzés gróf és hipergráf modelliei

A klaszter-elemzés két ága között az objektumpárokon értelmezett -— a tulajdon- ság vektorok, illetve a tárgyszavak felhasználásával képzett — hasonlósági mérőszá-

mok képeznek hidat.

Ezek ismeretében megszerkeszthető a klaszter-elemzés súlyozott élű irányítatlan gráf modellje:

1. modell:

semmmi (x-jx,,...,x,,], zaja,. . . , Emj)

amelynek pontjai az objektumokat, az élekhez rendelt v(Ek))O súlyok az él két végpontjának megfelelő két objektum hasonlósági mérőszámát modellezik.

A gróf modellen értelmezhetők a klaszter-kereső eljárások. amelyek a megkí- vánt klaszter—struktúra szerint két csoportba sorolhatók:

a hierarchikus eljárások olyan klasztereket jelölnek ki, amelyek vagy egymást tartalmaz- zák. vagy diszjunktak;

a nem hierarchikus eljárások diszjunkt klasztereket jelölnek ki (tehát az átfedés nem megengedett).

' A tanulmány a Magyar Tudományos Akadémia Rendszertechnikai Bizottságának és Statisztikai Bizott- ságának 1978. március 16-i közös vitaülésén elhangzott előadás alapján készült.

(2)

DR. FUTÓ: KLASZTER-ELEMZÉS 131

A klaszter-elemzés említett módszereit széleskörűen és gyakran sikerrel alkal—

mazzák a gyakorlatban. Ennek ellenére velük szemben a következő negatív jellegű

észrevételek tehetők:

"meg

— a hasonlósági mérőszámok konstruálása nehézkes eljárás, és jelentős információvesz- teséget eredményez (a nehézség egyik döntő oka az, hogy kettőnél több objektum hasonló- ságát csak párok hasonlóságával képesek kifejezni):

— a klaszter—kereső eljárások futtatása előtt semmit vagy csak igen keveset tudnak mon- dani az eredményként adódó klaszterek tulajdonságairól (ez elsősorban abból adódik, hogy nincs explicit klaszter-definíció);

— a hatékony klaszter-kereső eljárások nagy hányadánál a kapott klaszterek az objek- tumok számozásától vagy az önkényesen kijelölt kiindulási szituációtól függnek; néhány igen egyszerű célfüggvényű eljárástól eltekintve nem biztosított, hogy az eljárások a célfüggvény optimumát szolgáltató klaszter-struktúra megalkotásához konvergálnak. sőt sokszor az sem

biztos, hogy egyáltalán konvergensek.

A továbbiakban az objektumok és a jellemzők csoportositására egyaránt alkal- mas új klaszter-technikát ismertetünk, amely a klaszter—elemzés hipergráf modelljén.

a strukturális kritériumon alapuló klaszter-definíción és konvergens, devizív jellegű hierarchikus klaszter—kereső eljáráson alapszik.

A hipergráf modellek megszerkesztéséhez a klaszter-elemzésben használt bi- náris hasonlósági reláció vizsgálata vezetett el. Ez a reflexív és szimmetrikus, ún.

tolerancia reláció egy többváltozós relációból származik, amelyet az információtu- dományi klaszter-elemzésnél a deszkriptorok definiálnak úgy, hogy minden egyes deszkriptor kapcsolatot létesít az általa jellemzett objektumok között. Mivel a sta- tisztikai klaszter—elemzésben az objektumok hasonlóságának alapja az. hogy egy vagy több jellemzőjük értéke megegyezik vagy hasonló, ezért a jellemzők értékeinek vagy értékintervallumainak megadásával itt is definiálhatunk deszkriptorokat.

A deszkriptorok halmazán is értelmezhető egy többváltozós hasonlósági reláció úgy. hogy mindegyik objektum kapcsolatot létesít a jellemzésére használt deszkrip—

torok között. A

33 %b, , . . . ,bn] objektumhalmaz

T * [h , . . . ,tm] deszkriptor-halmaz

és az objektumok leírására szolgáló deszkriptor-részhalmazok ismeretében megszer—

keszthetők a klaszter—elemzés egymással duális hipergráf modelljei:

2. modell:

H:(X;6) hipergráf (X:[x.,...,xn), 82f5,...,£m])

amelynek pontjai az objektumokat, élei a deszkriptorokat modellezik: x, 6 Ej akkor és csak akkor. ha a tj deszkriptor jellemzi a b, objektumot.

3. modell:

H*:(E;x) hipergr'át' (Ezja,,...,a,,,], xij,,...,.,j)

amelynek pontjai a deszkriptorokat, élei az objektumokat modellezik: e] 6 X; akkor és csak akkor. ha a tj deszkriptor jellemzi a b objektumot.

A modellezés mindkét modell esetén az éleken értelmezett pozitiv súlyfüggvény

(v(Ej) ) O (] "——" 1, . . .. m), u(X.) ) 0 (i : 1, . . ., n)) bevezetésével finomítható.

2—

(3)

1 32 DR. FUTO PÉTER

A statisztikai klaszter—elemzésnél a hipergráf modellek alkalmazása csak egy 'új modellezési alternatívát jelent. Az informáciőtudományi klaszter-elemzésnél a hi- rpergráf modellek használata előnyösebb. mint a gráf modelleké. Világosan tükrözik a rendszer struktúráját, alkalmasak kettőnél több objektum vagy deszkriptor kap—

csolatának közvetlen kifejezésére. Alkalmazásukkal elkerülhető a hasonlósági mérő-

számok megszerkesztése.

A kvázi komponensek tulajdonságai és meghatározásuk

A kvázi komponens definícióját megelőzően a H :: (X : 6) hipergráf ponthal- mazai és élhalmazai között leképzéseket vezetünk be:

396 esetén í!(?'):(xflnexi áEjGT'uYiÉfj)

sex esetén ZUPIEJIEJES; ax,- Észxi€EjI sex. TEXesetén 81517) : [EjIEjEZ(S); 5er

amelyek az S halmaz (S § X) által kifeszített rész hipergráf

": *(lít'ms) mm)

fogalommal együtt egyszerűsítik a tételek. algoritmusok megfogalmazását. Kiterjeszt—

jük a v(E5))0 (] ::1. ..., m) függvény értelmezési tartományát élhalmazokra is:

$$$ esetén W($'):Z V 5,-

Eie?

Definiáljuk a HK hipergráf T ponthalmaza (T § K) által generált vágást: (

CK (r): z-(rur) n a"((/r-7)l If)

és értékét

nur) -— www]

Ezt általánosítva bevezetjük a

Whízpng

halmazosztály

(MaC/((pl...n),7;n7;:;zl,haz$j,ii_'117izlr)

által generált r 022) részre vágást

CK (af?) : sor!/03551 F(fi ln)

"? ('I/$") : W [Gr (??)]

(4)

KLASZTER-ELEMZES

133

A komponens fogalom általánosításával kapjuk a kvázi komponens definícióját.

__ 1. definíció: a HK hipergráfban a P ponthalmaz ( g ; P § K) komponens, ha

WK(P) : O és WK(T) ) 0 tetszőleges g ; T C: P esetén.

2. definíció: a HK hipergráfban a G ponthalmaz (Gáűg K) kvázi kompo-

nens, ha WHO) (WK(T) tetszőleges % % T (: G esetén.

Nyilván minden egy elemű ponthalmaz kvázi komponens. Ezeket a továbbiak- bant triviálisnak nevezzük.

A kvázi komponenseknek (: klaszter-elemzés szempontjából legfontosabb tulaj- donsága. hogy valódi összefüggéseket tárnak fel.

1. tétel: HK rész hípergráfban a 0 ponthalmaz (G gK) akkor és csak akkor nem

triviális kvázi komponens. ha bármely T(g % T C 0) ponthalmaz választása esetén

Ms'mmbw [á'UK/r—(a-UD]

Tehát a nem triviális kvázi komponens összefüggést tár fel. ugyanis bármely

valódi részhalmaza ,.erősebben kapcsolódik" a kvázi komponens maradék részéhez,

mint a kvázi komponens teljes környezetéhez.

Azt. hogy a nem triviális kvázi komponensek (az igen nagy elemszómúaktól el—

tekintve) nagy valószínűséggel csak valódi összefüggések esetén adódnak, az egy—

mástól független élekkel rendelkező véletlen hipergráfok vizsgálata mutatja.

Legyen adott az X halmaz (le : n). Jelölje Hn,1/2 azt a valószínűségi válto- zót. amelynek értékei olyan hipergráfok, amelyeknek ponthalmaza X. Ha E E 2x. ak—

kor legyen

Pnob [fé/í", Vg] :1/2

függetlenül E választásától. Legyen a H : (X; a) hipergráf a Hn,1/2 valószínűségi változó egy értéke. azaz egy n pontú véletlen hipergráf.

2. tétel: legyen KC X (2 § lKl § n —— 2). n )6 esetén

0—8 0-1!)

Prob [K kvázi komponens H:(X;5)—ben] s e'2

uaz

1. következmény:

Pmb [EKCX (25! KI s n-Z) K kvázi komponens Hx—ben]s e"'Z"—assa""'Ha

ha n)16.

Hasonló eredmény adódik a gyakorlati klaszter—elemzési feladatoknak megfe-

lelő szerkezetű (kevés és viszonylag kis elemszómú élt tartalmazó) hipergráfokra is.

A hipergráf minimális értékű r részre vágásával. valamint a kvázi komponensek

kapcsolatának feltárásával egyszerűen adódnak az utóbbiak fontos tulajdonságai.

és mód nyílik hatékony megkeresésükre.

3. tétel: adott HK hipergráf (lKl ; 2) és az

y-[s,,....s,]

halmazosztály

(Magus-Jaa (i:1....,t)).

(5)

134 DR. Furo PÉTER

Legyen

flat-[ún.,u'j(pst,r,cs.- (í-i,...,t))

az a halmazosztály, amely által generált r (r ; 2) részre vágás értéke minimális

(K, 3? és n rögzített)

Legyen 0 (G (: 5, (i : 1, . . ., l)) kvázi komponens HK-ban. Ez esetben a követ—

kező két állítás egyike teljesül:

7. an'erfw és 37;*€TK(")(3)* (i áj)

amelyre T; C 0. T; (: O.

2. a ver,?) (:f)*

amelyre 05; T;.

2. következmény: a kvázi komponensek diszjunktak. vagy tartalmazzák egymást.

3. következmény: a HK hipergráf kvázi komponensei számának felső korlátja

2lKI—1.

A kvázi komponensek bemutatott tulajdonságai indokolják a strukturális krité- riumon alapuló explicit klaszter-definició bevezetését.

A kvázi komponens fogalmán alapuló klaszter-definíció és -eliárás

3. definíció: az objektumok klaszterei a 2. modell hipergráfjának kvázi kompo—

nensei; a deszkriptorok klaszterei a 3. modell hipergráfjának kvázi komponensei.

4. definíció: gráf modell használata esetén az objektumok klaszterei az 1. mo- dell kvázi komponensei.

A kvázi komponensek meghatározása két rutinon: az R1 komponenskereső ru-

tinon és az R2. a hipergráf minimális értékű két részre vágását meghatározó rutinon alapul. A komponensek meghatározása egyszerű feladat. (: hipergráf minimális ér—

tékű két részre vágását visszavezetjük kereslet—kínálati feladatok megoldására.

A H : (X: 8) hipergráf azon T' ponthalmazának meghatározását. amely valódi része a rögzített S (S ; X, lSl ; 2) ponthalmaznak. és az általa generált vágás ér- téke S valódi részei által generált vágásértékek között minimális. visszavezethetjük

legfeljebb 2(lSl — 1) számú egyszerű szerkezetű kereslet—kínálati feladatok megol- dására. ily módon az R2 rutin l'épésszáma a hipergráf pontjai és élei számának po-

linom ulokú függvényével felülről becsülhető.

A kvázi komponensek meghatározására szolgáló eljárás végességét és korrekt-

ségét bizonyitja a 4. tétel.

4. tétel.- a H a (X : 8) hipergráf kvázi komponenseinek meghatározására szol-

gáló algoritmus legfeljebb IX! —1 számú lépésben véget ér. a H :: (X ; _8) hipergráf

összes kvázi komponensét és csak azokat szolgáltatja. (Minden lépésben legfeljebb

egyszer fut az R1 és az R2 rutin.)

(6)

KLASZTER-Ei. EMZÉS 135

A klaszter—definíciók következménye. hogy a megfelelő klaszter—kereső eljárás

egy gráf vagy egy hipergráf kvázi komponenseinek megkeresésén alapul. Ez alap- ján már vázolhatók az új hierarchikus klaszter-kereső eljárás legfontosabb tulaj-

donságai: diviziv jellegű, konvergens, lépésszáma az objektumok és a deszkripto—

rok számának polinom alakú _függvényével felülről becsülhető. az összes klasztert '(kvázi komponenst) és csak azokat szolgáltatja.

A hipergráf modellen alapuló klaszter-technika

A hipergráf modellek, a kvázi komponens fogalmán alapuló klaszter—definíció és (: klaszter-kereső eljárás együttesen alkotja az új klaszter-technikát, amelynek jel—

lemző vonásai a következők:

a) lehetővé teszi kettőnél több objektum vagy deszkriptor hasonlóságának közvetlen mo- dellezését, sőt a kapcsolatok súlyozósát is;

b) elkerülhető a hasonlósági mérőszámok megszerkesztése (a statisztikai klaszter-elem- zésnél ezt a deszkriptorok definiálása váltja fel):

c) az explicit klaszter-definició módot nyújt a klaszterek tulajdonságainak alapos vizs—

gálatára; az egy klaszterbe sorolt objektumok vagy deszkriptorok valóban összefüggnek, sőt erősebben kapcsolódnak egymáshoz, mint (: klaszter teljes környezetéhez;

d) a klaszter-kereső eljárás hierarchikus, divizív jellegű, konvergens és hatékony: az ösz- szes klasztert és csak azokat szolgáltatja az objektumok és deszkriptorok sorrendjétől függet-

lenül;

e) az objektumok és diszkriptorok modellezése és a klaszterek megkeresése is ugyan- azzal a módszerrel történik, az alkalmazott modellek egymás duálisai.

A hipergráf modellen alapuló klaszter-technika lehetővé teszi olyan objektum- rendszerek szerkezetének feltárását. amelyekben az objektumokat elsősorban a kva—

litatív jellemzők és (vagy) a deszkriptorok jellemzik. A klaszter-elemzéssel vizsgált —

közgazdasági. orvosbiológiai, információs stb. — rendszerek jelentős hányada ilyen tulajdonságú.

*

Az új technikát alkalmaztuk az Építéstudományi Intézetben végzett kutatómun-

ka tematikai struktúrájának feltárására. Az Intézet négy kutatói tagozatán tagoza- tonként 50—90 kutatási téma klasztereit határozuk meg. A klaszerek száma 8 és 17

között változott.

A klaszterek ismeretében

-— vizsgáltuk a kutatások tematikai centrumait és azok hierarchiáját;

— feltártunk kialakuló új kutatási területeket;

— fényt derítettünk egymástól távol esőnek, tartott témák kapcsolataira;

— felhívtuk a figyelmet a tárgyszavazás hibáira.

Jelenleg folyamatban van a klaszter-technika egy másik alkalmazása is: az Or- szágos Számítástechnikai Kutatási Célprogram 1974—1977. évi kutatási témarend-

szerének klaszterezése.

További új feladatot jelent, hogy várhatóan 1978 végén megkezdjük az építő- ipari termékek információs rendszere szerkezetének feltárását.

lRODALOM

Anderberg. M. R.: Cluster analysis for applications. Academia Press. New York — London. 1973. 359 old.

Berge, C.: Graphs and hypergrophs. North Holland. Amsterdam London. 1973. 528 old.

Futó Péter: A cluster analízis egy új modellje és algoritmusa. Szlgma. 1977. évi 3. sz. 199—220. old.

(7)

136 , DR. FUTÓ: KLASZTER—ELEMZES

PE3lOME

Cretu Hanucana Ha ocnosauuu marepuane nonnana, npencraanenuoro Ha cocron—

amemcs 16 map-ra 1978 rona cosmecmorw accent-mu CTaTncrm-iecxoü Komuccun u Cum—eM-

Ho—Texnuuecxoü KOMHCCHH Benrepcnoü aKaAeMHH nayu. ,

B nepsoü uacm csoeü cranu aarop nocne scnuznoro noxasa oAHoMepl-toü mernem "

cnocoőa KnaCTepHOI'O ananusa npnsoAu'r naauMHo gyanu-ime runepopmomepusie monenn"

nnactepnoro ananusa, ny-reM npumeueuun KOTOprX mom-lo uaőeman. nonyuenue usmepu—

Teneü Tomnecraenuoc-m.

Bo a-ropoü uacm aBTop naonm noname runepomtomepnoro xsasu KoMnc-nema, we—

naraet ero aamueümne caoüc-rna c mmm sperma Knactepnoro auanuaa. BereM aaognr HD- noe, —- OCHOBblBBIOMeeCH Ha nonnmu Ksasu KOMI'IOHeHTa, -- onpeAeneHue Knacrepa Ha cnyuaű npnmeuenun Kan onnomepnmx, TaK " rnnepoanomepuux moaeneü. Hsnaraer Ha- nőonee BBDKHbie ocoőenuocm npouecca noucna Knamepa.

B Tpe'rbeü uacru cranan aBTop nocne nouasa xapaxtepnblx uepr Hanoi nnactepnoű fex- HHKH nonasusae'rcnyuan ee xonnpemoro npnmenenns.

SUMMARY

The article was prepared on the basis of a lecture delivered at the joint session of the Stotistical and System Technical Committees of the Hungarian Academy of Sciences held on

16th March 1978.

The first part of the article outlines the graph model and the processes of cluster anal- ysis, then shows the hypergraph models of cluster analysis by which the elaboration of the similar'ity measures becomes avoidoble.

In the second part of the article the author introduces the concept of the auasi com- ponent of the hypergraph. discusses its most important features regarding the cluster anal- ysis. Then he introduces a new cluster definition, based on the concept of the auasi com—

ponent, in case of using graph or hypergraph models. The main features of the cluster- ing procedure are also reviewed. '

The third part of the article shows characteristics of the new cluster techniaue, then reports on actual applications.

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

A kapott eredmény vizsgálatakor kiderülhet, hogy nem volt megfelelő (: deszk- riptor—kiválasztás, például olyan objektumok nem kerültek egy klaszterbe, amelyek

c) Az előbbinél jóval nagyobb a Német Demokratikus Köztársaság—Csehszlová- kia közötti súlyozatlan távolság (1.19), amely megerősíteni látszik azt a korábbi

Lehet, hogy ¨ ures klaszter keletkezik (minden pont elp´ artol az egyik centroidt´ ol). eggyel kevesebb klaszter lesz, ez

A terület szállásstruktúrájából kiemelendő, amely tulajdonságnak jelentős részben köszönhető a klaszter létrejötte is, hogy a szállodai, panzió és üdülőház

A fémek mobilitását befolyásoló tulajdonságok klaszterezéséhez hasonlóan mindhárom várost külön-külön (Budapest 2, Szeged 5, Gyula 2 klaszter) és együtt (4 klaszter)

klaszter: a közepes saját tőke mellett a hosszú lejáratú kötelezettségek szerepe csökken és magas szállítói arány jellemzi... klaszter: a saját tőke magasabb

hálózatok, tudatosság és társadalmi tőke fejlesztése a klaszter számára.. Egri

A HDC analízis relatív helymeghatározásainak pontosságát nagyban befolyásolja a klaszter konnektivitása, vagyis az, hogy egy állomás minél több eseményt