• Nem Talált Eredményt

Az erdőtelepítési motivációk választásának előrejelzése regressziós modellel

4.2 A kiértékelésnél alkalmazott statisztikai módszerek

4.2.3 Az erdőtelepítési motivációk választásának előrejelzése regressziós modellel

Kutatásunk alapvető kérdése, hogy milyen feltételek mellett lehet minél optimálisabb lehetőségeket találni az erdő- és mezőgazdaság összehangolt fejlesztésére. Annak becslésére – hogy mekkora valószínűséggel késztetik a gazdálkodókat erdőtelepítésre a vizsgálatunkban tekintett egyes motivációtípusok, más szóval, hogy mekkora valószínűséggel választják a gazdálkodók az erdőtelepítési motivációkat – olyan többváltozós sztochasztikus modellt állítottunk fel, amellyel az egyszerű analízisből „nyert” kovariánsok együttes hatását vizsgálhatjuk, s egyben sztochasztikus rangsort is felállíthatunk az erdőtelepítési motivációk között.

A többváltozós modell kiválasztása

Vizsgálatunkban a függő változó – az erdőtelepítési motiváció – nominális skálán mért kategorikus változó, amelynek a kategóriái és a hozzájuk rendelt kódok:

− nagyobb jövedelmet várok: 1-es kód;

− jó befektetésnek tekintem az erdőt: 2-es kód;

− nem akarok mezőgazdasággal foglalkozni, illetve nincs eszközöm a mezőgazdasági tevékenységhez 3-as kód;

− egyéb okból: 4-es kód.

Az elemzésünkhöz – a fentieknek megfelelően − olyan logaritmikus (logisztikus) regressziós modellt választottunk, ahol a kimenetel több kategóriájú nominális változó.

Az alábbiakban rövid áttekintést adunk a logaritmikus regresszió tulajdonságairól (Hunyady, 2002; Scott-Freese, 2003; Mundruczó, 1998; Székelyi, 2002, Vargha, 2000, Horváth, 2003).

A logaritmikus29 regressziós modell alkalmazásának általános elvei

Legyen π annak a valószínűsége, hogy egy esemény bekövetkezik. Az esély (angol neve odds) egy olyan mérőszám, amelyet két komplementer esemény valószínűségeinek hányadosaként definiálunk:

π π

= − ) 1 ( E

esély

.

Az esélyhányados (EH) két esély hányadosa, és ennyiben két esemény/változó közötti kapcsolat összefoglaló mérőszáma. Például, ha egy vizsgált kategorikus változó (tulajdonság, ismérv) A1-kategóriájába tartozók esélyhányadosa az A2-be tartozókhoz képest 2, akkor az A1-ben a vizsgált tulajdonság (kimenetel) bekövetkezésének esélye 2-szer nagyobb, mint az A2-ben. Az EH angol neve: odds ratio (OR).

Mivel a logaritmikus regressziós modellek esetében a függő (y) változó kategorikus, nem beszélhetünk „értekeinek” átlagáról, mint a Gauss-féle lineáris regressziónál. Másrészt a kategorikus y változó értékei nem követnek normális eloszlást – ami a „közönséges”

29 A magyar irodalomban a logisztikus elnevezést használják, amely az angol „logistic” szó fordítása. Az értekezésben a logaritmikus elnevezést vezettük be, abból a megfontolásból, hogy alapvetően a kimenetel esélyének a logaritmusát becsüljük a modellel.

regressziónál feltétel volt − hanem, például két-kategóriájú kimenetel esetében Bernoulli30 eloszlásúak.

A logaritmikus regresszióval a bennünket érdeklő kimenetel bekövetkezési esélyének e-alapú logaritmusát – lnodds-át31 – becsülhetjük a magyarázó változók lineáris függvényével.

A logaritmikus transzformáció jele logit(π), s ekkor a modell:

p

Ebből a bennünket érdeklő kimenetel bekövetkezésének π valószínűsége:

T i

A Gauss-féle legkisebb négyzetek módszerével úgy határozzuk meg az együtthatókat, azaz úgy illesztjük a modellt, hogy a maradékok négyzetösszege minimális legyen.

Végeredményben egy többváltozós (egyszerű esetben kétváltozós) függvény minimumát keressük, amelyben a változók a modell együtthatói. A paramétereket ezekkel az együtthatókkal becsüljük.

A logaritmikus regresszió maximum likelihood becslést32 (legnagyobb valószínűség elve) alkalmaz, azaz a log-likelihood függvény értékét maximalizálja. Ezzel arra törekszik, hogy egy minél jobban illeszkedő modellt hozzon létre. Olyan együtthatókat kell megtalálnia, amelyek mellett a likelihood függvény értéke maximális lesz. Ez tulajdonképpen azt jelenti, hogy a modell paramétereit olyan értékkel becsüli, azaz úgy határozza meg az együtthatókat, hogy az adott minta bekövetkezése a legnagyobb valószínűségű legyen. A logaritmikus regresszióban a paraméterek becsléseit egy iterációs folyamat során találja meg a program33. Legegyszerűbb modell az, amikor y bináris (két kategóriája van a kimenetelnek), és például egy kategorikus magyarázó változó szerepel a modellben:

z

1

30 Binomiális eloszlás 1, π paraméterekkel

31 A továbbiakban az angol nyelvű szakirodalomban és a szoftver kézikönyvekben általában használatos log jelölést használjuk az ln helyett.

ahol, például a nominális skálán mért A magyarázó változónak két kategóriája (csoportja) van (dichotom). A kategóriákhoz (függő és független változó esetén egyaránt) a számítógépes adatfile kialakításakor általában az 1−es és a 2−es számokat rendeljük, azaz így kódoljuk őket (nincs megkötés a kódok választására, a felhasználók gyakran használják a 0-t és az 1-et is).

Például, ha a vizsgált mintaelem az 1-es kategóriába tartozik, akkor a magyarázó változó értéke, azaz az elektronikus adat, 1-es lesz. Ez a kódolás azonban nem tévesztendő össze a kategorikus változó(k) regressziós modellbe építésével, amely ún. dummy változó(k) (indikátor változók) segítségével történik. Minden kategóriának egy dummy változó felel meg, amely 0 és 1 értéket vehet fel, ahol az 1 érték a vizsgált tulajdonság meglétét, a 0 pedig a vizsgált tulajdonság hiányát jelzi. A jelenleg bemutatott modell esetében, amikor a magyarázó változónak két kategóriája van, elegendő egyetlen dummy változó.

Az együtthatók jelentése:

α az A1 alapcsoport (baseline group) vagy referenciacsoport logodds-a, azaz a kimenetel bekövetkezési esélyének logaritmusa, ha a megfigyelt (megkérdezett) személy az A1-es csoportba esik,

β az esélyhányados logaritmusa (log odds ratio), A2 csoport vs A1 csoport.

Ugyanis, ha a megkérdezett személy (mintaelem) az A1-es csoportban van akkor log(odds(kimenetelA1))=α, ha az A2-es csoportban, akkor log(odds(kimenetelA2))=α+β.

A logodds-ok különbsége: log(odds(kimenetelA2))-log(odds(kiemetelA1))=α+β−α=β.

Ebből kapjuk, hogy log ,

1 2 =β oddsA oddsA

azaz β valóban az esélyhányados logaritmusa. Ebből kiszámítható az esélyhányados:

β EH eβ

EH = ⇒ =

log .

Amint a fentiekben utaltunk rá, azt a csoportot, amely minden dummy változónál nullát kapott (példánkban az A1-es csoport) kontrollcsoportnak, vagy az összehasonlítás bázisának (baseline group) tekintett ún. referencia csoportnak nevezzük. A modell elemzések során az összehasonlítás ehhez a referencia csoporthoz történik.

Logaritmikus regressziós modell, több kategóriájú nominális függő változóval:

multinomiális logaritmikus regressziós modell

A fentiekkel összehasonlítva, ha a modellben a kimenetelnek nem kettő, hanem több kategóriája van multinomiális logaritmikus regressziós modellt (angol elnevezése:

multinomial logit model: MNLM) alkalmazhatunk a kimenetelek logodds-ának becslésére.

Az MNLM modell általánosan a következőképpen írható fel (Mirer, 1995), az odds –ot Ω-val jelöljük:

ahol m=1,2,…,j és j a kimenetel kategóriáinak száma, b a kimenetel kategóriáiból (csoportjaiból) választott referenciacsoport, x a magyarázó változók vektora, βmb a modell együtthatóinak vektora. Ha a kimenetel referenciacsoportját önmagához hasonlítjuk, akkor

, magyarázó változók hatásának is 0-nak kell lenni.

Amint az (1)-es egyenletből látható, ebben a modellben a kimenetel esélyének számolásánál, a logit transzformációnál a komplementer szerepét a referencia csoport veszi át.

Az (1)-es egyenletből a valószínűségek kiszámíthatók:

(2)

( )

Például, ha a kimenetelnek − mint a vizsgálatunkban − 4 kategóriája van és az 1-gyel kódolt csoportot választjuk referenciacsoportnak, akkor az (1)-es egyenlet a következő egyenleteket jelenti:

(3)

azaz minden kimenetel-kategóriának megfelel egy általánosított logit modell. Ha a kimenetel referenciacsoportját önmagához hasonlítjuk, akkor logΩbb(x)=log1=0, ezért βbb =0-nak kell teljesülni, amely szerint alapjában véve J-1 egyenlettel ekvivalens az (1)-es egyenlet.

Tehát, például 4 kategóriájú kimenetel és 3 komponensű magyarázó változó esetén az általánosított logitok a következők:

(4)

A fenti egyenletekből kapjuk a valószínűségeket:

Ebből és a fenti (5)-ös összefüggésekből kapjuk, hogy

1

Behelyettesítés után a valószínűségek:

(6)

Néhány multinomiális modell magyarázó változóinak jellemzése a 6. számú mellékletben található.