Bevezet´es a matematikai statisztik´aba

(1)

Bevezet´ es a matematikai statisztik´ aba

Nagy-Gy¨orgy Judit

Szegedi Tudom´anyegyetem, Bolyai Int´ezet

(2)

Statisztikai alapfogalmak

Tekintsünk egy ξ valósz´ın˝uségi változót.

Statisztikai minta (n elem˝u minta) ξ₁, . . . , ξ_n fae vv, eloszlásuk megegyezik aξ háttérváltozó eloszlásával.

Haξ_i változó azx_i értéket veszi fel (i = 1, . . . ,n), akkor azt mondjuk, hogyx1, . . . ,xn a minta realizációja.

A matematikai statisztika alapvet˝o feladatai:

I ξ háttérváltozó eloszlásának, egyéb mutatóinak becslése (pontbecslések, intervallumbecslések),

I ξ háttérváltozó eloszlására vonatkozó hipotézisek vizsgálata (statisztikai próbák).

(3)

Statisztikai alapfogalmak

Defin´ıci´o

Legyen f egy n-változós Borel mérhet˝o függvény. A mintaelemek f(ξ1, . . . , ξn) függvényét statisztikának nevezzük.

Alapstatisztik´ak

I ξ = ξ₁+. . .+ξ_n

n minta´atlag,

I mini{ξ_i} legkisebb mintaelem,

I max_i{ξ_i} legnagyobb mintaelem,

I max_i{ξ_i} −min_i{ξ_i}mintaterjedelem,

I empirikus (tapasztalati) medián: a sorbarendezett mintaelemek közül a középs˝o (vagy han páros, a középs˝o kett˝o átlaga).

I empirikus (tapasztalati) módusz: a legtöbbször el˝oforduló mintaelem.

I . . .

(4)

Becsl´ esek

Legyenθ aξ eloszlásának egy paramétere, ˆθ_n:= ˆθ(ξ₁, . . . , ξ_n).

Defin´ıci´o

Azθˆn statisztika torz´ıtatlanbecsléseθ-nak, ha a paraméterhalmaz mindenθelemére

E(ˆθn) =θ.

Defin´ıci´o

θˆ_n (n= 1,2, . . .) sorozat gyeng´en konzisztensbecsl´eseθ-nak, ha θˆn szt

−→ θ, n→ ∞.

θˆn (n= 1,2, . . .) sorozat er˝osen konzisztensbecsl´eseθ-nak, ha θˆn mb

−→ θ, n→ ∞.

(5)

Az eloszl´ asf¨ uggv´ eny becsl´ ese

Defin´ıci´o

Legyen k_n,x =Pn

i=1I(ξ_i <x), ahol I indikátorfüggvény és F_n(x) = k_n,x

n .

Az F_n függvényt empirikus eloszlásfüggvénynek nevezzük.

F_n tulajdons´agai

A minta bármely realizációját tekintve F_n

I monoton nemcs¨okken˝o,

I balr´ol folytonos,

I limx→∞Fn(x) = 1 ´es limx→−∞Fn(x) = 0.

(6)

All´ıt´´ as

Legyen x ∈Rrögz´ıtett. Fn(x)torz´ıtatlan és er˝osen konzisztens becslése az F(x) eloszlásfüggvénynek.

Bizony´ıt´as.

k_n,x binomiális eloszlású n ésF(x) paraméterekkel. Tehát E(Fn(x)) =E

k_n,x n

= 1

nE(kn,x) = 1

n ·nF(x) =F(x).

Az er˝os konzisztencia nagy számok er˝os törvényéb˝ol közvetlenül következik.

T´etel (A matematikai statisztika alapt´etele; Glivenko–Cantelli)

sup

x∈R

|F_n(x)−F(x)|−→^mb 0, n→ ∞.

[szeml´eltet´es]

(7)

A s˝ ur˝ us´ egf¨ uggv´ eny becsl´ ese

Defin´ıci´o

I₁,I₂, . . . páronként diszjunkt (véges hosszúságú) intervallumok, S∞

i=1Ii =R. Legyenνk =Pn

i=1I(ξi ∈Ik), f_n(x) = ν_k

n|I_k|, hax ∈I_k. Az f_n függvényt s˝ur˝uséghisztogramnak nevezzük.

f_n tulajdons´agai

A minta bármely realizációját tekintve

I f_n≥0,

I R∞

−∞fn(x)dx = 1.

Megjegyz´es

Altal´´ aban egyenl˝o hossz´u az intervallumokra osztj´ak R-t.

(8)

(9)

A v´ arhat´ o ´ ert´ ek becsl´ ese

Defin´ıci´o

AzEn(ξ) =ξ statisztikátempirikus (tapasztalati) várható értéknek nevezzük.

All´ıt´´ as

HaE(ξ) létezik,En(ξ) torz´ıtatlan, és ha E(|ξ|)<∞, akkor er˝osen konzisztens becslése is E(ξ)-nek.

Bizony´ıt´as

A várható érték additivitása miatt E(En(ξ)) =E

ξ1+. . .+ξn

n

= E(ξ1) +. . .+E(ξn)

n = 1

nnE(ξ).

Az áll´ıtás második fele éppen a nagy számok er˝os törvénye.

[szeml´eltet´es]

(10)

P´elda

Legyenξ1, . . . , ξn minta, ahol aξ háttérváltozónak létezik aσ szórása. Legyenθ=E(ξ) ismeretlen paraméter.

Tekintsük aξ₁ és aξ statisztikákat.

I Nyilvánvalóanξ₁ még gyengén sem konzisztens becslése θ-nak, m´ıg a nagy számok er˝os törvénye miatt ξ er˝osen konzisztens becslés.

I Mindk´et statisztika torz´ıtatlan becsl´eseθ-nak:

E(ξ₁) =E(ξ) =θ,

E(ξ) = ¹_nE(ξ₁+. . .+ξ_n) = ¹_n·n·E(ξ) =θ.

I D²(ξ) = _n¹2D²(ξ₁+. . .+ξ_n) = _nⁿ2·D²(ξ) = ^σ_n² < σ²=D²(ξ₁).

Vagyis a két torz´ıtatlan becslés közül ξ ahatásosabb.

K´erd´es

Mi lehet a magyarázata, hogy Magyarországon az emberek többségének fizetése az átlagfizetés alatt van?

(11)

A sz´ or´ as becsl´ ese

Defin´ıci´o

Empirikus (tapasztalati) variancia:

Vn(ξ) = 1 n

n

X

i=1

(ξi−En(ξ))²

Empirikus (tapasztalati) sz´or´as:Dn(ξ)=p Vn(ξ) All´ıt´´ as

Vn(ξ) = ¹_nPn

i=1ξ_i²−E²_n(ξ) =En(ξ²)−E²_n(ξ).

Bizony´ıt´as

Vn(ξ) = 1 n

n

X

i=1

ξ_i²−2En(ξ)1 n

n

X

i=1

ξi +1

n ·nE²_n(ξ)

= En(ξ²)−E²_n(ξ).

(12)

T´etel

HaD(ξ) l´etezik, akkor E(V_n(ξ)) = n−1 n D²(ξ).

Bizony´ıt´as

E(Vn(ξ)) = E



 1 n

n

X

i=1

ξ_i²− 1 n²

n

X

i=1

ξ_i

!2



= 1

n

X

i=1

E(ξ_i²)− 1 n²





n

X

i=1

E(ξ_i²) + 2X

i<j

E(ξiξj)





= n−1 n²

n

X

i=1

E(ξ_i²)− 2 n²

X

i<j

E(ξi)E(ξj)

= n−1

n² ·n·E(ξ²)− 2

n² ·n(n−1) 2 E²(ξ)

= n−1

n E(ξ²)−n−1 n E(ξ)².

(13)

Bizony´ıt´as 2 E(Vn(ξ)) = 1

n

X

i=1

E(ξ_i²)−E(ξ²)

= 1

n

X

i=1

D²(ξi) +E²(ξi)

− D²(ξ) +E²(ξ)

= n

nD²(ξ) +n

nE²(ξ)−

D²(ξ)

n +E²(ξ)

= n−1 n D²(ξ).

Defin´ıci´o

Korrig´alt empirikus (tapasztalati) variancia:

V_n^∗(ξ)= n

n−1V_n(ξ) = 1 n−1

n

X

i=1

ξ_i²− n

n−1E²_n(ξ).

Korrigált empirikus (tapasztalati) szórás:D^∗_n(ξ)=p V^∗_n(ξ).

K¨ovetkezm´eny

V^∗_n(ξ)torz´ıtatlan becsl´eseD²(ξ)-nek.

(14)

T´etel

HaD(ξ) létezik, akkor V_n(ξ)ésV^∗_n(ξ)is er˝osen konzisztens becsléseD²(ξ)-nek.

Bizony´ıt´as

A nagy számok er˝os törvény alapján En(ξ) = ξ₁+. . .+ξ_n

n

−→mb E(ξ), n→ ∞

valamint

En(ξ²) = ξ₁²+. . .+ξ_n² n

−→mb E(ξ²), n→ ∞.

´Igy

Vn(ξ) =En(ξ²)−E²_n(ξ) −→^mb E(ξ²)−E²(ξ) =D²(ξ), n→ ∞.

(15)

Kovariancia, korrel´ aci´ o becsl´ ese

Tekintsük (ξ, η) háttérváltozót és (ξ1, η1), . . . ,(ξn, ηn) mintát.

Defin´ıci´o

ξ´esη empirikus kovarianci´aja C_n(ξ, η)= ¹_nPn

i=1(ξ_i −E_n(ξ))(η_i −E_n(η)).

All´ıt´´ as

C_n(ξ, η) = ¹_nPn

i=1ξ_iη_i−E_n(ξ)E_n(η).

Bizony´ıt´as C_n(ξ, η) = 1

n

X

i=1

ξ_iη_i−E_n(ξ)

n

X

i=1

η_i −E_n(η)

n

X

i=1

ξ_i +nE_n(ξ)E_n(η)

!

= 1

n

X

i=1

ξ_iη_i−2E_n(ξ)E_n(η) +E_n(ξ)E_n(η).

(16)

Defin´ıci´o

ξésη (Pearson-féle) empirikus korrelációs együtthatója rn(ξ, η)= Cn(ξ, η)

Dn(ξ)Dn(η), haDn(ξ)Dn(η)6= 0, és0 különben.

All´ıt´´ as

|r_n(ξ, η)| ≤1. Továbbá |r_n(ξ, η)|= 1 pontosan akkor teljesül, ha ξ_i, η_i pontpárok között lineáris összefüggés van.

Bizony´ıt´as

A Cauchy-Bunyakovszkij-Schwarz egyenl˝otlens´eg alapj´an

|nC_n(ξ, η)| ≤

n

X

i=1

|ξ_i−E_n(ξ)| · |η_i −E_n(η)|

≤ v u u t

n

X

i=1

(ξ_i −E_n(ξ))²

n

X

i=1

(η_i−E_n(η))²

= p

nV_n(ξ)·nV_n(η) = nD_n(ξ)D_n(η).

(17)

Megjegyz´esek

I Cn(ξ, ξ) =Vn(ξ).

I Cn(ξ, η) valamint rn(ξ, η) el˝ojele a kapcsolat ir´any´ara utal.

I |r_n(ξ, η)|a kapcsolat szorosságát jelzi. Ha r_n(ξ, η) = 1, akkor pozit´ıv, harn(ξ, η) =−1, akkor negat´ıv lineáris kapcsolat.

All´ıt´´ as

C_n(ξ, η) er˝osen konzisztens becsl´eseC(ξ, η)-nak, valamintr_n(ξ, η) er˝osen konzisztens becsl´eser(ξ, η)-nak.

Bizony´ıt´as

A nagy számok er˝os törvénye alapján egyszer˝uen adódik:

En(ξη)−En(ξ)En(η) −→^mb E(ξη)−E(ξ)E(η) =C(ξ, η), n → ∞, C_n(ξ, η)

pVn(ξ)Vn(η)

−→mb C(ξ, η)

D(ξ)D(η), n→ ∞.

(18)

T´etel

HaC(ξ, η)l´etezik, akkor E(Cn(ξ, η)) = n−1

n C(ξ, η).

Bizony´ıt´as

E(C_n(ξ, η)) = E 1 n

n

X

i=1

ξ_iη_i − 1 n²

n

X

i=1

ξ_i

! _n X

i=1

η_i

!!

= 1

n

X

i=1

E(ξiηi)− 1 n²





n

X

i=1

E(ξiηi) +X

i6=j

E(ξiηj)





= n−1 n²

n

X

i=1

E(ξ_iη_i)− 1 n²

X

i6=j

E(ξ_i)E(η_j)

= n−1

n² ·n·E(ξη)−n(n−1)

n² E(ξ)E(η)

= n−1

n E(ξη)− n−1

n E(ξ)E(η).

(19)

Defin´ıci´o

Korrig´alt empirikus (tapasztalati) kovariancia:

C^∗_n(ξ, η)= n

n−1Cn(ξ, η).

K¨ovetkezm´eny

C^∗_n(ξ, η) torz´ıtatlan becsl´eseC(ξ, η)-nak.

Megjegyz´es

C^∗_n(ξ, η) D^∗_n(ξ)D^∗_n(η) =

n

n−1Cn(ξ, η) q n

n−1Dn(ξ)q

n n−1Dn(η)

= Cn(ξ, η)

D_n(ξ)D_n(η) =rn(ξ, η).

(20)

Maximum likelihood m´ odszer

Vegyünk egy n elem˝u mintát, amely háttéreloszlásának θ ismeretlen paramétere, erre szeretnénk becslést kapni.

Defin´ıci´o

Legyenξ diszkrét háttérváltozó, tekintsük az x1, . . . ,xn realizációt.

A hozzá tartozó likelihood-függvény a következ˝o:

L(θ) =P_θ(ξ₁=x₁, . . . , ξ_n=x_n) =P_θ(ξ=x₁)·. . .·P_θ(ξ=x_n).

Defin´ıci´o

Legyenξ folytonos háttérváltozó. Tekintsük a x1, . . . ,xn

realizációt. A hozzá tartozó likelihood-függvény a következ˝o:

L(θ) =fθ,ξ1,...,ξn(x1, . . . ,xn) =fθ(x1)·. . .·fθ(xn).

(21)

Defin´ıci´o

Aθparamétermaximum-likelihood becslése (röviden ML becslése) aθˆstatisztika, ha minden x₁, . . . ,x_n realizációra

L(ˆθ) = max

θ L(θ,x₁, . . . ,x_n).

A szorzat maximumhelyének meghatározása helyett sokszor könnyebb egy összeg maximumhelyét megadni, ezért vezetjük be a következ˝o fogalmat.

Defin´ıci´o

Tekintsük az x1, . . . ,xn realizációt,θparamétert, és a hozzájuk tartozó L(θ)likelihood-függvényt. Alog-likelihood függvény

`(θ) = lnL(θ).

A (természetes alapú) logaritmus függvény monoton növ˝o, ezért

`(θ) éppen ott veszi fel széls˝oértékeit, ahol L(θ).

(22)

Val´ osz´ın˝ us´ eg ML becsl´ ese

LegyenAegy eseményp =P(A) valósz´ın˝uséggel, ahol 0<p <1.

Tekintsük ξ=I(A) háttérváltozót (Aindikátorváltozója), ez Bernoulli-eloszlású p paraméterrel.

Tegyük fel, hogy x1, . . . ,xn, az ebb˝ol vett minta realizációja nem csupa 0 vagy csupa 1, és legyen K_n(A) =P_n

i=1x_i. L(p) =p^Kⁿ^(A)(1−p)^n−Kⁿ^(A), ha p ∈(0,1)

teh´at

`(p) =Kn(A) lnp+ (n−Kn(A)) ln(1−p) maximumhely´et keress¨uk (0,1)-en.

(23)

`(p) a (0,1)-en kétszer deriválható, ´ıgyp ML becslése

`⁰(ˆp) = K_n(A) ˆ

p −n−K_n(A)

1−ˆp = 0,

`⁰⁰(ˆp) = −K_n(A) ˆ

p² −n−Kn(A)

(1−ˆp)² < 0 megoldásaˆp =K_n(A)/n lesz`szigorú konkavitása miatt.

Megjegyz´esek

I Ha p = 0 vagy 1, akkor `(p) nem ´ertelmezett.

I Ha a realizáció 1, . . . ,1, akkor L(p) =pⁿ ha p ∈[0,1], maximumhelye 1, de csak baloldali derivált létezik 1-ben (ami nem 0). Továbbá (0,1)-en nincs széls˝oértéke L(p)-nek.

I Hasonló a helyzet 0, . . . ,0 realizáció esetén,L(p) = (1−p)ⁿ ha p ∈[0,1].

I Ha Kn(A) a bekövetkezések száma, E(Kn(A)/n) =np/n=p.

(24)

Másik lehet˝oség p ML becslésére, ha tekintünk egy 0<p <1 paraméter˝u geometriai eloszlású ξ háttérváltozót. Tekintsük az x₁, . . . ,x_n∈N⁺ mintarealizációt. Ekkor

L(p) = p(1−p)^x¹⁻¹·. . .·p(1−p)^xⁿ⁻¹

= pⁿ(1−p)^Pⁿⁱ⁼¹^xⁱ⁻ⁿ

`(p) = nlnp+

n

X

i=1

xi−n

!

ln(1−p).

`(p) (0,1)-en kétszer deriválható, ´ıgy

`⁰(ˆp) = n ˆ p −

Pn

i=1x_i−n

1−ˆp = 0,

`⁰⁰(ˆp) = −n ˆ p² −

Pn

i=1xi−n

(1−p)ˆ ² < 0 megold´asaˆp =n/Pn

i=1x_i. Bel´athat´o, hogypˆ=n/Pn

i=1ξ_i nem torz´ıtatlan becsl´esep-nek.

(25)

Poisson eloszl´ as param´ eter´ enek ML becsl´ ese

L(λ) =

n

Y

i=1

λ^xⁱ xi!e^−λ

=λ^Pⁿⁱ⁼¹^xⁱ ·

n

Y

i=1

xi!

!−1

·e^−nλ, λ >0.

teh´at

`(λ) =

n

X

i=1

x_ilnλ+c−nλ, λ >0 kétszer deriválható (0,∞)-en,

`⁰(ˆλ) = Pn

i=1x_i

λˆ −n = 0, `⁰⁰(ˆλ) = −Pn i=1x_i λˆ² <0 megold´asaλˆ=Pn

i=1xi/n, ha Pn

i=1xi 6= 0.

HaP_n

i=1x_i = 0, akkorL(λ) =e^−nλ, ennek nincs széls˝oértéke a (0,∞) intervallumon, ´ıgy ekkor λ-nak nincs ML becslése.

(26)

Exponenci´ alis eloszl´ as param´ eter´ enek ML becsl´ ese

L(λ) =

n

Y

i=1

λe^−λxⁱ

=λⁿe^−λ^Pⁿⁱ⁼¹^xⁱ, λ >0.

teh´at

`(λ) =nlnλ−λ

n

X

i=1

xi, λ >0 kétszer deriválható (0,∞)-en,

`⁰(ˆλ) = n λˆ −

n

X

i=1

x_i = 0, `⁰⁰(ˆλ) = −n λˆ² <0 megold´asaλˆ=n/Pn

i=1xi.

Belátható, hogy 1/En(ξ) nem torz´ıtatlan becsléseλ-nak.

(27)

Intervallum jobb v´ egpontj´ anak ML becsl´ ese

Legyenξ háttérváltozó egyenletes eloszlású a [0, θ] intervallumon (f(x) =θ⁻¹, ha 0≤x ≤θés 0 különben).

L(θ) =

θ⁻ⁿ, ha x₁, . . . ,x_n≤θ, 0 k¨ul¨onben =

θ⁻ⁿ, ha maxⁿ_i=1x_i ≤θ, 0 k¨ul¨onben.

L(θ) monoton n˝o, ez´ert maximumhelyeθˆ= maxⁿ_i₌₁x_i. Megjegyz´esek

I Mivel L(θ)-nak a maximumhelye szakadási pont, deriválással nem lehet meghatározni ˆθ-t.

I Bel´athat´o, hogyE(maxⁿ_i=1ξi) = _n+1ⁿ θ.

I Ha a (0, θ) intervallumból vennénk a mintát, akkor nem létezne ML becslés.

(28)

Intervallum hely´ enek ML becsl´ ese

Legyenξ háttérváltozó egyenletes eloszlású a [θ, θ+ 1]

intervallumon (f(x) = 1, haθ≤x≤θ+ 1 és 0 különben).

L(θ) =

1, ha θ≤x₁, . . . ,x_n≤θ+ 1, 0 k¨ul¨onben

=

1, ha maxⁿ_i=1xi −1≤θ≤minⁿ_i=1xi, 0 k¨ul¨onben.

L(θ) maximumhelyei a[maxⁿ_i₌₁x_i−1,minⁿ_i=1x_i]intervallum pontjai.

Megjegyz´es

Belátható, hogyE(maxⁿ_i=1ξi−1) =θ−1/(n+ 1), valamint E(minⁿ_i₌₁ξ_i) =θ+ 1/(n+ 1), tehát a kett˝o átlaga torz´ıtatlan becslésθ-ra.

(29)

Norm´ alis eloszl´ as param´ etereinek ML becsl´ ese

L(µ, σ) =

n

Y

i=1

√1

2πσe⁻^2σ¹²^(xⁱ^−µ)²= (√

2πσ)⁻ⁿe⁻^2σ¹²

Pn

i=1(xi−µ)²

, aholµ∈R´esσ >0.

`(µ, σ) =−nln√

2π−nlnσ− 1 2σ²

n

X

i=1

(x_i −µ)², ami kétszer deriválható. Képezzük a parciális deriváltakat:

∂`

∂µ = 1

σ²

n

X

i=1

(xi −µ) = 0 (1)

∂`

∂σ = −n

σ + 1

σ³

n

X

i=1

(xi −µ)² = 0, (2) Llehetséges széls˝oértékhelyei ezek közös zérushelyei.

(30)

(1)-b˝ol kapjuk, hogy ˆ µ=

Pn i=1x_i

n =En(ξ), ezt (2)-be helyettes´ıtve pedig

n ˆ

σ = 1

ˆ σ³

n

X

i=1

(xi−µ)ˆ ² ˆ

σ² = 1

n

X

i=1

(xi −µ)ˆ ²

ˆ

σ =

v u u t 1 n

n

X

i=1

(xi−µ)ˆ ²=Dn(ξ).

Bel´athat´o, hogy (ˆµ,σ) val´ˆ oban maximumhelye L(µ, σ)-nak.

(31)

Norm´ alis eloszl´ asb´ ol sz´ armaztatott eloszl´ asok

Defin´ıci´o

Legyenekξ1, . . . , ξn független, standard normális eloszlású vv-k.

χ²=ξ₁²+. . .+ξ_n² vv n szabadságfokúχ² eloszlású F_χ2,n eloszlásfüggvénnyel.

All´ıt´´ as

χ² s˝ur˝uségfüggvénye

f_χ²_,n(x) = xⁿ²⁻¹e⁻^x²

2ⁿ²Γ ⁿ₂ hax >0.

Bizony´ıt´as Teljes indukci´o.

(i) F_χ²_,1(x) =P(ξ₁²<x) =P(|ξ₁|<√

x) = 2Φ(√

x)−1 ha x>0 f_χ2,1(x) =ϕ(√

x)·x^−1/2 ha x>0.

(32)

χ

²

eloszl´ as s˝ ur˝ us´ egf¨ uggv´ enye

(ii) konvol´uci´o f_χ2,n(x) =

Z x 0

f_χ2,1(x−y)·f_χ2,n−1(y)dy

= Z x

0

(x−y)⁻¹²e⁻^x−y²

2¹²Γ ¹₂ · yⁿ⁻¹² ⁻¹e⁻^y² 2ⁿ⁻¹² Γ ⁿ⁻¹₂ dy

= e⁻^x²

√2π2ⁿ⁻¹² Γ ⁿ⁻¹₂ Z x

0

yⁿ⁻¹² ⁻¹

√x−ydy

=^∗ xⁿ²⁻¹e⁻^x²

√2π2ⁿ⁻¹² Γ ⁿ⁻¹₂ Z 1

0

zⁿ⁻¹² ⁻¹

√1−zdz

∗y =zx helyettes´ıtéssel (dy =xdz). A normáló tényez˝o

√ 1

2π2ⁿ⁻¹² Γ(ⁿ⁻¹₂ ) R1

0 t√ⁿ⁻¹² ⁻¹

1−t dt = ¹

2ⁿ²Γ(ⁿ2) sz¨uks´egszer˝uen.

(33)

Defin´ıci´o Γ(a) =R∞

0 y^a−1e^−ydy, a>0.

Tulajdons´agai

I Γ(1) = 1 ´es Γ(x+ 1) =xΓ(x).

I Ha n eg´esz, akkor Γ(n) = (n−1)!

I Γ(1/2) =√ π,

I Ha n p´aratlan Γ(n/2) = ^n(n−2)...1

2ⁿ⁻¹²

√π= ^n!!

2ⁿ⁻¹²

√π.

(34)

Defin´ıci´o

Legyenekξ₀, . . . , ξ_n független, standard normális eloszlású vv-k.

t= ξ₀√ n q

ξ²₁+. . .+ξ_n²

vv n szabadságfokú Student (t) eloszlású

Φ_n eloszlásfüggvénnyel.

All´ıt´´ as

t s˝ur˝uségfüggvényeϕ_n(x) = ^Γ(ⁿ⁺¹₂ )

√πnΓ(ⁿ₂)

1 +^x_n²−ⁿ⁺¹

2 . Bizony´ıt´as (v´azlat)

A szigorúan monotonψfüggvényre vonatkozó

f_ψ(ξ)(y) =fξ(ψ⁻¹(y))· |dψ⁻¹(y)/dy|és a független valósz´ın˝uségi változók hányadosára vonatkozó f_ξ/η(x) =R∞

0 yfη(y)f_ξ(xy)dy

¨

osszefüggések felhasználásával adódik.

[szeml´eltet´es]

(35)

Megjegyz´esek

I A t(n) eloszl´as szimmetrikus: haξ∼t(n), akkor−ξ ∼t(n).

I Belátható, hogy ha ξn∼t(n) ésξ∼N(0,1), akkor ξn→ξ eloszlásban, ha n→ ∞ (vagyis Φ_n(x)→Φ(x), han→ ∞).

(36)

Defin´ıci´o

Legyenekξ₁, . . . , ξ_m+n független, standard normális eloszlású vv-k.

F = n

m· ξ²₁+. . .+ξ²_m

ξ_m+1² +. . .+ξ_m+n² vv(m,n) szabadságfokú F eloszlású Fm,n eloszlásfüggvénnyel.

All´ıt´´ as

F s˝ur˝uségfüggvénye

fm,n(x) = nΓ ^n+m₂ _n

mxⁿ₂−1

mΓ ⁿ₂ Γ ^m₂

1 +_mⁿx^n+m₂ .

Bizony´ıt´as (v´azlat)

Mivel a számláló és a nevez˝o független χ² eloszlású változók konstansszorosamésn szabadságfokokkal, az

f_ξ/η(x) =R∞

0 yfη(y)fξ(xy)dy összefüggés felhasználásával adódik.

(37)

Megjegyz´esek

I Némelyχ², Student és F eloszlás inverz eloszlásfüggvényeinek néhány értékét statisztikai táblázatok tartalmazzák.

I Ha ξ ∼F(n,m), akkor 1/ξ∼F(m,n). Ebb˝ol, ha x>0, F_n,m(x) =P(ξ <x) =P(1/ξ >1/x) = 1−F_m,n(1/x).

I Ha ξ ∼t(n), akkor ξ²∼F(1,n).

I Ha ξ ∼χ²(m), η ∼χ²(n) f¨uggetlenek, akkor ξ/m

η/n ∼F(m,n).

(38)

Statisztik´ ak eloszl´ asa

T´etel

Legyenξ1, . . . , ξn egy N(µ, σ²) eloszlásból vett minta. A következ˝ok teljesülnek:

I E_n(ξ)∼N

µ,σ² n

,

I n

σ²V_n(ξ)∼χ²(n−1),

I En(ξ) ´esVn(ξ) f¨uggetlenek,

I En(ξ)−µ

pV^∗_n(ξ)/n ∼t(n−1).

(39)

Bizony´ıt´as En(ξ) =Pn

i=1ξi/n∼N(nµ/n,nσ²/n²) =N(µ, σ²/n).

Legyenξ= (ξ1, . . . , ξn)^>,Uegyn×n-es ortogonális mátrix, amely els˝o sorának minden eleme 1/√

n ´es legyen η=Uξ.

η ∼N(U(µ, . . . µ)^>,Uσ²IU^>) =N((√

nµ,0, . . . ,0)^>, σ²I).

η₁=√

nE_n(ξ), ´ıgynV_n(ξ) =Pn

i=1ξ²_i −nE²_n(ξ) =Pn

i=2η²_i, mivel

n

X

i=1

η²_i =η^>η =ξ^>U^>Uξ =ξ^>ξ =

n

X

i=1

ξ²_i, teh´atE_n(ξ) =η₁/√

n ´esV_n(ξ) =P_n

i=2η²_i/n függetlenek. Továbbá nVn(ξ)

σ² =

n

X

i=2

η_i²

σ² ∼χ²(n−1),

´es a t eloszl´as def. miatt

√n−1(En(ξ)−µ)√

√_P_n n/σ

i=2nVn(ξ)/σ² = ^E√ⁿ^(ξ)−µ

V^∗_n/n ∼t(n−1).

(40)

T´etel

Legyenξ₁, . . . , ξ_n₁ egy N(µ₁, σ₁²),η₁, . . . , η_n₂ egy N(µ₂, σ²₂) eloszlásból vett független minta. A következ˝ok teljesülnek:

I

E_n₁(ξ)−E_n₂(η)−(µ₁−µ₂) qσ₁²

n1 + ^σ_n²²

2

∼N(0,1).

I ha σ₁ =σ₂, akkor

E_n₁(ξ)−E_n₂(η)−(µ₁−µ₂) pn1Vn1(ξ) +n2Vn2(η) ·

s

n₁n₂(n₁+n₂−2) n₁+n₂ Student eloszlású n1+n2−2 szabadságfokkal,

I

V^∗_n₁(ξ)σ²₂

V_n^∗₂(η)σ₁² ∼F(n₁−1,n₂−1).

(41)

Bizony´ıtás vázlat Az el˝oz˝o tétel alapján

E_n₁(ξ)∼N(µ₁, σ₁²/n₁)´esE_n₂(η)∼N(µ₂, σ₂²/n₂), teh´at

E_n₁(ξ)−E_n₂(η)∼N(µ₁−µ₂, σ₁²/n₁+σ²₂/n₂), amib˝ol adódik a tétel els˝o része.

Szint´en az el˝oz˝o t´etel miatt

(n₁−1)V^∗_n₁(ξ)/σ₁²∼χ²(n₁−1), (n2−1)V^∗_n₂(η)/σ₂² ∼χ²(n2−1),

(n₁−1)V_n^∗₁(ξ)/σ₁²+ (n₂−1)V^∗_n₂(η)/σ²₂ ∼χ²(n₁+n₂−2) amib˝ol a t és F eloszlások defin´ıciója alapján az el˝oz˝o tételhez hasonlóan adódik a további két áll´ıtás.

(42)

Konfidencia intervallumok

Legyenθismeretlen paraméter. Azintervallumbecsléslényege olyan intervallum konstruálása (statisztikák seg´ıtségével), amelybe θ nagy valósz´ın˝uséggel (általában 0,95 vagy 0,99) beleesik.

Defin´ıci´o

Legyen Sn<Tn k´et statisztika, amelyreP(Sn< θ <Tn) = 1−α.

Ekkor azt mondjuk,(Sn,Tn) egy1−α megb´ızhat´os´agi szint˝u konfidencia intervallumθ-ra.

A konfidencia-intervallum szerkesztése általában

I Keresünk egy Z_n(θ) statisztikát, aminek az eloszlása ismert.

I Zn(θ)-ra szerkeszt¨unk intervallumot:

P(a<Z_n(θ)<b) = 1−α, ahola,b konstansok.

I A Zn(θ)-ra fel´ırt egyenl˝otlenségeket átalak´ıtjuk θ-ra fel´ırt egyenl˝otlenségekké:P(S_n(a,b)< θ <T_n(a,b)) = 1−α.

(43)

Konfidencia intervallum norm´ alis eloszl´ as v´ arhat´ o ´ ert´ ek´ ere

Legyenξ1, . . . , ξn N(µ, σ²)-b˝ol vett minta, aholσ ismert. µ-re keresünk 1−α megb´ızhatósági szint˝u konfidencia intervallumot.

Tudjuk, hogyEn(ξ)∼N(µ, σ²/n). Szerkesszünk a Z_n(µ) = Ê_σ/ⁿ^(ξ)−µ^√_n ∼N(0,1) statisztika köré intervallumot:

P(−x_α <Zn(µ)<xα) = P(Zn(µ)<xα)−P(Zn(µ)<−x_α)

= Φ(x_α)−Φ(−x_α) = 2Φ(x_α)−1 = 1−α, amib˝olx_α= Φ⁻¹(1−^α₂).

1−α = P

−x_α< E_n(ξ)−µ σ/√

n <x_α

= P

En(ξ)−xα

√σ

n < µ <En(ξ) +xα

√σ n

. Az intervallum hossza|T_n−Sn|= 2xασ/√

n →0, ha n→ ∞.

(44)

Most n´ezz¨uk meg azt az esetet, haσ ismeretlen. Legyen Z_n(µ) = E_n(ξ)−µ

pV_n^∗(ξ)/n ∼t(n−1).

At(n−1) eloszlás szimmetriáját felhasználva a

P(−x_α <Z_n(µ)<x_α) = 2Φn−1(x_α)−1 = 1−α összefüggésb˝ol az el˝oz˝ohöz hasonlóan adódikx_α = Φ⁻¹_n−1(1−^α₂). Ebb˝ol

1−α = P −x_α < En(ξ)−µ pV_n^∗(ξ)/n <xα

!

= P

E_n(ξ)−x_αD_n^∗(ξ)

√n < µ <E_n(ξ) +x_αD_n^∗(ξ)

√n

.

(45)

Konfidencia intervallum norm´ alis eloszl´ as sz´ or´ as´ ara

LegyenZ_n(σ) =nV_n(ξ)/σ² ∼χ²(n−1).

Haa_α =F_χ⁻¹2,n−1(α/2) ´es b_α =F_χ⁻¹2,n−1(1−α/2), P(aα<Zn(σ)<bα) =F_χ²_,n−1(bα)−F_χ²_,n−1(aα) =

1−α

2

−α 2.

1−α = P

a_α< nVn(ξ) σ² <b_α

= P



 s

nVn(ξ)

b_α < σ <

s

nVn(ξ) a_α



.

(46)

Konf. intervallum norm´ alis eloszl´ asok v´ e. k¨ ul¨ onbs´ eg´ ere

Legyenekξ1, . . . , ξn1 ∼N(µ1, σ²) ´esη1, . . . , ηn2 ∼N(µ2, σ²) fgn.

mint´ak. µ1−µ2-re keres¨unk konfidencia intervallumot. Legyen Z_n₁_,n₂(µ₁−µ₂) = E_n₁(ξ)−E_n₂(η)−(µ₁−µ₂)

D∗

∼t(n₁+n₂−2), ahol

D²_∗ = (n₁V_n₁(ξ) +n₂V_n₂(η)) n₁+n₂ n1n2(n1+n2−2). P(−x<Z_n₁_,n₂(µ₁−µ₂)<x) = 2Φ_n₁_+n₂−1(x)−1, ´ıgy az x_α = Φ⁻¹_n

1+n2−2(1−α/2)v´alaszt´assal kapjuk:

1−α=P

−x_α< E_n₁(ξ)−E_n₂(η)−(µ₁−µ₂) D∗

<x_α

=P(En1(ξ)−En2(η)−xαD∗ < µ1−µ2<En1(ξ)−En2(η) +xαD∗).

(47)

Konf. intervallum norm´ alis eloszl´ asok sz´ or´ ash´ anyados´ ara

Legyenekξ₁, . . . , ξ_n₁ ∼N(µ₁, σ²₁) ´esη₁, . . . , η_n₂ ∼N(µ₂, σ₂²) fgn.

mint´ak. σ₁/σ₂-re keres¨unk konfidencia intervallumot. Legyen Z_n₁_,n₂(σ₁/σ₂) = V_n^∗₁(ξ)·σ₂²

V^∗_n₂(η)·σ₁² ∼F(n₁−1,n₂−1).

Haa_α =F_n⁻¹

1−1,n2−1(α/2) ´es b_α=F_n⁻¹

1−1,n2−1(1−α/2), akkor

1−α = F_n₁−1,n2−1(b_α)−F_n₁−1,n2−1(a_α)

= P a_α< V^∗_n₁(ξ)·σ₂² V_n^∗₂(η)·σ²₁ <b_α

!

= P

s V^∗_n₁(ξ) V^∗_n₂(η)bα

< σ₁ σ2

<

s V_n^∗₁(ξ) V^∗_n₂(η)aα

! .

(48)

Param´ eteres pr´ ob´ ak

Legyenθ a háttéreloszlás egy ismeretlen paramétere a Θ paramétertéregy eleme, továbbá Θ₀∪Θ₁= Θ, Θ₀∩Θ₁ =∅, Θ0,Θ1 6=∅. A

H₀:θ∈Θ₀, H₁:θ∈Θ₁ nullhipotézist ésalternat´ıv hipotézist vizsgáljuk.

A hipotézisek közötti döntés egy S_n tesztstatisztika

(próbastatisztika) és egy C(α) kritikus tartomány seg´ıtségével történik: pontosan akkor vetjük elH0-t, haSn∈C(α). A C(α)-t elfogadási tartománynak nevezzük.

HaP_H₀(S_n∈C(α))≤α, akkorα terjedelm˝u próbáról beszélünk.

α-t nevezik szignifikancia-szintnek is.

I H₀ általábanθ=θ₀ alakú,H₁ pedig θ6=θ₀ (kétoldali próba), θ < θ0 vagy θ > θ0 (egyoldali próba).

I α-t általában 0,05-nak vagy 0,01-nak, néha 0,1-nek választják.

(49)

Tévedési lehet˝oségek:

I Els˝ofajú hiba:H0 teljesül, de elvetjük. Ennek valósz´ın˝usége p₁=P_H₀(S_n∈C(α))≤α.

I Másodfajú hiba:H₀ nem teljesül, de elfogadjuk. Ennek valósz´ın˝uségep₂ =P_H₁(S_n∈/ C(α)).

Defin´ıci´o

e_n(α, θ) = 1−p₂ =P_H₁(S_n∈C(α))a próbaereje, az e_n függvény azer˝ofüggvény.

Defin´ıci´o

Egy pr´obakonzisztens, ha mindenθ∈Θ₁ eset´en limn→∞en(α, θ) = 1.

Megjegyz´es

A konzisztencia azt jelenti, hogy a mintaelemszám növelésével a másodfajú hiba tetsz˝olegesen kicsivé tehet˝o.

(50)

Megjegyz´es

P(Sn∈C(α)|H₀) =p1 =α

P(S_n6∈C(α)|H₁) =p₂ ⇒ P(S_n∈C(α)|H₁) = 1−p₂ LegyenP(H₀) =q, ekkor

P(H0|S_n∈C(α)) = P(Sn∈C(α)|H₀)P(H0)

P(Sn∈C(α)|H₀)P(H0) +P(Sn∈C(α)|H₁)P(H1)

= α·q

α·q+ (1−p2)(1−q).

⇒ha p2 ´esq nagy, akkor P(H0|S_n∈C(α)) is nagy!

Megjegyz´es

A kritikus tartomány csökkentésével az els˝ofajú hiba csökken, a másodfajú hiba n˝o.

(51)

Pr´ ob´ ak szerkeszt´ ese

Altal´´ anos módszer próbák szerkesztésére

I Keresünk egy S_n statisztikát, aminek ismert az eloszlása, ha H0 teljesül. Jelölje az eloszlásfüggvényétG.

I Egyoldali próba esetén meghatározunk egy s_α kritikus értéket, amelyre PH0(Sn<sα) =G(sα) = 1−α:sα =G⁻¹(1−α).

I Kétoldali próba eseténsα⁽¹⁾ éssα⁽²⁾ kritikus értékeket keresünk, amelyekre P_H₀(sα⁽¹⁾ ≤S_n<sα⁽²⁾) =G(sα⁽²⁾)−G(sα⁽¹⁾) = 1−α:

sα⁽¹⁾=G⁻¹(α/2) ´essα⁽²⁾ =G⁻¹(1−α/2).

I Döntés:H₀-t elfogadjuk, ha egyoldali esetbenS_n≤s_α, kétoldali esetben sα⁽¹⁾ ≤Sn≤sα⁽²⁾.

Megjegyz´es

Ha több módon választhatjuk megS_n statisztikát (illetve a kritikus

értékeket), akkor válasszuk azt, ahol az er˝ofüggvény nagyobb.

(52)

u-pr´ oba (µ-pr´ oba, Z-pr´ oba)

Tekintsünk egy N(µ, σ²) eloszlásból vett mintát. Tegyük fel, hogy σ ismert. Rögz´ıtett µ₀ esetén vizsgáljuk a következ˝o hipotéziseket:

H0:µ=µ0, H1 :µ6=µ0.

I Tekintsük a következ˝o próbastatisztikát:

u = En(ξ)−µ0

σ/√ n ,

amiH0 teljesülése esetén standard normális eloszlású.

I Ehhez ésα >0-hoz keressük az uα kritikus értéket úgy, hogy P_H₀(−u_α ≤u <u_α) = Φ(u_α)−Φ(−u_α) = 2Φ(u_α)−1 = 1−α legyen amib˝olu_α = Φ⁻¹(1−α/2)adódik,C(α) ={|u|>u_α}.

I Döntés: ha|u| ≤uα, akkorH0-t elfogadjuk, különben elvetjük.

(53)

A hibák valósz´ın˝uségei:

I Els˝ofajú hiba valósz´ın˝usége:

p₁ =P_H₀(|u|>u_α) = 1−P_H₀(−u_α ≤u ≤u_α) =α.

I Felhasználva, hogy Êⁿ_σ/^(ξ)−µ^√_n ∼N(0,1), a másodfajú hiba valósz´ın˝usége:

p₂ = P_H₁(|u| ≤u_α)

= P_H₁

−u_α≤ E_n(ξ)−µ₀ σ/√

n ≤u_α

= PH1

−u_α+µ₀−µ σ/√

n ≤ E_n(ξ)−µ σ/√

n ≤uα+µ₀−µ σ/√

n

= Φ

uα+µ0−µ σ/√

n

−Φ

−u_α+µ0−µ σ/√

n

.

[szeml´eltet´es]

(54)

All´ıt´´ as

Az u-pr´oba konzisztens.

Bizony´ıt´as

e_n(α, µ) = 1−p₂ = 1−Φ

u_α+^µ_σ/⁰^−µ^√_n + Φ

−u_α+^µ_σ/⁰^−µ^√_n .

I Ha µ > µ₀, akkor ^µ_σ/⁰^−µ^√_n → −∞, ha n → ∞. Teh´at

limn→∞en(α, µ) = 1−limx→−∞Φ(x) + limx→−∞Φ(x) = 1.

I Ha µ0 < µ, akkor ^µ_σ/⁰^−µ^√_n → ∞, ha n→ ∞. Teh´at

limn→∞en(α, µ) = 1−limx→∞Φ(x) + limx→∞Φ(x) = 1.

Megjegyz´es

I A mintaelemszám növelésével a másodfajú hiba tetsz˝olegesen kicsivé tehet˝o konstansα els˝ofajú hiba mellett.

I Könnyen látható, hogy azα terjedelm˝u u-próba pontosan akkor fogadja elH0-t, haµ0 benne van az ismertσ esetén µ-re konstruált 1−α megb´ızhatósági szint˝u konfidencia intervallumban.

(55)

Egyoldali u-pr´ oba

Most a következ˝o hipotéziseket vizsgáljuk:

H₀:µ=µ₀, H₁ :µ > µ₀.

I A pr´obastatisztika most is

u = E_n(ξ)−µ₀ σ/√

n ,

amiH0 teljesülése esetén standard normális eloszlású.

I Ehhez ésα >0-hoz keressük az uα kritikus értéket úgy, hogy PH0(u <uα) = Φ(uα) = 1−α

legyen amib˝ol u_α = Φ⁻¹(1−α) ad´odik.

I Döntés: hau ≤u_α, akkorH₀-t elfogadjuk, különben elvetjük.

(56)

All´ıt´´ as

Az egyoldali u-pr´oba konzisztens.

Bizony´ıt´as

Felhasználva, hogy Êⁿ_σ/^(ξ)−µ^√_n ∼N(0,1), a másodfajú hiba valósz´ın˝usége:

p₂ = P_H₁

E_n(ξ)−µ₀ σ/√

n ≤u_α

= PH1

En(ξ)−µ σ/√

n ≤uα+µ0−µ σ/√

n

= Φ

uα+µ0−µ σ/√

n

.

Haµ > µ₀, akkor ^µ_σ/⁰^−µ^√_n → −∞, ha n→ ∞, ´ıgy e_n(α, µ) = 1−p₂ = 1−Φ

u_α+µ₀−µ σ/√

n

→1, ha n→ ∞.

(57)

t-pr´ oba

Tekintsünk egy N(µ, σ²) eloszlásból vett mintát, aholσ ismeretlen.

H0:µ=µ0, H1 :µ6=µ0.

I Tekintsük a következ˝o próbastatisztikát:

t= En(ξ)−µ0

pV_n^∗(ξ)/n,

amiH0 teljesülése esetén n-1 szabadságfokú Student eloszlású.

I Ehhez ésα >0-hoz keressük atα kritikus értéket úgy, hogy P_H₀(|t|<t_α) = Φn−1(t_α)−Φ_n−1(−t_α) = 2Φn−1(t_α)−1 = 1−α legyen amib˝ol t_α= Φ⁻¹_n−1(1−α/2)adódik.

I Döntés: ha|t| ≤tα, akkorH0-t elfogadjuk, különben elvetjük.

(58)

Egyoldali t-pr´ oba

H0 :µ=µ0, H1:µ > µ0

I A pr´obastatisztika most is

t= En(ξ)−µ0

pV_n^∗(ξ)/n,

amiH0 teljesülése esetén n-1 szabadságfokú Student eloszlású.

I Ehhez ésα >0-hoz keressük az tα kritikus értéket úgy, hogy P_H₀(t <t_α) = Φn−1(t_α) = 1−α

legyen amib˝ol t_α= Φ⁻¹_n−1(1−α) ad´odik.

I Döntés: hat ≤tα, akkorH0-t elfogadjuk, különben elvetjük.