Monimuuttujamenetelmät: Yhden selittäjän lineaarinen regressiomalli

Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Monimuuttujamenetelmät:
Yhden selittäjän lineaarinen regressiomalli
Ilkka Mellin
1.
Yhden selittäjän lineaarinen regressiomalli, sen estimointi ja testaus
1.1. Yhden selittäjän lineaarinen regressiomalli ja mallia koskevat oletukset
1.2. Yhden selittäjän lineaarisen regressiomallin parametrien estimointi
1.3. Yhden selittäjän lineaarisen regressiomallin regressiokertoimia koskevat
testit
2.
Ennustaminen yhden selittäjän lineaarisella regressiomallilla
2.1. Ennustamistehtävä
2.2. Selitettävän muuttujan odotettavissa olevan arvon ennustaminen
2.3. Selitettävän muuttujan arvon ennustaminen
3.
Yhden selittäjän lineaarinen regressiomalli ja stokastinen selittäjä
3.1.
3.2.
3.3.
3.4.
Stokastisen selittäjän ongelma
Ehdollistaminen
Regressiomalleja on kaksi
Korrelaation olemassaolon testaaminen
TKK
© Ilkka Mellin (2007)
1/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Monimuuttujamenetelmät:
Yhden selittäjän lineaarinen regressiomalli
1.
Yhden selittäjän lineaarinen regressiomalli, sen estimointi ja testaus
1.1. Yhden selittäjän lineaarinen regressiomalli ja mallia koskevat oletukset
SELITTÄVÄ MUUTTUJA JA SEN ARVOJA KOSKEVAT OLETUKSET
JÄÄNNÖSTERMIT JA NIITÄ KOSKEVAT OLETUKSET
JÄÄNNÖSTERMEJÄ KOSKEVIEN OLETUKSIEN TULKINTA
SELITETTÄVÄ MUUTTUJA JA SEN ARVOJEN STOKASTISET OMINAISUUDET
MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA
REGRESSIOSUORA
REGRESSIOKERTOIMET JA NIITÄ KOSKEVAT OLETUKSET
VAKIOPARAMETRISUUSOLETUS
REGRESSIOSUORAN KULMAKERTOIMEN TULKINTA
MALLIN PARAMETRIT
YHDEN SELITTÄJÄN LINEAARISTA REGRESSIOMALLIA KOSKEVAT STANDARDIOLETUKSET
1.2. Yhden selittäjän lineaarisen regressiomallin parametrien estimointi
REGRESSIOKERTOIMIEN PNS-ESTIMAATTORIT
REGRESSIOKERTOIMIEN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORIT
ESTIMOITU REGRESSIOSUORA
REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN STOKASTISET OMINAISUUDET
SOVITTEET
RESIDUAALIT
SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET
JÄÄNNÖSVARIANSSIN HARHATON ESTIMAATTORI
JÄÄNNÖSVARIANSSIN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORI
REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN VARIANSSIEN ESTIMOINTI
REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT
VARIANSSIANALYYSIHAJOTELMA
VARIANSSIANALYYSIHAJOTELMAN TULKINTA
SELITYSASTE
SELITYSASTEEN OMINAISUUDET
1.3. Yhden selittäjän lineaarisen regressiomallin regressiokertoimia koskevat
testit
TESTIT REGRESSIOKERTOIMILLE
TESTI REGRESSIOSUORAN KULMAKERTOIMELLE
TESTI REGRESSIOSUORAN VAKIOLLE
REGRESSION OLEMASSAOLON TESTAAMINEN
TKK
© Ilkka Mellin (2007)
2/32
Monimuuttujamenetelmät
2.
Yhden selittäjän lineaarinen regressiomalli
Ennustaminen yhden selittäjän lineaarisella regressiomallilla
2.1. Ennustamistehtävä
OLETUKSET
ENNUSTAMISTEHTÄVÄ
2.2. Selitettävän muuttujan odotettavissa olevan arvon ennustaminen
ENNUSTE
ENNUSTEEN JAKAUMA
SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI
2.3. Selitettävän muuttujan arvon ennustaminen
ENNUSTE
ENNUSTEVIRHE
ENNUSTEEN JAKAUMA
SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI
3.
Yhden selittäjän lineaarinen regressiomalli ja stokastinen selittäjä
3.1. Stokastisen selittäjän ongelma
EHDOLLINEN ODOTUSARVO
KIINTEÄT JA SATUNNAISET SELITTÄJÄT
MALLI
REGRESSIOFUNKTIO
3.2. Ehdollistaminen
MODIFIOIDUT STANDARDIOLETUKSET
3.3. Regressiomalleja on kaksi
KAKSI REGRESSIOMALLIA
PARAMETRIEN ESTIMOINTI
3.4. Korrelaation olemassaolon testaaminen
TESTI KORRELAATIOLLE
TKK
© Ilkka Mellin (2007)
3/32
Monimuuttujamenetelmät
TKK
Yhden selittäjän lineaarinen regressiomalli
© Ilkka Mellin (2007)
4/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
1. Yhden selittäjän lineaarinen regressiomalli, sen
estimointi ja testaus
1.1. Yhden selittäjän lineaarisen regressiomalli ja mallia koskevat oletukset
Yhden selittäjän lineaarisessa regressiomallissa
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
(1)
on seuraavat osat:
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xt = selittävän muuttujan eli selittäjän x kiinteä (ei-satunnainen) ja
havaittu arvo havainnossa t
β0 = vakioselittäjän regressiokerroin, kiinteä (ei-satunnainen) ja
tuntematon vakio
β1 = selittäjän x regressiokerroin, kiinteä (ei-satunnainen) ja
tuntematon vakio
εt = jäännöstermin ε satunnainen ja ei-havaittu arvo havainnossa t
Malli (1) kuvaa selitettävän muuttujan y havaittujen arvojen yt lineaarista riippuvuutta
selittävän muuttujan eli selittäjän x havaituista arvoista xt . Mallin tavoitteena on selittää
selitettävän muuttujan y havaittujen arvojen vaihtelu selittävän muuttujan x havaittujen
arvojen vaihtelun avulla.
Huomautus 1:
Mallin (1) lineaarisuudella tarkoitetaan sitä, että malli on lineaarinen regressiokertoimien β0 ja β1 suhteen, mutta on syytä huomata, että malli on lineaarinen myös
selittäjän x arvojen suhteen.
Huomautus 2:
Selitettävä muuttuja y oletetaan mitta-asteikollisilta ominaisuuksiltaan jatkuvaksi.
Huomautus 3:
Kerroin β0 on vakioselittäjän (selittäjän, jonka jokainen havaintoarvo = 1) regressiokerroin. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttuja x.
Huomautus 4:
Mallin (1) estimointia koskevat tulokset eivät välttämättä päde tässä esitettävässä
muodossa, jos mallissa ei ole vakioselittäjää.
Selittävä muuttuja ja sen arvoja koskevat oletukset
Yhden selittäjän lineaarisen regressiomallin
(1)
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
selittävän muuttujan x havaitut arvot xt oletetaan kiinteiksi eli ei-satunnaisiksi. Tiukasti
ottaen oletus voi päteä vain sellaisissa tilanteissa, joissa selittäjän arvot valitaan. Tietyin
TKK
© Ilkka Mellin (2007)
5/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
ehdoin selittävän muuttujan satunnaisuudella ei kuitenkaan ole vaikutusta jatkossa esitettäviin
tuloksiin; ks. kappaletta 3.
Usean selittäjän lineaarisen regressiomallin selittäjien arvoja koskeva oletus, joka takaa sen,
että regressiokertoimilla on yksikäsitteiset pienimmän neliösumman estimaattorit, saa yhden
selittäjän lineaarisen regressiomallin (1) tapauksessa seuraavan muodon: Selittäjän x arvot xt
eivät saa olla yhtä suuria.
Jäännöstermit ja niitä koskevat oletukset
Yhden selittäjän lineaarisen regressiomallin
(1)
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
jäännöstermit εt ovat ei-havaittuja satunnaismuuttujia. Jäännöstermeistä εt tehdään seuraavat
oletukset:
(2)
E(εt) = 0 , t = 1, 2, … , n
(3)
D2(εt) = σ 2 , t = 1, 2, … , n
(4)
Cov(εs, εt) = 0 , jos s ≠ t
Jos lisäksi oletetaan, että jäännöstermit εt noudattavat normaalijakaumaa, niin oletuksista (2)
ja (3) seuraa, että
(5)
εt ∼ N(0, σ 2) , t = 1, 2, … , n
Jäännöstermejä koskevien oletuksien tulkinta
Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo:
E(εt) = 0, t = 1, 2, … , n
Siten jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä.
Oletuksen (3) mukaan kaikilla jäännöstermeillä εt on sama varianssi:
D2(εt) = σ 2 , t = 1, 2, … , n
Tätä oletusta kutsutaan homoskedastisuusoletukseksi. Jos jäännöstermien εt varianssi
vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä
varianssia σ 2 kutsutaan mallin jäännösvarianssiksi.
Oletuksen (4) mukaan jäännöstermit ovat korreloimattomia.
Selitettävä muuttuja ja sen arvojen stokastiset ominaisuudet
Yhden selittäjän lineaarisen regressiomallin
(1)
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
selitettävän muuttujan y havaitut arvot yt ovat satunnaisia. Jäännöstermeistä εt edellä
tehdyistä oletuksista (2)-(4) ja siitä, että selittäjä x on oletettu ei-satunnaiseksi seuraa, että
selitettävän muuttujan y havaituilla arvoilla yt on seuraavat stokastiset ominaisuudet:
TKK
(2)´
E(yt) = β0 + β1xt , t = 1, 2, … , n
(3)´
D2(yt) = σ 2 , t = 1, 2, … , n
(4)´
Cov(ys, yt) = 0 , jos s ≠ t
© Ilkka Mellin (2007)
6/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Jos jäännöstermit εt noudattavat normaalijakaumaa, niin myös selitettävän muuttujan y
havaitut arvot yt noudattavat normaalijakaumaa:
yt ∼ N(E(yt), σ 2) , t = 1, 2, … , n
(5)´
Mallin systemaattinen osa ja satunnainen osa
Jäännöstermeistä εt tehdyistä oletuksista ja siitä, että selittäjä x on oletettu ei-satunnaisiksi
seuraa, että yhden selittäjän lineaarinen regressiomalli
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
(1)
voidaan kirjoittaa muotoon
yt = E(yt) + εt , t = 1, 2, … , n
jossa odotusarvo
E(yt) = β0 + β1xt , t = 1, 2, … , n
on vakio, joka riippuu selittäjän x saamasta arvosta havainnossa t ja jäännöstermi
εt , t = 1, 2, … , n
on satunnaismuuttuja, joka ei riipu selittäjän x saamasta arvosta havainnossa t.
Siten yhden selittäjän lineaarisen regressiomallin (1) selitettävän muuttujan y saamat arvot yt
on esitetty kahden osatekijän summana, jossa osatekijää
E(yt) = β0 + β1xt , t = 1, 2, … , n
kutsutaan mallin systemaattiseksi (tai selittäjän x arvoista riippuvaksi) osaksi ja osatekijää
εt , t = 1, 2, … , n
kutsutaan mallin satunnaiseksi (tai selittäjän x arvoista riippumattomaksi) osaksi.
Systemaattinen osa E(yt) on lineaarinen sekä regressiokertoimien β0 ja β1 että selittäjän x
arvojen suhteen.
Regressiosuora
Yhden selittäjän lineaarisen regressiomallin
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
(1)
systemaattinen osa
E(yt) = β0 + β1xt , t = 1, 2, … , n
määrittelee suoran
y = β0 + β1x
avaruudessa
2
.
Mallin systemaattisen osan määrittelemää suoraa kutsutaan regressiosuoraksi. Selittävän
muuttujan x regressiokerroin β1 on suoran kulmakerroin ja vakioselittäjän regressiokerroin β0
on suoran ja y-akselin leikkauspiste. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan
arvojen vaihtelua regressiosuoran ympärillä.
TKK
© Ilkka Mellin (2007)
7/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Regressiokertoimet ja niitä koskevat oletukset
Yhden selittäjän lineaarisen regressiomallin
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
(1)
regressiokertoimet β0 ja β1 ovat ei-satunnaisia ja tuntemattomia vakioita.
Vakioparametrisuusoletus
Kun yhden selittäjän lineaarinen regressiomalli esitetään muodossa
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
oletetaan implisiittisesti, että regressiokertoimet β0 ja β1 ovat samat kaikille havainnoille t.
Tätä oletusta kutsutaan vakioparametrisuusoletukseksi.
Regressiosuoran kulmakertoimen tulkinta
Oletetaan, että selittävällä muuttujalla x on vakioarvo x . Tällöin yhden selittäjän lineaarisen
regressiomallin
yt = β 0 + β1 xt + ε t , t = 1, 2,… , n
(1)
systemaattisella osalla E(yt) = β0 + β1xt on vakioarvo
y = E( y ) = β 0 + β1 x
Oletetaan, että selitettävän muuttujan x arvo x kasvaa yhdellä yksiköllä:
x → x +1
Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E( y ) muuttuu
regressiokertoimen β1 verran:
y → y + β1
Siten regressiokerroin β1 kertoo paljonko sitä vastaavan selittäjän x arvossa tapahtuva
yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa.
Mallin parametrit
Yhden selittäjän lineaarisen regressiomallin (1) parametreja ovat regressiokertoimet β0 ja β1
sekä jäännösvarianssi σ 2.
Yhden selittäjän lineaarisen regressiomallin standardioletukset
Yhden selittäjän lineaarisessa regressiomallissa
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
on seuraavat osat:
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xt = selittäjän x ei-satunnainen ja havaittu arvo havainnossa t
β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin
β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin
TKK
© Ilkka Mellin (2007)
8/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
εt = satunnainen ja ei-havaittu jäännöstermi
Seuraavia oletuksia kutsutaan yhden selittäjän lineaarisen regressiomallin (1) standardioletuksiksi:
(i)
Selittäjän x havaitut arvot xt ovat ei-satunnaisia, t = 1, 2, … , n
(ii)
Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n
(iii)
E(εt) = 0 , t = 1, 2, … , n
(iv)
D2(εt) = σ 2 , t = 1, 2, … , n
(v)
Cov(εs, εt) = 0 , jos s ≠ t
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus:
(vi)
εt ∼ N(0, σ 2) , t = 1, 2, … , n
Lisätietoja (mm. todistukset) yhden selittäjän lineaarisesta regressiomallista: ks. monistetta
Tilastolliset menetelmät. Usean selittäjän lineaarista regressiomallia eli yleistä lineaarista
mallia käsitellään luvussa Yleinen lineaarinen malli.
1.2. Yhden selittäjän lineaarisen regressiomallin parametrien estimointi
Regressiokertoimien PNS-estimaattorit
Yhden selittäjän lineaarisen regressiomallin
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
regressiokertoimet β0 ja β1 estimoidaan tavallisesti pienimmän neliösumman (PNS-)
menetelmällä.
Pienimmän neliösumman menetelmässä jäännöstermien εt neliösumma
n
n
t =1
t =1
∑ ε t2 = ∑ ( yt − β0 − β1 xt )2
minimoidaan regressiokertoimien β0 ja β1 suhteen.
Minimi löydetään derivoimalla neliösumma ∑ ε t2 regressiokertoimien β0 ja β1 suhteen ja
merkitsemällä derivaatat nolliksi. Neliösumman ∑ ε t2 derivointi johtaa regressiokertoimien β0
ja β1 suhteen lineaariseen yhtälöryhmään
∂
∂β 0
n
n
t =1
t =1
∑ ε t2 = −2∑ ( yt − β0 − β1 xt ) = 0
n
∂ n 2
ε t = −2∑ ( yt − β 0 − β1 xt ) xt = 0
∑
∂β1 t =1
t =1
Näillä normaaliyhtälöillä on yksikäsitteinen ratkaisu parametrien β0 ja β1 suhteen, jos yhden
selittäjän lineaarista regressiomallia koskeva standardioletus (ii) pätee.
Ratkaisuksi saadaan regressiokertoimien β0 ja β1 pienimmän neliösumman (PNS-)
estimaattorit:
b0 = y − b1 x
TKK
© Ilkka Mellin (2007)
9/32
Monimuuttujamenetelmät
b1 =
Yhden selittäjän lineaarinen regressiomalli
σˆ yx
σˆ
= ρˆ yx y
2
σˆ x
σˆ x
Regressiokertoimien β0 ja β1 PNS-estimaattoreiden lausekkeissa
y=
1 n
∑ yt
n t =1
on selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo,
x=
1 n
∑ xt
n t =1
on selittävän muuttujan x havaittujen arvojen xt aritmeettinen keskiarvo,
σˆ y2 =
1 n
( yt − y ) 2
∑
n t =1
on selitettävän muuttujan y havaittujen arvojen yt otosvarianssi,
σˆ x2 =
1 n
∑ ( xt − x )2
n t =1
on selittävän muuttujan x havaittujen arvojen xt otosvarianssi,
σˆ yx =
1 n
∑ ( yt − y )( xt − x ) = σˆ xy
n t =1
on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen yt ja xt otoskovarianssi ja
ρˆ yx =
σˆ yx
σˆ
= xy = ρˆ xy
σˆ yσˆ x σˆ xσˆ y
on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen yt ja xt otoskorrelaatiokerroin.
Regressiokertoimien suurimman uskottavuden estimaattorit
Oletetaan, että yhden selittäjän lineaarisen regressiomallin
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
standardioletuksien (i)-(v) lisäksi jäännöstermejä εt koskeva normaalisuusoletus (vi) pätee.
Tällöin regressiokertoimien β0 ja β1 suurimman uskottavuuden estimaattorit yhtyvät
kertoimien β0 ja β1 PNS-estimaattoreihin b0 ja b1 .
Estimoitu regressiosuora
Olkoot b0 ja b1 yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1
PNS-estimaattorit. Yhtälö
(2)
y = b0 + b1x
määrittelee suoran avaruudessa
regressiosuoraksi.
TKK
2
. Suoraa (2) kutsutaan mallia (1) vastaavaksi estimoiduksi
© Ilkka Mellin (2007)
10/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Olkoon y selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo ja x
selittäjän x havaittujen arvojen xt aritmeettinen keskiarvo. Estimoitu regressiosuora (2) kulkee
aina havaintoaineiston painopisteen
(x, y)
kautta eli
y = b0 + b1 x
Regressiokertoimien PNS-estimaattoreiden stokastiset ominaisuudet
Lause 1.2.1.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v)
pätevät. Tällöin
n
(i)
E(b0 ) = β 0
Var(b0 ) =
σ 2 ∑ xt2
t =1
n
n∑ ( xt − x ) 2
t =1
(ii)
E(b1 ) = β1
Var(b1 ) =
σ2
n
∑ (x − x )
t =1
2
t
Huomautus 1:
Lauseesta 1.2.1. nähdään, että yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 PNS-estimaattorit b0 ja b1 ovat harhattomia eli
E(b0) = β0
ja
E(b1) = β1
Huomautus 2:
n
∑ (x − x )
t =1
t
2
= nσˆ x2
Huomautus 3:
Lauseesta 1.2.1. ja huomautuksesta 2 nähdään, että yhden selittäjän lineaarisen
regressiomallin (1) regressiokertoimien β0 ja β1 PNS-estimaattoreiden b0 ja b1 varianssit
pienenevät, jos selittäjän x saamien arvojen varianssi σˆ x2 tai havaintojen lukumäärän n
annetaan kasvaa.
Lause 1.2.2.
Oletetaan, että yhden selittäjän lineaarista regressiomallin (1) standardioletuksien (i)-(v)
lisäksi normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien β0 ja β1 PNSestimaattoreiden b0 ja b1 otosjakaumat ovat normaalisia:
TKK
© Ilkka Mellin (2007)
11/32
Monimuuttujamenetelmät
(i)
(ii)
Yhden selittäjän lineaarinen regressiomalli
n


2
σ
xt2 
∑


b0 ∼ N  β 0 , n t =1
2 

n∑ ( xt − x ) 

t =1




σ2
b1 ∼ N  β1 , n

2


−
(
x
x
)
∑
t
t =1


Sovitteet
Määritellään estimoidun mallin sovitteet kaavalla
yˆt = b0 + b1 xt , t = 1, 2,… , n
jossa b0 ja b1 ovat yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1
PNS-estimaattorit ja xt on selittäjän x arvo havainnossa t.
Sovite yˆt on estimoidun mallin antama arvo selitettävälle muuttujalle y, kun selittäjällä x on
arvo xt .
Huomautus:
Sovitteet määrätään niille havainnoille, joita on käytetty regressiokertoimien β0 ja β1
PNS-estimaattoreita b0 ja b1 määrättäessä.
Residuaalit
Määritellään estimoidun mallin residuaalit kaavalla
et = yt − yˆt , t = 1, 2,… , n
jossa yt on selitettävän muuttujan y arvo havainnossa t ja yˆt on vastaava sovite. Residuaali on
selitettävän muuttujan y havaitun arvon yt ja estimoidun mallin antaman arvon yˆt erotus.
Residuaalit et ovat ei-havaittujen jäännöstermien εt empiirisiä vastineita. Residuaalien avulla
voidaan selvittää pitävätkö mallista tehdyt oletukset paikkaansa.
Huomautus:
Residuaalit määrätään niille havainnoille, joita on käytetty regressiokertoimien β0 ja β1
PNS-estimaattoreita b0 ja b1 määrättäessä.
Sovitteiden ja residuaalien ominaisuudet
Lause 1.2.3.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v)
pätevät. Tällöin
(i)
TKK
E( yˆt ) = β 0 + β1 xt , t = 1, 2,… , n
© Ilkka Mellin (2007)
12/32
Monimuuttujamenetelmät
(ii)
(iii)
E(et ) = 0 , t = 1, 2,… , n
n
n
t =1
t =1
∑ yˆt = ∑ yt
n
(iv)
∑e
t =1
(v)
Yhden selittäjän lineaarinen regressiomalli
t
=0
n
∑ yˆ e
t =1
t t
n
(vi)
∑xe
t =1
t t
=0
=0
Jäännösvarianssin harhaton estimaattori
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v)
pätevät. Olkoon
n
SSE = ∑ et2
t =1
residuaalien vaihtelua kuvaava jäännösneliösumma. Tällöin
s2 =
SSE
n−2
on jäännösvarianssin σ2 harhaton estimaattori eli
E(s2) = σ 2
Estimaattoria s2 kutsutaan residuaalivarianssiksi.
Huomautus:
Estimaattorin s2 kaava antaa residuaalien varianssin, koska mallissa on selittäjänä
vakio, jolloin ∑et = 0.
Jäännösvarianssin suurimman uskottavuuden estimaattori
Oletetaan, että yhden selittäjän lineaarisen regressiomallin
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
standardioletuksien (i)-(v) lisäksi jäännöstermejä εt koskeva normaalisuusoletus (vi) pätee.
Tällöin jäännösvarianssin σ2 suurimman uskottavuuden estimaattori on
1
n
σˆ 2 = SSE
Regressiokertoimien PNS-estimaattoreiden varianssien estimointi
Edellä on todettu, että yhden selittäjän lineaarisen regressiomallin
(1)
TKK
yt = β0 + β1xt + εt , t = 1, 2, … , n
© Ilkka Mellin (2007)
13/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
regressiokertoimien PNS-estimaattoreilla on standardioletuksien (i)-(vi) pätiessä seuraavat
stokastiset ominaisuudet:
n


2
σ
xt2 
∑


b0 ∼ N  β 0 , n t =1
2 

n∑ ( xt − x ) 

t =1




σ2
b1 ∼ N  β1 , n

2


−
(
x
x
)
∑
t
t =1


Siten
E(bi ) = β i , i = 0,1
Merkitään
Var(bi ) = D 2 (bi ) , i = 0,1
Tällöin
bi − E(bi )
∼ N(0,1) , i = 0,1
D(bi )
zi =
Tämä regressiokertoimen βi PNS-estimaattorin bi otosjakaumaa koskeva tulos on epäoperationaalinen, koska jäännösvarianssi σ 2 on normaalisti tuntematon.
Korvataan σ 2 yo. kaavoissa harhattomalla estimaattorillaan
s2 =
1
SSE
n−2
ja olkoon
D̂ 2 (bi ) , i = 0,1
näin saatava regressiokertoimen βi PNS-estimaattorin bi operationalisoitu varianssi.
Voidaan osoittaa, että D̂ 2 (bi ) on regressiokertoimen bi varianssin harhaton estimaattori ja
lisäksi
ti =
bi − E(bi )
∼ t (n − 2) , i = 0,1
D̂(bi )
Regressiokertoimien luottamusvälit
Lause 1.2.4.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletuksien (i)-(v)
lisäksi normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien β0 ja β1 luottamusvälit
luottamustasolla (1 − α) saadaan kaavoista
TKK
© Ilkka Mellin (2007)
14/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
1
(i)
n

2
2
x
∑
t



b0 ± tα / 2 D̂(b0 ) = b0 ± tα / 2 s  n t =1
 n ( x − x )2 
t
 ∑

t =1
1
(ii)
1

2
b1 ± tα / 2 D̂(b1 ) = b1 ± tα / 2 s  n

 ∑ ( xt − x ) 2 
 t =1

joissa b0 ja b1 ovat regressiokertoimien β0 ja β1 PNS-estimaattorit, −tα/2 ja +tα/2 ovat
luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden
lukumäärä on (n−2), D̂ 2 (b0 ) on regressiokertoimen β0 PNS-estimaattorin b0 varianssin
harhaton estimaattori, D̂ 2 (b1 ) on regressiokertoimen β1 PNS-estimaattorin b1 varianssin
harhaton estimaattori ja s2 on jäännösvarianssin σ 2 harhaton estimaattori.
Huomautus 1:
n
∑ (x − x )
t =1
2
t
= nσˆ x2
Huomautus 2:
Lauseesta 1.2.4. ja huomautuksesta 1 nähdään, että lineaarisen regressiomallin (1)
regressiokertoimien β0 ja β1 luottamusvälit kaventuvat, jos selittäjän x saamien arvojen
varianssi σˆ x2 tai havaintojen lukumäärä n kasvaa.
Varianssianalyysihajotelma
Mitta-asteikoltaan jatkuvien muuttujan arvojen vaihtelua mitataan tavallisesti niiden
varianssilla. Yhden selittäjän lineaarisen regressiomallin (1) selitettävän muuttujan y arvojen
varianssi on
1
n
σˆ y2 = SST
jossa
n
SST = ∑ ( yt − y ) 2
t =1
on selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma. Kokonaisneliösumman SST lausekkeessa termi
y=
1 n
∑ yt
n t =1
on selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo.
Voidaan osoittaa, että residuaalien et vaihtelua kuvaava jäännösneliösumma
n
SSE = ∑ et2 = (1 − ρˆ yx2 ) SST
t =1
TKK
© Ilkka Mellin (2007)
15/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
jossa ρˆ yx on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen otoskorrelaatiokerroin. Koska
0 ≤ | ρˆ yx | ≤ 1
tästä yhtälöstä nähdään, että jäännösneliösumma on korkeintaan yhtä suuri kuin kokonaisneliösumma:
SSE ≤ SST
Jäännösneliösumman SSE lausekkeessa
et = yt − yˆt , t = 1, 2,… , n
on estimoidun mallin residuaali, jossa
yˆt = b0 + b1 xt , t = 1, 2,… , n
on estimoidun mallin sovite.
Yhtälöstä
n
SSE = ∑ et2 = (1 − ρˆ yx2 ) SST
t =1
ja otoskorrelaatiokertoimen ρˆ yx ominaisuuksista nähdään, että seuraavat ehdot ovat
yhtäpitäviä:
(i)
SSE = 0
(ii)
et = 0 kaikille t =1, 2, … , n
(iii) Kaikki havaintopisteet (xt, yt), t =1, 2, … , n asettuvat samalle suoralle.
(iv)
ρˆ yx = 1
Erotusta
SSM = SST – SSE
kutsutaan regressio- tai mallineliösummaksi, koska voidaan osoittaa, että
n
n
t =1
t =1
SSM = ∑ ( yˆt − yˆ ) 2 = ∑ ( yˆt − y ) 2
Identiteettiä
SST = SSM + SSE
kutsutaan lineaarisen regressiomallin (1) selitettävän muuttujan y arvojen vaihtelua kuvaavan
kokonaisneliösumman SST varianssianalyysihajotelmaksi.
Huomautus:
y=
TKK
1 n
1 n
y
=
yˆt = yˆ
∑ t n∑
n t =1
t =1
© Ilkka Mellin (2007)
16/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Varianssianalyysihajotelman tulkinta
Selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma SST on hajotettu
yhden selittäjän lineaarisen regressiomallin (1) avulla kahden osatekijän summaksi:
SST = SSM + SSE
Mallineliösumma SSM kuvaa mallin (1) selittämää osaa selitettävän muuttujan y arvojen
kokonaisvaihtelusta ja jäännösneliösumma SSE kuvaa sitä osaa kokonaisvaihtelusta, jota
malli (1) ei ole pystynyt selittämään.
Malli (1) selittää selitettävän muuttujan y arvojen vaihtelun sitä paremmin mitä suurempi on
mallineliösumman SSM osuus kokonaisneliösummasta tai, mikä on sama asia, mitä pienempi
on jäännösneliösumman SSE osuus kokonaisneliösummasta.
Selitysaste
Varianssianalyysihajotelma
SST = SSM + SSE
motivoi tunnusluvun
R2 =
SSM
SSE
= 1−
SST
SST
käytön regressiomallin hyvyyden tai selitysvoiman mittaamisessa. Tunnuslukua R2 kutsutaan
estimoidun mallin selitysasteeksi.
Selitysasteen ominaisuudet
Lause 1.2.5.
0 ≤ R2 ≤ 1
(i)
(ii)
Jos kaikki residuaalit häviävät eli
et = 0 , t = 1, 2, … , n
niin
SSE = 0
ja
R2 = 1
Tällöin malli sopii havaintoihin täydellisesti.
(iii) Jos b1 = 0, residuaalit ovat muotoa
et = yt − y , t = 1, 2,… , n
jolloin
SSE = SST
ja
R2 = 0
Tällöin selittäjä x ei selitä ollenkaan selitettävän muuttujan y arvojen vaihtelua.
TKK
© Ilkka Mellin (2007)
17/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
R 2 = [Cor( y, yˆ)]2
(iv)
jossa
n
Cor( y, yˆ) =
∑(y
t =1
t
− y )( yˆt − y )
n
n
t =1
t =1
∑ ( yt − y )2 ∑ ( yˆt − y )2
selitettävän muuttujan y arvojen yt ja vastaavien sovitteiden yˆt välinen otoskorrelaatiokerroin.
(v)
Yhden selittäjän lineaarisen regressiomallin tapauksessa
R 2 = ρˆ yx2
jossa ρˆ yx on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen
otoskorrelaatiokerroin.
Koska Lauseen 1.2.5. kohdan (i) mukaan 0 ≤ R2 ≤ 1, selitysaste ilmoitetaan tavallisesti
prosentteina:
100×R2 %
Huomautus:
y=
1 n
1 n
yt = ∑ yˆt = yˆ
∑
n t =1
n t =1
1.3. Yhden selittäjän lineaarisen regressiomallin regressiokertoimia koskevat
testit
Olkoon
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
yhden selittäjän lineaarinen regressiomalli, jossa
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xt = selittäjän x ei-satunnainen ja havaittu arvo havainnossa t
β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin
β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin
εt = satunnainen ja ei-havaittu jäännöstermi
Oletetaan, että lineaarisen regressiomallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee (ks. kappale 1.1.).
Testit regressiokertoimille
Lineaarisen regressiomallin (1) parametrien estimoimisen jälkeen on tapana testata seuraavia
mallin regressiokertoimia koskevia hypoteeseja:
(i)
TKK
H01 : β1 = 0
© Ilkka Mellin (2007)
18/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Jos nollahypoteesi H01 pätee, regressiomallin (1) selitettävä muuttuja y ei riipu lineaarisesti
selittäjästä x.
(ii)
H00 : β0 = 0
Jos nollahypoteesi H00 pätee, regressiomallissa (1) ei tarvita vakioselittäjää.
Testi regressiosuoran kulmakertoimelle
Olkoon nollahypoteesina
H01 : β1 = 0
Jos nollahypoteesi H01 pätee, regressiomallin (1) selitettävä muuttuja y ei riipu lineaarisesti
selittäjästä x.
Nollahypoteesia H01 voidaan testata testisuureella
t1 =
b1
=
D̂(b1 )
b1
1
 n
2
s /  ∑ ( xt − x ) 2 
 t =1

jossa b1 on regressiokertoimen β1 PNS-estimaattori, D̂ 2 (b1 ) on regressiokertoimen β1 PNSestimaattorin b1 varianssin harhaton estimaattori ja s2 on jäännösvarianssin σ2 harhaton
estimaattori.
Oletetaan, että lineaarista regressiomallia (1) koskevat oletukset (i)-(vi) pätevät. Tällöin
testisuure t1 on jakautunut t-jakauman mukaan vapausastein (n–2), jos nollahypoteesi H01
pätee:
t1 ∼ t (n − 2)
H 01
Itseisarvoltaan suuret testisuureen t1 arvot viittaavat siihen, että nollahypoteesi ei päde. Jos
nollahypoteesi H01 : β1 = 0 hylätään, sanotaan, että kerroin β1 ja sitä vastaava selittäjä x ovat
tilastollisesti merkitseviä.
Huomautus 1:
n
∑ (x − x )
t =1
2
t
= nσˆ x2
Huomautus 2:
Testisuureen t1 arvo kasvaa, jos selittäjän x saamien arvojen varianssi σˆ x2 tai
havaintojen lukumäärä n kasvaa.
Testi regressiosuoran vakiolle
Olkoon nollahypoteesina
H00 : β0 = 0
Jos nollahypoteesi H00 pätee, regressiomallissa (1) ei tarvita vakioselittäjää.
TKK
© Ilkka Mellin (2007)
19/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Nollahypoteesia H00 voidaan testata testisuureella
t0 =
b0
=
D̂(b0 )
b0
1
n

2
2
x
∑t 


s  n t =1
 n ( x − x )2 
t
 ∑

t =1
jossa b0 on regressiokertoimen β0 PNS-estimaattori, D̂ 2 (b0 ) on regressiokertoimen β0 PNSestimaattorin b0 varianssin harhaton estimaattori ja s2 on jäännösvarianssin σ 2 harhaton
estimaattori.
Oletetaan, että lineaarista regressiomallia (1) koskevat oletukset (i)-(vi) pätevät. Tällöin
testisuure t0 on jakautunut t-jakauman mukaan vapausastein (n–2), jos nollahypoteesi H00
pätee:
t0 ∼ t (n − 2)
H 00
Itseisarvoltaan suuret testisuureen t0 arvot viittaavat siihen, että nollahypoteesi ei päde. Jos
nollahypoteesi H00 : β1 = 0 hylätään, mallissa (1) tarvitaan vakioselittäjää.
Huomautus 1:
n
∑ (x − x )
t =1
2
t
= nσˆ x2
Huomautus 2:
Testisuureen t0 arvo kasvaa, jos selittäjän x saamien arvojen varianssi σˆ x2 tai
havaintojen lukumäärä n kasvaa.
Regression olemassaolon testaaminen
Yhden selittäjän regressiomallin tapauksessa edellä esitetty t-testi nollahypoteesille
H01 : β1 = 0
on ekvivalentti F-testin kanssa, jossa testisuureena on
SSM
SSE
SST − SSE
= (n − 2)
SSE
2
R
= (n − 2)
1 − R2
ρˆ yx2
= (n − 2)
1 − ρˆ yx2
F = (n − 2)
missä
SST = on selitettävän muuttujan y arvojen vaihtelua kuvaava
kokonaisneliösumma
SSM = estimoidun mallin mallineliösumma
TKK
© Ilkka Mellin (2007)
20/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
SSE = estimoidun mallin jäännösneliösumma
ja
R2 =
SSM
SSE
= 1−
= ρˆ yx2
SST
SST
on estimoidun mallin selitysaste, missä ρˆ yx2 on selitettävän muuttujan y ja selittävän
muuttujan x havaittujen arvojen otoskorrelaatiokerroin.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(vi)
pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein 1 ja (n–2), jos
nollahypoteesi H01 pätee:
F ∼ F (1, n − 2)
H 01
Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H01 ei päde.
Huomautus:
F = t1
jossa t1 on edellä esitetty t-testisuure nollahypoteesille
H01 : β1 = 0
TKK
© Ilkka Mellin (2007)
21/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
2. Ennustaminen yhden selittäjän lineaarisella
regressiomallilla
2.1. Ennustamistehtävä
Oletukset
Olkoon
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
yhden selittäjän lineaarinen regressiomalli, jossa
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xt = selittäjän x ei-satunnainen ja havaittu arvo havainnossa t
β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin
β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin
εt = satunnainen ja ei-havaittu jäännöstermi
Seuraavia oletuksia kutsutaan yhden selittäjän lineaarisen regressiomallin (1) standardioletuksiksi:
(i)
Selittäjän x havaitut arvot xt ovat ei-satunnaisia, t = 1, 2, … , n
(ii)
Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n
(iii)
E(εt) = 0 , t = 1, 2, … , n
(iv)
D2(εt) = σ2 , t = 1, 2, … , n
(v)
Cov(εs , εt) = 0 , jos s ≠ t
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus:
(vi)
εt ∼ N(0, σ2) , t = 1, 2, … , n
Ennustamistehtävä
Miten yhden selittäjän lineaarisen regressiomallin (1) selitettävän muuttujan y käyttäytymistä
voidaan ennustaa? Tällä ennustamistehtävällä tarkoitetaan kahta toisilleen läheistä sukua
olevaa ongelmaa:
(i)
Mikä on paras arvio eli ennuste selitettävän muuttujan y odotettavissa olevalle arvolle,
jos selittäjä x saa arvon x ?
(ii)
Mikä on paras arvio eli ennuste selitettävän muuttujan y arvolle, jos selittäjä x saa
arvon x ?
2.2. Selitettävän muuttujan odotettavissa olevan arvon ennustaminen
Ennuste
Mikä on paras arvio eli ennuste yhden selittäjän lineaarisen regressiomallin
TKK
© Ilkka Mellin (2007)
22/32
Monimuuttujamenetelmät
(1)
Yhden selittäjän lineaarinen regressiomalli
yt = β0 + β1xt + εt , t = 1, 2, … , n
selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjä x saa arvon x , ja mitkä
ovat ennusteen stokastiset ominaisuudet?
Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjä x saa arvon x . Tällöin
y = β 0 + β1 x + ε
ja
E( y | x) = β 0 + β1 x
on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjä x saa arvon x .
Käytetään odotusarvon E( y | x) ennusteena lauseketta
(2)
yˆ | x = b0 + b1 x
missä b0 ja b1 ovat regressiokertoimien β0 ja β1 PNS-estimaattorit.
Huomautus:
Odotusarvo E( y | x) on vakio, kun taas ennuste yˆ | x on satunnaismuuttuja.
Ennusteen jakauma
Lause 2.2.1.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v)
pätevät. Tällöin
(i)
(ii)
E( yˆ | x) = β 0 + β1 x
( x − x )2 
2 1
ˆ
Var( y | x) = σ  + n

 n ∑ ( xt − x ) 2 


t =1
Huomautus 1:
Lauseen 2.2.1. kohdan (i) mukaan
yˆ | x = b0 + b1 x
on harhaton ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, kun
selittäjä x saa arvon x eli
E( yˆ x) = β 0 + β1 x = E( y x)
Huomautus 2:
Voidaan osoittaa, että
yˆ | x = b0 + b1 x
on paras selitettävän muuttujan y odotettavissa olevan arvon E( y | x) lineaaristen ja
harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keskineliövirheen.
TKK
© Ilkka Mellin (2007)
23/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Huomautus 3:
n
∑ (x − x )
t =1
t
2
= nσˆ x2
Huomautus 4:
Lauseen 2.2.1. kohdan (ii) mukaan ennusteen
yˆ | x = b0 + b1 x
varianssi pienenee, jos havaintojen lukumäärä n tai selittäjän varianssi σˆ x2 kasvaa.
Toisaalta ennusteen
yˆ | x = b0 + b1 x
varianssi on sitä suurempi mitä kauempana x on selittäjän x kertoimien β0 ja β1 PNSestimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta keskiarvosta x .
Lause 2.2.2.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletuksien
(i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
yˆ | x ∼ N(E( yˆ | x) , Var( yˆ | x))
missä
E( yˆ | x) = β 0 + β1 x
ja
1
( x − x )2 
Var( yˆ | x) = σ 2  + n

 n ∑ ( xt − x ) 2 


t =1
Selitettävän muuttujan odotettavissa olevan arvon luottamusväli
Lause 2.2.3.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(vi)
pätevät ja olkoon E( y | x) selitettävän muuttujan y saaman arvon y odotusarvo, kun
selittäjä x saa arvon x . Tällöin odotusarvon E( y | x) luottamusväli luottamustasolla
(1 − α) on
1
b0 + b1 x ± tα / 2 s  +
n

1
(x − x )  2

n
2

(
x
x
)
−
∑
t

t =1
2
jossa s2 on jäännösvarianssin σ2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−2).
TKK
© Ilkka Mellin (2007)
24/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Huomautus 1:
n
∑ (x − x )
t =1
2
t
= nσˆ x2
Huomautus 2:
Lauseesta 2.2.3. nähdään, että luottamusväli kaventuu, jos havaintojen lukumäärä n tai
selittäjän varianssi σˆ x2 kasvaa.
Toisaalta luottamusväli on sitä leveämpi mitä kauempana x on selittäjän x kertoimien
β0 ja β1 PNS-estimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta keskiarvosta x .
2.3. Selitettävän muuttujan arvon ennustaminen
Ennuste
Mikä on paras arvio eli ennuste lineaarisen regressiomallin
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
selitettävän muuttujan y arvolle, kun selittäjällä x saa arvon x , ja mitkä ovat ennusteen
stokastiset ominaisuudet?
Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjä x saa arvon x . Tällöin
y = β 0 + β1 x + ε
ja
E( y | x) = β 0 + β1 x
on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjä x saa arvon x .
Käytetään selitettävän muuttujan y arvon y ennusteena lauseketta
(3)
yˆ | x = b0 + b1 x
missä b0 ja b1 ovat regressiokertoimien β0 ja β1 PNS-estimaattorit.
Huomautus:
Sekä selitettävän muuttujan y arvo y että ennuste ŷ x ovat satunnaismuuttujia.
Ennustevirhe
Erotusta
e = y − yˆ | x = β 0 − b0 + ( β1 − b1 ) x + ε
kutsutaan ennustevirheeksi.
TKK
© Ilkka Mellin (2007)
25/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Ennusteen jakauma
Lause 2.3.1.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(v)
pätevät. Tällöin
(i)
(ii)
E( y − yˆ | x) = 0
 1
Var( y − yˆ | x) = σ 2 1 + +
 n

( x − x )2 

n
2

−
(
)
x
x
∑
t
t =1

Huomautus 1:
Lauseen 2.3.1. kohdan (i) mukaan
yˆ | x = b0 + b1 x
on harhaton ennuste selitettävän muuttujan y arvon y odotusarvolle E( y | x) , kun
selittäjä x saa arvon x , siinä mielessä että
E( y − yˆ | x) = 0
Sen sijaan yˆ | x ei ole harhaton ennuste selitettävän muuttujan y arvolle y , koska
yleensä
E( yˆ | x) = β 0 + β1 x ≠ y
Huomautus 2:
Voidaan osoittaa, että
yˆ | x = b0 + b1 x
on paras selitettävän muuttujan y odotettavissa olevan arvon E( y | x) lineaaristen ja
harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keskineliövirheen.
Huomautus 3:
n
∑ (x − x )
t =1
t
2
= nσˆ x2
Huomautus 4:
Lauseen 2.3.1. kohdan (ii) mukaan ennusteen
yˆ | x = b0 + b1 x
varianssi pienenee, jos havaintojen lukumäärä n tai selittäjän varianssi σˆ x2 kasvaa.
Toisaalta ennusteen
yˆ | x = b0 + b1 x
varianssi on sitä suurempi mitä kauempana x on selittäjän x kertoimien β0 ja β1 PNSestimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta keskiarvosta x .
TKK
© Ilkka Mellin (2007)
26/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Lause 2.3.2.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletuksien
(i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
y − yˆ | x ∼ N ( 0, Var( y − yˆ | x) )
missä
 1
Var( y − yˆ | x) = σ 2 1 + +
 n

( x − x )2 

n
2

(
)
−
x
x
∑
t
t =1

Selitettävän muuttujan arvon luottamusväli
Lause 2.3.3.
Oletetaan, että yhden selittäjän lineaarisen regressiomallin (1) standardioletukset (i)-(vi)
pätevät. Tällöin selitettävän muuttujan y arvon y luottamusväli luottamustasolla
(1 − α) on
 1
b0 + b1 x ± tα / 2 s 1 + +
 n

1
( x − x )2  2

n
( xt − x ) 2 
∑
t =1

jossa s2 on jäännösvarianssin σ2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamustasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−2).
Huomautus 1:
n
∑ (x − x )
t =1
t
2
= nσˆ x2
Huomautus 2:
Lauseesta 2.3.3. nähdään, että luottamusväli kaventuu, jos havaintojen lukumäärä n tai
selittäjän varianssi σˆ x2 kasvaa.
Toisaalta luottamusväli on sitä leveämpi mitä kauempana x on selittäjän x kertoimien
β0 ja β1 PNS-estimoinnissa käytettyjen havaittujen arvojen xt aritmeettisesta
keskiarvosta x .
Huomautus 3:
Lauseista 2.2.3. ja 2.3.3. nähdään, että selitettävän muuttujan y odotettavissa olevan
arvon E( y | x) luottamusväli on kapeampi kuin selitettävän muuttujan y arvon y
luottamusväli. Tämä on ymmärrettävää, koska muuttujan keskimääräisen arvon
ennustaminen on helpompaa kuin sen yksittäisen arvon ennustaminen.
TKK
© Ilkka Mellin (2007)
27/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
3. Yhden selittäjän lineaarinen regressiomalli ja
stokastinen selittäjä
3.1. Stokastisen selittäjän ongelma
Malli
Olkoon
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
yhden selittäjän lineaarinen regressiomalli, jossa
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xt = selittäjän x satunnainen ja havaittu arvo havainnossa t
β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin
β1 = selittäjän x ei-satunnainen ja tuntematon regressiokerroin
εt = satunnainen ja ei-havaittu jäännöstermi
Huomautus:
Selittäjän x arvot xt on (toisin kuin kappaleissa 1 ja 2) oletettu satunnaisiksi.
Kiinteät ja satunnaiset selittäjät
Yhden selittäjän lineaarisen regressiomallin (1) standardioletuksissa selittäjän x havaitut arvot
xt on oletettu kiinteiksi eli ei-satunnaisiksi (ks. kappale 1.1.). Tiukasti ottaen tämä oletus voi
päteä vain sellaisissa tilanteissa, joissa selittäjän arvot päästään valitsemaan. Selittäjän arvot
päästään valitsemaan puhtaissa koeasetelmissa, mutta muulloin oletus on vaikeasti
perusteltavissa.
Tarkastellaan seuraavassa tilannetta, jossa selittäjän x arvot xt on oletettu satunnaisiksi. Miten
tämä vaikuttaa lineaarisen regressiomallin (1) soveltamiseen?
Täydellisen vastauksen antaminen tähän kysymykseen on monimutkainen tehtävä eikä siihen
tässä edes pyritä. Tietyin ehdoin satunnaisen selittäjän tapauksessa voidaan kuitenkin toimia
samalla tavalla kuin kiinteän, ei-satunnaisen selittäjän tapauksessa.
Täydellisen kuvauksen usean satunnaismuuttujan käyttäytymisestä antaa niiden
yhteisjakauma. Satunnaismuuttujien riippuvuutta voidaan tutkia niiden yhteisjakauman
muodostamassa kehikossa tarkastelemalla niiden regressiofunktioita.
Koska regressiofunktiot ovat yleensä epälineaarisia, joudutaan tällaisissa tilanteissa yleensä
soveltamaan epälineaarista regressioanalyysia; sivuutamme epälineaaristen regressiomallien
käsittelyn tässä esityksessä.
Jos tarkasteltavien satunnaismuuttujien yhteisjakauma on multinormaalijakauma, lineaaristen
regressiomallien soveltaminen perusteltua, koska kaikki multinormaalijakauman regressiofunktiot ovat lineaarisia. Lineaarisen regressiomallin soveltaminen on perusteltua myös
sellaisissa tilanteissa, joissa epälineaarista regressiofunktiota voidaan approksimoida
lineaarisella lausekkeella.
TKK
© Ilkka Mellin (2007)
28/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
3.2. Ehdollistaminen
Modifioidut standardioletukset
Oletetaan, että seuraavat, yhden selittäjän lineaarisen regressiomallin
yt = β0 + β1xt + εt , t = 1, 2, … , n
(1)
modifioidut standardioletukset ovat voimassa:
(i)´
Selittäjän x havaitut arvot xt ovat satunnaisia, t = 1, 2, … , n
(ii)´ Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n
(iii)´
E(εt | xt) = 0 , t = 1, 2, … , n
(iv)´
D2(εt | xt) = σ 2 , t = 1, 2, … , n
(v)´
Cov(εs, εt | xs, xt) = 0 , jos s ≠ t
Usein oletuksiin (i)´-(v)´ liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus:
(vi)´
(εt | xt) ∼ N(0, σ 2) , t = 1, 2, … , n
Oletukset (i)´-(v)´ ovat yhtäpitäviä seuraavien oletusten kanssa:
(i)´´ Selittäjän x havaitut arvot xt ovat satunnaisia, t = 1, 2, … , n
(ii)´´ Selittäjän x havaitut arvot xt eivät ole yhtä suuria, t = 1, 2, … , n
(iii)´´
E(yt | xt) = β0 + β1xt , t = 1, 2, … , n
(iv)´´
D2(yt | xt) = σ 2 , t = 1, 2, … , n
(v)´´
Cov(ys, yt | xs, xt) = 0 , jos s ≠ t
Tällöin normaalisuusoletusta (vi)´ vastaa oletus
(vi)´´
(yt | xt) ∼ N(0, σ 2) , t = 1, 2, … , n
Huomautus 1:
Oletuksen (iii)´´ mukaan selitettävän muuttujan y havaittujen arvojen ehdollinen
odotusarvo eli regressiofunktio on lineaarinen selittävän muuttujan x havaittujen
arvojen suhteen. Tämä merkitsee ehdollistamista selittävän muuttujan x havaittujen
arvojen suhteen.
Huomautus 2:
Koska selitettävän muuttujan y ehdollinen odotusarvo eli regressiofunktio selittävän
muuttujan x suhteen on yleensä epälineaarinen, oletus (iii)´´ regressiofunktion
lineaarisuudesta on hyvin voimakas oletus.
Huomautus 3:
Jos satunnaismuuttujien y ja x yhteisjakauma on 2-ulotteinen normaalijakauma, sekä
muuttujan y regressiofunktio muuttujan x suhteen että muuttujan x regressiofunktio
muuttujan y suhteen ovat lineaarisia.
TKK
© Ilkka Mellin (2007)
29/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
3.3. Regressiomalleja on kaksi
Kaksi regressiomallia
Jos muuttujat y ja x ovat molemmat satunnaisia, saattaa olla mielekästä muodostaa kaksi
kappaletta yhden selittäjän lineaarisia regressiomalleja:
(1)
yt = β0 + β1xt + εt , t = 1, 2, … , n
(2)
xt = α0 + α1yt + δt , t = 1, 2, … , n
Tämä on mahdollista esimerkiksi silloin, kun satunnaismuuttujien y ja x yhteisjakauma on
2-ulotteinen normaalijakauma. Malli (1) selittää muuttujan y havaittujen arvojen vaihtelun
muuttujan x havaittujen arvojen vaihtelun avulla, kun taas malli (2) selittää muuttujan x
havaittujen arvojen vaihtelun muuttujan y saamien arvojen vaihtelun avulla.
Jos modifioidut standardioletukset (i)´-(vi)´ ovat voimassa mallille (1) ja vastaavalla tavalla
modifioidut standardioletukset ovat voimassa mallille (2), kaikki kappaleissa 1. ja 2. esitetty
teoria pätee molemmille malleille.
Huomautus:
Sovellus määrää usein miten tutkittavaa ilmiötä kuvaavat muuttujat on mielekästä jakaa
selitettäviksi ja selittäviksi muuttujiksi. Regressioanalyysia sovelletaan kuitenkin myös
sellaisissa tilanteissa, joissa jako ei ole itsestään selvä tai, joissa voidaan samanaikaisesti
soveltaa useampia näkökulmia.
Parametrien estimointi
Yhden selittäjän lineaarisen regressiomallin (1) regressiokertoimien β0 ja β1 PNSestimaattorit ovat
b0 = y − b1 x
b1 =
σˆ yx
σˆ y
= ρˆ yx
2
σˆ x
σˆ x
Siten mallin (1) estimoitu regressiosuora on
(3)
y = b0 + b1x
Suoran (3) yhtälö voidaan esittää muodossa
(4)
y − y = ρˆ yx
σˆ y
(x − x )
σˆ x
Yhden selittäjän lineaarisen regressiomallin (2) regressiokertoimien α0 ja α1 PNSestimaattorit ovat
a0 = x − a1 y
a1 =
σˆ yx
σˆ
= ρˆ yx x
2
σˆ y
σˆ y
Siten mallin (2) estimoitu regressiosuora on
(5)
TKK
x = a0 + a1y
© Ilkka Mellin (2007)
30/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Suoran (5) yhtälö voidaan esittää muodossa
(6)
x − x = ρˆ yx
σˆ x
( y − y)
σˆ y
Jos yhtälö (6) ratkaistaan muuttujan y suhteen, saadaan yhtälö
(7)
y− y =
1 σˆ y
⋅ (x − x )
ρˆ yx σˆ x
Yhtälöistä (4) ja (7) nähdään välittömästi, että muuttujan y regressiosuora muuttujan x suhteen
ja muuttujan x regressiosuora muuttujan y suhteen eivät yleensä ole samat. Regressiosuorat
(4) ja (7) yhtyvät täsmälleen silloin, kun
1
= ρˆ yx
ρˆ yx
eli
ρˆ yx2 = 1
mikä on yhtäpitävää sen kanssa, että kaikki havaintopisteet
(xt, yt), t =1, 2, … , n
asettuvat samalle suoralle.
Regressiosuorien yhtälöistä (4) ja (7) nähdään myös, että molemmat regressiosuorat kulkevat
havaintoarvojen painopisteen
(x, y)
kautta.
3.4. Korrelaation olemassaolon testaaminen
Testi korrelaatiolle
Oletetaan, että satunnaismuuttujien y ja x yhteisjakauma on 2-ulotteinen normaalijakauma ja
olkoon
ρ yx = Cor( y, x) =
σ yx
= ρ xy
σ yσ x
satunnaismuuttujien y ja x korrelaatiokerroin, missä
σ yx = Cov(y, x)
σ y2 = Var(y) = Cov(y, y)
σ x2 = Var(x) = Cov(x, x)
Asetetaan nollahypoteesi
H0 : ρyx = 0
Jos nollahypoteesi H0 pätee, satunnaismuuttujat y ja x ovat korreloimattomia.
TKK
© Ilkka Mellin (2007)
31/32
Monimuuttujamenetelmät
Yhden selittäjän lineaarinen regressiomalli
Testi nollahypoteesille H0 voidaan perustaa testisuureeseen
t = n−2
ρˆ yx
1 − ρˆ yx2
jossa ρˆ yx on selitettävän muuttujan y ja selittävän muuttujan x havaittujen arvojen otoskorrelaatiokerroin.
Em. testisuure t on jakautunut t-jakauman mukaan vapausastein (n–2), jos nollahypoteesi H0
pätee:
t ∼ tn − 2
H0
Itseisarvoltaan suuret testisuureen t arvot viittaavat siihen, että nollahypoteesi H0 ei päde. Jos
nollahypoteesi H0 : ρyx = 0 hylätään, sanomme, että satunnaismuuttujien y ja x korrelaatio ρyx
on tilastollisesti merkitsevää.
Testisuureen t neliö t2 yhtyy kappaleessa 1.3. esitettyyn F-testisuureeseen eli
t2 = F
Siten testi nollahypoteesille
H0 : ρyx = 0
ja kappaleessa 1.3. esitetty t-testi regressiosuoran kulmakertoimelle β1, jossa nollahypoteesina
on
H01 : β1 = 0
ovat ekvivalentteja. Tästä nähdään, että yhden selittäjän lineaarisessa regressiomallissa
muuttuja y ei riipu lineaarisesti muuttujasta x ja muuttuja x ei riipu lineaarisesti muuttujasta
y, täsmälleen silloin, kun muuttujat y ja x ovat korreloimattomia.
TKK
© Ilkka Mellin (2007)
32/32