Korrelaatio ja lineaarinen regressio – riippuvuuden mittaaminen
Kun tutkitaan kahta muuttujaa yhdessä (esim. pituus ja paino, opiskeluaika ja koe pistemäärä), tarvitaan kaksi asiaa: kuinka vahva lineaarinen yhteys on (korrelaatio) ja mikä suora kuvaa parhaiten riippuvuutta (regressiosuora). Korrelaatiokerroin on luku välillä : lähellä tarkoittaa vahvaa lineaarista yhteyttä, nousevaa ja laskevaa suuntaa. Regressiosuora on se suora, jolle havaintojen pystysuorat etäisyydet (jäännökset) neliösummaltaan ovat pienimmät; se kulkee aina keskipisteen kautta. Tämä aihe kuuluu lukion matematiikan opetussuunnitelmaan (LOPS21) ja käsitellään kursseilla MAA8 ja MAA12. Tällä sivulla opit korrelaatiokertoimen ja regressiosuoran laskemisen, tulkinnan ja varovaisuuden (korrelaatio kausaatio; ekstrapolointi riskialtista).
Kaavat
Pearsonin korrelaatiokerroin
- Korrelaatiokerroin, $r \in [-1, 1]$
- Havainnon $i$ arvot muuttujilla $x$ ja $y$
- Muuttujien keskiarvot
- Havaintojen lukumäärä
- Poikkeamatulo (sama merkki $\to$ positiivinen osuus $r$:ään)
Pearsonin r (vaihtoehtoinen kaava)
- Havaintojen lukumäärä
- Parien tulojen summa
- Muuttujien summat
- Neliösummat
Regressiosuora (PNS-suora)
- Ennuste (suoran arvo)
- Kulmakerroin (muutos $y$:ssä kun $x$ kasvaa 1)
- Vakiotermi (suoran leikkaus $y$-akselilla)
- Selittävä muuttuja
Kulmakerroin
- Kulmakerroin (keskimääräinen muutos $\Delta y$ kun $x$ kasvaa 1)
- Poikkeamatulot
- $x$:n poikkeamien neliösumma
- Otoskeskihajonnat (vaihtoehto: $b = r \cdot s_y/s_x$)
Vakiotermi
- Vakiotermi ($y$-akselin leikkaus)
- $y$-muuttujan keskiarvo
- Kulmakerroin (lasketaan ensin)
- $x$-muuttujan keskiarvo
Jäännös (residual)
- Jäännös havainnolla $i$
- Havaittu arvo
- Ennuste (suoran arvo kohdassa $x_i$)
- Regressiosuoran arvo pisteessä $x_i$
Determinaatiokerroin
- Determinaatiokerroin (selitysosuus)
- Pearsonin korrelaatiokerroin
Kulmakerroin korrelaation ja keskihajontojen avulla
- Kulmakerroin
- Pearsonin korrelaatiokerroin
- y-muuttujan otoskeskihajonta
- x-muuttujan otoskeskihajonta
Säännöt
Pearsonin korrelaatiokerroin
Korrelaatiokertoimen tulkinta
Regressiosuora
Kulmakerroin
Vakiotermi
Jäännös
Regressiosuora kulkee keskipisteen kautta
Ekstrapolointi
Lineaarisuusoletus
Esimerkit
Esimerkki 1: Yksinkertainen korrelaatiokerroin
Helppo- Laske keskiarvot: ja .Korrelaatiokerroin lasketaan keskiarvojen suhteen, joten täytyy ensin laskea keskiarvot.
- Laske poikkeamat: ja jokaiselle parille.Korrelaatiokerroin lasketaan laskemalla poikkeamat keskiarvoista.
- Laske korrelaatiokerroin: .Korrelaatiokerroin on , koska muuttujat ovat täydellisesti positiivisesti korreloituneita.
- Vastaus: Korrelaatiokerroin on (täydellinen positiivinen korrelaatio).Tämä on tyypillinen korrelaatiokertoimen laskenta.
Esimerkki 2: Regressiosuora
Helppo- Laske keskiarvot: ja .Regressiosuora lasketaan keskiarvojen avulla, joten täytyy ensin laskea keskiarvot.
- Laske kulmakerroin: .Kulmakerroin lasketaan kaavalla .
- Laske vakiotermi: .Vakiotermi lasketaan kaavalla .
- Vastaus: Regressiosuora on .Tämä on tyypillinen regressiosuoran laskenta.
Esimerkki 3: Negatiivinen korrelaatio
Helppo- Laske keskiarvot: ja .Korrelaatiokerroin lasketaan keskiarvojen suhteen.
- Laske poikkeamat: ja jokaiselle parille.Korrelaatiokerroin lasketaan laskemalla poikkeamat keskiarvoista.
- Laske korrelaatiokerroin: .Korrelaatiokerroin on , koska muuttujat ovat täydellisesti negatiivisesti korreloituneita.
- Vastaus: Korrelaatiokerroin on (täydellinen negatiivinen korrelaatio).Tämä on tyypillinen negatiivisen korrelaation laskenta.
Esimerkki 4: Heikko korrelaatio
Keskitaso- Laske keskiarvot: ja .Korrelaatiokerroin lasketaan keskiarvojen suhteen.
- Laske poikkeamat: ja jokaiselle parille.Korrelaatiokerroin lasketaan laskemalla poikkeamat keskiarvoista.
- Laske korrelaatiokerroin: (heikko positiivinen korrelaatio).Korrelaatiokerroin on lähellä :tä, koska muuttujien välillä on heikko riippuvuus.
- Vastaus: Korrelaatiokerroin on (heikko positiivinen korrelaatio).Tämä on tyypillinen heikon korrelaation laskenta.
Esimerkki 5: Regressiosuoran käyttö
Keskitaso- Laske keskiarvot: ja .Regressiosuora lasketaan keskiarvojen avulla.
- Laske kulmakerroin: .Kulmakerroin lasketaan kaavalla .
- Laske vakiotermi: .Vakiotermi lasketaan kaavalla .
- Regressiosuora: .Regressiosuora on .
- Ennusta :n arvo: .Kun , ennustettu :n arvo on .
- Vastaus: Regressiosuora on ja ennustettu :n arvo, kun , on .Tämä on tyypillinen regressiosuoran käyttö ennustamiseen.
Esimerkki 6: Determinaatiokerroin
Helppo- Laske determinaatiokerroin: .Determinaatiokerroin on korrelaatiokertoimen neliö.
- Tulkitse: tarkoittaa, että :n vaihtelusta selittyy :n vaihtelulla.Determinaatiokerroin kuvaa, kuinka suuri osa :n vaihtelusta selittyy :n vaihtelulla.
- Vastaus: Determinaatiokerroin on , mikä tarkoittaa, että :n vaihtelusta selittyy :n vaihtelulla.Tämä on tyypillinen determinaatiokertoimen tulkinta.
Esimerkki 7: Jäännösten laskeminen
Keskitaso- Ennusteet: , , , , .Sijoitetaan jokainen regressiosuoraan.
- Jäännökset : , , , , .Jäännös on havaitun ja ennusteen erotus.
- Vastaus: Jäännökset ovat . Kolmannella havainnolla on yksikön verran suoran alapuolella.Jäännösten summa on aina (regressiosuora kulkee keskipisteen kautta).
Esimerkki 8: Kokonaisesitys – korrelaatio, regressio, ennuste
Vaikea- Keskiarvot: , .Tarvitaan molempien muuttujien keskiarvot.
- Korrelaatiokerroin: poikkeamatuloista ja neliösummista saadaan (vahva positiivinen).lähellä : lineaarinen yhteys erittäin vahva.
- Kulmakerroin: (kg/m). Vakiotermi: . Regressiosuora: .Suora kulkee keskipisteen kautta.
- Determinaatiokerroin: — noin painon vaihtelusta selittyy pituudella.Malli selittää aineiston erittäin hyvin.
- Ennuste pituudella m: kg. Vastaus: , suora , , ennuste noin kg.Ennuste on havaintoalueen sisällä (interpolointi), joten käyttö on perusteltua.
Esimerkki
- Laske keskiarvot: , .
- Laske korrelaatiokerroin: (vahva positiivinen korrelaatio).
- Laske kulmakerroin: .
- Laske vakiotermi: .
- Regressiosuora: .
Sovellukset
- Tilastotieteessä korrelaatiota ja regressiota käytetään kuvaamaan muuttujien välistä riippuvuutta. Esimerkiksi tutkimuksissa lasketaan korrelaatiokerroin ja regressiosuora eri muuttujien välillä.
- Taloustieteessä korrelaatiota ja regressiota käytetään kuvaamaan taloudellisten muuttujien välistä riippuvuutta. Esimerkiksi kysynnän ja hinnan välistä riippuvuutta kuvaa regressiosuora.
- Luonnontieteissä korrelaatiota ja regressiota käytetään kuvaamaan luonnollisten ilmiöiden välistä riippuvuutta. Esimerkiksi lämpötilan ja paineen välistä riippuvuutta kuvaa regressiosuora.
- Sosiologiassa korrelaatiota ja regressiota käytetään kuvaamaan yhteiskunnallisten muuttujien välistä riippuvuutta. Esimerkiksi koulutustason ja tulojen välistä riippuvuutta kuvaa regressiosuora.
Yleisiä virheitä
Korrelaation ja kausaation sekoittaminen
Korrelaatiokertoimen tulkinta väärin
Regressiosuoran laskeminen väärin
Regressiosuoran käyttö väärin
Regressiosuora ei kulje keskipisteen kautta
Usein kysyttyä
- Mikä on korrelaatio?
- Korrelaatio on kahden muuttujan välinen lineaarinen riippuvuus. Korrelaatiokerroin on luku välillä , joka kuvaa riippuvuuden voimakkuutta ja suuntaa. Positiivinen tarkoittaa positiivista korrelaatiota (kun kasvaa, kasvaa), negatiivinen tarkoittaa negatiivista korrelaatiota (kun kasvaa, pienenee).
- Mikä on regressio?
- Regressio kuvaa, miten yksi muuttuja riippuu toisesta muuttujasta. Regressiosuora on suora, joka kuvaa parhaiten muuttujien välistä riippuvuutta. Regressiosuora on muotoa , missä on kulmakerroin ja on vakiotermi.
- Miten lasken korrelaatiokertoimen?
- Korrelaatiokerroin lasketaan kaavalla . Vaihtoehtoinen kaava on .
- Miten tulkitaan korrelaatiokerrointa?
- Korrelaatiokertoimen tulkinta: lähellä = vahva riippuvuus, lähellä = kohtalainen riippuvuus, lähellä = heikko riippuvuus. Positiivinen tarkoittaa positiivista korrelaatiota, negatiivinen tarkoittaa negatiivista korrelaatiota. tarkoittaa täydellistä positiivista korrelaatiota, tarkoittaa täydellistä negatiivista korrelaatiota.
- Miten lasken regressiosuoran?
- Regressiosuora lasketaan kaavoilla (kulmakerroin) ja (vakiotermi). Regressiosuora on sitten .
- Mikä on determinaatiokerroin?
- Determinaatiokerroin on korrelaatiokertoimen neliö: . Determinaatiokerroin kuvaa, kuinka suuri osa :n vaihtelusta selittyy :n vaihtelulla. Esimerkiksi tarkoittaa, että :n vaihtelusta selittyy :n vaihtelulla.
- Tarkoittaako korrelaatio kausaatiota?
- Ei. Korrelaatio ei tarkoita kausaatiota. Korrelaatio tarkoittaa vain, että muuttujat liittyvät toisiinsa, mutta se ei kerro, mikä aiheuttaa mitä. Kausaatio vaatii lisätutkimusta. Esimerkiksi korrelaatio ei kerro, aiheuttaako :n muutos :n muutoksen vai päinvastoin, tai onko molemmat muuttujat riippuvaisia kolmannesta muuttujasta.
- Miten käytän regressiosuoraa ennustamiseen?
- Regressiosuoraa voi käyttää ennustamiseen sijoittamalla :n arvon regressiosuoraan: . Tärkeää on muistaa, että regressiosuoraa voi käyttää ennustamiseen vain havaintoalueen sisällä (interpolointi). Ekstrapolointi (ennustaminen alueen ulkopuolelta) on riskialtista, koska regressiosuora ei välttämättä päde alueen ulkopuolella.
- Milloin voin käyttää regressiosuoraa?
- Regressiosuoraa voi käyttää, kun korrelaatio on riittävän vahva (yleensä ) ja muuttujien välinen riippuvuus on lineaarinen. Jos korrelaatio on heikko ( lähellä ), regressiosuora ei ole hyödyllinen. Jos muuttujien välinen riippuvuus ei ole lineaarinen, regressiosuora ei kuvaa riippuvuutta hyvin.
- Mikä ero on korrelaatiolla ja regressiolla?
- Korrelaatio mittaa, kuinka vahva lineaarinen riippuvuus on kahden muuttujan välillä. Regressio kuvaa, miten yksi muuttuja riippuu toisesta muuttujasta. Korrelaatio on symmetrinen (korrelaatio :n ja :n välillä on sama kuin korrelaatio :n ja :n välillä), mutta regressio ei ole symmetrinen (regressiosuora :n suhteen :ään on eri kuin regressiosuora :n suhteen :ään).
- Mikä on jäännös (residual) ja miksi se on tärkeä?
- Jäännös on , eli havaitun arvon ja regressiosuoran ennusteen erotus. Pienimmän neliösumman menetelmä valitsee suoran niin, että jäännösten neliösumma on mahdollisimman pieni. Jäännösten summa on aina nolla (), koska regressiosuora kulkee keskipisteen kautta. Isoja jäännöksiä tulkitaan usein poikkeaviksi havainnoiksi (outliers).
Historiaa
Korrelaatiokertoimen kehitti Karl Pearson 1890-luvulla; lineaarinen regressio ja "pienimmän neliösumman" suora liittyvät Adrien-Marie Legendren ja Carl Friedrich Gaussin työhön. Francis Galton kuvasi "regression toward the mean" -ilmiön (keskimäärään palautuminen), josta termi regressio juontuu.Tehtävissä
Yo-kokeissa ja kurssikokeissa tehtävät voivat pyytää korrelaatiokertoimen laskemista taulukkoaineistosta, regressiosuoran parametrien laskemista, :n tulkintaa tai ennustetta annetulle :lle. Usein annetaan pariotaulukko ja pyydetään kaava tai numeerinen vastaus.Lähteet ja lisämateriaali
- LOPS21: MAA8 ja MAA12 Tilastot ja todennäköisyys
Lukion matematiikan kurssit (LOPS21): MAA8 ja MAA12 käsittelevät korrelaatiota ja regressiota. Osa lukion opetussuunnitelmaa.
- Ylioppilaskokeiden tehtävät
Aiemmat ylioppilaskokeiden tehtävät ja malliratkaisut korrelaatiosta ja regressiosta.
- TIM - Pitkän matematiikan kertauskurssi
Jyväskylän yliopiston kertauskurssi, joka sisältää harjoitustehtäviä ja teoriaa korrelaatiosta ja regressiosta.
- Ylen Abitreenit: Korrelaatio ja regressio
Ylen Abitreenit-sivuston materiaali korrelaatiosta ja regressiosta.