Laske selitysaste R² eli kuinka suuri osuus vasteen vaihtelusta selittyy mallilla – havaituista ja ennustetuista arvoista tai havaintopareista.
Syöttötapa
Lukusarjat
Syötä molemmat sarjat samassa järjestyksessä ja yhtä monta lukua. Erota luvut pilkulla, välilyönnillä tai rivinvaihdolla, desimaalit pisteellä. Havaittu/ennuste-tilassa ylempi kenttä on havaitut y ja alempi ennusteet ŷ; havaintoparitilassa ylempi on x ja alempi y.
Tulokset
Selitysaste R² – kuinka hyvin malli selittää vaihtelua?
Selitysaste R² on yleisin tapa kuvata, kuinka hyvin malli sopii aineistoon. Se kertoo, kuinka suuri osuus selitettävän muuttujan vaihtelusta selittyy mallilla. Tällä laskurilla voit laskea R²:n joko havaituista ja ennustetuista arvoista tai havaintopareista, joista sovitetaan regressiosuora.
Määritelmä
Selitysaste on luku väliltä 0 ja 1, joka ilmaisee selitetyn vaihtelun osuuden kokonaisvaihtelusta. R² = 1 tarkoittaa, että malli selittää kaiken vaihtelun täydellisesti, ja R² = 0, ettei malli selitä vaihtelua keskiarvoa paremmin. Selitysaste ilmaistaan usein prosentteina.
Kaava ja selitys
Yleinen, kaikkiin malleihin sopiva määritelmä perustuu neliösummiin:
R² = 1 − SSjäännös ÷ SSkokonais
jossa SSjäännös = Σ(yᵢ − ŷᵢ)² on havaittujen ja ennustettujen arvojen erotusten neliöiden summa ja SSkokonais = Σ(yᵢ − ȳ)² on havaintojen poikkeamien neliöiden summa keskiarvosta. Yksinkertaisessa lineaarisessa regressiossa tämä yksinkertaistuu korrelaatiokertoimen neliöksi:
R² = r²
Vaiheittainen esimerkki
Havaitut arvot y = 3, 5, 7, 9, 11 ja mallin ennusteet ŷ = 2,8, 5,1, 7,0, 8,9, 11,2.
Jäännökset: 0,2, −0,1, 0, 0,1, −0,2; niiden neliöiden summa SSjäännös = 0,1.
Selitysaste: R² = 1 − 0,1 ÷ 40 = 0,9975 eli noin 99,8 %.
Tuloksen tulkinta
R² lähellä 1: malli selittää suuren osan vaihtelusta.
R² ≈ 0: malli ei selitä vaihtelua keskiarvoa paremmin.
R² < 0: mahdollista vain valmiilla ennusteilla – malli on keskiarvoa huonompi.
Korkea R² ei yksin takaa hyvää mallia: ylisovitettu malli voi saada korkean arvon harjoitusaineistossa mutta yleistyä huonosti. R²:ta kannattaa tarkastella yhdessä jäännösten ja mallin tulkittavuuden kanssa.
Käyttökohteet
Regressioanalyysi: mallin sopivuuden raportointi.
Mallien vertailu: kuinka paljon selittäjien lisääminen kasvattaa selitysastetta.
Ennustetarkkuus: selitetyn ja selittämättömän vaihtelun osuudet.
Selitysaste kuuluu regressioanalyysin perusteisiin ja esiintyy korrelaation neliönä jo lukion tilasto- ja regressio-osiossa. Yliopiston tilastotieteessä R² yleistetään neliösummien suhteeksi ja täydennetään korjatulla selitysasteella, joka ottaa huomioon selittäjien määrän usean muuttujan malleissa.
Usein kysytyt kysymykset
Mikä on selitysaste R²?
Selitysaste R² kertoo, kuinka suuri osuus selitettävän muuttujan vaihtelusta selittyy mallilla. Se on luku väliltä 0 ja 1 (usein ilmaistuna prosentteina): R² = 0,75 tarkoittaa, että 75 % vaihtelusta selittyy mallilla ja loput 25 % jää selittämättä. Mitä lähempänä ykköstä, sitä paremmin malli sopii aineistoon.
Miten R² lasketaan?
Yleinen kaava on R² = 1 − SSjäännös ÷ SSkokonais, jossa SSjäännös on havaittujen ja ennustettujen arvojen erotusten neliöiden summa ja SSkokonais on havaittujen arvojen poikkeamien neliöiden summa keskiarvosta. Lineaarisessa regressiossa R² on yksinkertaisesti korrelaatiokertoimen r neliö.
Onko R² aina korrelaatiokertoimen neliö?
Vain yksinkertaisessa lineaarisessa regressiossa R² on täsmälleen Pearsonin korrelaatiokertoimen neliö. Yleisemmin, esimerkiksi epälineaarisissa malleissa tai useamman selittäjän regressiossa, R² määritellään neliösummien suhteena R² = 1 − SSjäännös ÷ SSkokonais, joka on tämän laskurin perusmääritelmä.
Voiko R² olla negatiivinen?
Tavallisessa pienimmän neliösumman regressiossa R² on aina väliltä 0 ja 1. Jos ennusteet tulevat muusta kuin aineistoon sovitetusta mallista, ne voivat olla huonompia kuin pelkkä keskiarvo, jolloin SSjäännös ylittää SSkokonaisin ja R² voi olla negatiivinen. Negatiivinen R² tarkoittaa, että malli ennustaa keskiarvoa heikommin.
Tarkoittaako korkea R² aina hyvää mallia?
Ei aina. Korkea R² kertoo, että malli selittää paljon vaihtelua, mutta se ei takaa, että malli on oikea tai yleistettävä. Ylisovitettu malli voi saada korkean R²:n harjoitusaineistossa mutta toimia huonosti uudella aineistolla. R²:ta on hyvä tarkastella yhdessä jäännösten ja mallin tulkittavuuden kanssa.