Selitysaste (R²)

Laske selitysaste R² eli kuinka suuri osuus vasteen vaihtelusta selittyy mallilla – havaituista ja ennustetuista arvoista tai havaintopareista.

Syöttötapa

Lukusarjat

Syötä molemmat sarjat samassa järjestyksessä ja yhtä monta lukua. Erota luvut pilkulla, välilyönnillä tai rivinvaihdolla, desimaalit pisteellä. Havaittu/ennuste-tilassa ylempi kenttä on havaitut y ja alempi ennusteet ŷ; havaintoparitilassa ylempi on x ja alempi y.

Tulokset

  • Tulosta
  • Linkitä
  • Selitysaste R² – kuinka hyvin malli selittää vaihtelua?

    Selitysaste R² on yleisin tapa kuvata, kuinka hyvin malli sopii aineistoon. Se kertoo, kuinka suuri osuus selitettävän muuttujan vaihtelusta selittyy mallilla. Tällä laskurilla voit laskea R²:n joko havaituista ja ennustetuista arvoista tai havaintopareista, joista sovitetaan regressiosuora.

    Määritelmä

    Selitysaste on luku väliltä 0 ja 1, joka ilmaisee selitetyn vaihtelun osuuden kokonaisvaihtelusta. R² = 1 tarkoittaa, että malli selittää kaiken vaihtelun täydellisesti, ja R² = 0, ettei malli selitä vaihtelua keskiarvoa paremmin. Selitysaste ilmaistaan usein prosentteina.

    Kaava ja selitys

    Yleinen, kaikkiin malleihin sopiva määritelmä perustuu neliösummiin:

    R² = 1 − SSjäännös ÷ SSkokonais

    jossa SSjäännös = Σ(yᵢ − ŷᵢ)² on havaittujen ja ennustettujen arvojen erotusten neliöiden summa ja SSkokonais = Σ(yᵢ − ȳ)² on havaintojen poikkeamien neliöiden summa keskiarvosta. Yksinkertaisessa lineaarisessa regressiossa tämä yksinkertaistuu korrelaatiokertoimen neliöksi:

    R² = r²

    Vaiheittainen esimerkki

    Havaitut arvot y = 3, 5, 7, 9, 11 ja mallin ennusteet ŷ = 2,8, 5,1, 7,0, 8,9, 11,2.

    1. Keskiarvo: ȳ = 7. SSkokonais = (3−7)² + (5−7)² + (7−7)² + (9−7)² + (11−7)² = 40.
    2. Jäännökset: 0,2, −0,1, 0, 0,1, −0,2; niiden neliöiden summa SSjäännös = 0,1.
    3. Selitysaste: R² = 1 − 0,1 ÷ 40 = 0,9975 eli noin 99,8 %.

    Tuloksen tulkinta

    Korkea R² ei yksin takaa hyvää mallia: ylisovitettu malli voi saada korkean arvon harjoitusaineistossa mutta yleistyä huonosti. R²:ta kannattaa tarkastella yhdessä jäännösten ja mallin tulkittavuuden kanssa.

    Käyttökohteet

    Selitysaste opinnoissa

    Selitysaste kuuluu regressioanalyysin perusteisiin ja esiintyy korrelaation neliönä jo lukion tilasto- ja regressio-osiossa. Yliopiston tilastotieteessä R² yleistetään neliösummien suhteeksi ja täydennetään korjatulla selitysasteella, joka ottaa huomioon selittäjien määrän usean muuttujan malleissa.

    Usein kysytyt kysymykset

    Mikä on selitysaste R²?
    Selitysaste R² kertoo, kuinka suuri osuus selitettävän muuttujan vaihtelusta selittyy mallilla. Se on luku väliltä 0 ja 1 (usein ilmaistuna prosentteina): R² = 0,75 tarkoittaa, että 75 % vaihtelusta selittyy mallilla ja loput 25 % jää selittämättä. Mitä lähempänä ykköstä, sitä paremmin malli sopii aineistoon.
    Miten R² lasketaan?
    Yleinen kaava on R² = 1 − SSjäännös ÷ SSkokonais, jossa SSjäännös on havaittujen ja ennustettujen arvojen erotusten neliöiden summa ja SSkokonais on havaittujen arvojen poikkeamien neliöiden summa keskiarvosta. Lineaarisessa regressiossa R² on yksinkertaisesti korrelaatiokertoimen r neliö.
    Onko R² aina korrelaatiokertoimen neliö?
    Vain yksinkertaisessa lineaarisessa regressiossa R² on täsmälleen Pearsonin korrelaatiokertoimen neliö. Yleisemmin, esimerkiksi epälineaarisissa malleissa tai useamman selittäjän regressiossa, R² määritellään neliösummien suhteena R² = 1 − SSjäännös ÷ SSkokonais, joka on tämän laskurin perusmääritelmä.
    Voiko R² olla negatiivinen?
    Tavallisessa pienimmän neliösumman regressiossa R² on aina väliltä 0 ja 1. Jos ennusteet tulevat muusta kuin aineistoon sovitetusta mallista, ne voivat olla huonompia kuin pelkkä keskiarvo, jolloin SSjäännös ylittää SSkokonaisin ja R² voi olla negatiivinen. Negatiivinen R² tarkoittaa, että malli ennustaa keskiarvoa heikommin.
    Tarkoittaako korkea R² aina hyvää mallia?
    Ei aina. Korkea R² kertoo, että malli selittää paljon vaihtelua, mutta se ei takaa, että malli on oikea tai yleistettävä. Ylisovitettu malli voi saada korkean R²:n harjoitusaineistossa mutta toimia huonosti uudella aineistolla. R²:ta on hyvä tarkastella yhdessä jäännösten ja mallin tulkittavuuden kanssa.
    Oliko tästä laskurista apua?

    Linkitä tämä laskuri

    Kopioi koodi ja liitä se omalle sivustollesi.

    Suositut laskurit