Havaitut ja ennustetut arvot
Syötä havaitut arvot y ja mallin ennustamat arvot ŷ samassa järjestyksessä ja yhtä monta kumpaakin. Erota luvut pilkulla, välilyönnillä tai rivinvaihdolla, desimaalit pisteellä.
Laske regression residuaalit e = y − ŷ eli havaitun ja ennustetun arvon erotukset, sekä residuaalineliösumma ja keskineliövirhe.
Syötä havaitut arvot y ja mallin ennustamat arvot ŷ samassa järjestyksessä ja yhtä monta kumpaakin. Erota luvut pilkulla, välilyönnillä tai rivinvaihdolla, desimaalit pisteellä.
Residuaali on regression keskeisin diagnostiikkasuure: se kertoo, kuinka kaukana mallin ennuste on todellisesta havainnosta. Residuaaleista lasketaan mallin kokonaisvirhe ja niistä piirretyn kuvaajan avulla arvioidaan, sopiiko malli aineistoon. Tällä laskurilla saat jokaisen residuaalin sekä yhteenvetoluvut yhdellä syötöllä.
Residuaali eli jäännös on havaitun arvon ja mallin ennustaman arvon erotus. Jokaisella havainnolla on oma residuaalinsa, ja se ilmaistaan samassa yksikössä kuin alkuperäinen muuttuja. Residuaalit kuvaavat sitä osaa vaihtelusta, jota malli ei selitä.
Yksittäinen residuaali lasketaan kaavalla:
e = y − ŷ
Kaavassa y on havaittu arvo ja ŷ mallin ennuste. Mallin kokonaisvirhettä kuvaa residuaalineliösumma, ja tyypillistä virhettä keskineliövirhe:
SSE = Σ(y − ŷ)²
RMSE = √( SSE ÷ n )
Neliöinti tekee kaikista poikkeamista positiivisia ja painottaa suuria virheitä, joten yksikin iso poikkeama kasvattaa summaa selvästi.
Havaitut arvot ovat 3, 5, 7 ja mallin ennusteet 2,8, 5,2, 6,9.
Residuaalin etumerkki kertoo virheen suunnan ja suuruus sen koon:
Hyvässä mallissa residuaalit jakautuvat satunnaisesti nollan molemmin puolin eikä niissä näy systemaattista kaavaa. Suuri yksittäinen residuaali voi viitata poikkeavaan havaintoon.
Residuaalit kuuluvat tilastotieteen regressioanalyysin perusteisiin. Lukion pitkän matematiikan tilastokurssilla käsitellään regressiosuoraa ja pienimmän neliösumman ajatusta, ja yliopiston tilastotieteessä residuaalianalyysi on keskeinen osa mallin diagnostiikkaa. Residuaaleista johdetut tunnusluvut, kuten selitysaste ja keskineliövirhe, kertovat, kuinka hyvin malli kuvaa aineistoa.