Syötä havainnot
Erota luvut pilkulla, välilyönnillä tai rivinvaihdolla. Käytä desimaalierottimena pistettä, esimerkiksi: 10, 10, 10, 11, 12, 12, 12, 13, 13, 14, 15, 100
Tunnista aineiston poikkeavat havainnot 1,5 × IQR -säännöllä: arvot, jotka jäävät kvartiilirajojen ulkopuolelle.
Erota luvut pilkulla, välilyönnillä tai rivinvaihdolla. Käytä desimaalierottimena pistettä, esimerkiksi: 10, 10, 10, 11, 12, 12, 12, 13, 13, 14, 15, 100
Poikkeavat arvot eli outlierit ovat havaintoja, jotka erottuvat selvästi muusta aineistosta. Ne voivat olla virheitä tai aitoja ääritapauksia, mutta kummassakin tapauksessa ne voivat vääristää tunnuslukuja ja malleja. Tämä laskuri tunnistaa poikkeamat 1,5 × IQR -säännöllä, joka on robusti eikä oleta jakaumalta normaalisuutta.
Poikkeava arvo on havainto, joka jää kvartiileihin perustuvien rajojen eli aitojen ulkopuolelle. Koska menetelmä nojaa kvartiileihin eikä keskiarvoon tai keskihajontaan, yksittäiset poikkeamat eivät itse siirrä rajoja juurikaan – sääntö on siksi vakaa myös voimakkaasti poikkeavissa aineistoissa.
Lasketaan ensin kvartiiliväli ja sen jälkeen ala- ja yläraja:
IQR = Q3 − Q1
alaraja = Q1 − k × IQR ja yläraja = Q3 + k × IQR
Havainto on poikkeava, jos se on pienempi kuin alaraja tai suurempi kuin yläraja. Kerroin k on tavallisesti 1,5 (tavalliset poikkeamat) tai 3,0 (äärimmäiset poikkeamat). Rajat tunnetaan Tukeyn aitoina, ja ne piirtyvät laatikko-jana-kuvion viiksiksi.
Tarkastellaan aineistoa 10, 10, 10, 11, 12, 12, 12, 13, 13, 14, 15, 100.
Rajojen ulkopuolelle jäävät havainnot ovat ehdokkaita poikkeaviksi arvoiksi. Kertoimella 1,5 saadaan tavanomaiset poikkeamat ja kertoimella 3,0 vain kaikkein kaukaisimmat. On tärkeää muistaa, että sääntö vain merkitsee arvot tarkasteltaviksi – se ei kerro, ovatko ne virheitä vai aitoja havaintoja.
Poikkeavaa arvoa ei pidä poistaa automaattisesti. Selvitä ensin syy: mittaus- tai kirjausvirhe voidaan korjata tai poistaa, mutta aito ääriarvo voi olla aineiston tärkein havainto. Monissa tilanteissa kannattaa raportoida tulokset sekä poikkeamien kanssa että ilman niitä, jotta niiden vaikutus näkyy.
IQR-sääntö ja Tukeyn aidat kuuluvat kuvailevan tilastotieteen menetelmiin ja esitellään yleensä kvartiilien ja laatikko-jana-kuvion yhteydessä jo lukiossa. Yliopiston tilastotieteessä ja data-analyysissä poikkeamien tunnistus on osa aineiston esikäsittelyä, ja IQR-menetelmää suositaan, koska se ei oleta jakaumalta normaalisuutta toisin kuin z-arvoon perustuva sääntö.