Da rezimiramo, općenito ako je distribucija podataka nagnuta ulijevo, srednja vrijednost je manja od medijane, koja je često manja od moda. Ako je distribucija podataka nagnuta udesno, mod je često manji od medijane, što je manje od srednje vrijednosti.
Zašto na medijanu manje utiču iskrivljeni podaci?
Zašto na medijan manje utiču iskrivljeni podaci nego na srednju vrednost? Međutim, kako podaci postaju iskrivljeni, srednja vrijednost gubi svoju sposobnost da obezbijedi najbolju centralnu lokaciju za podatke jer ih iskrivljeni podaci odvlače od tipične vrijednosti.
Zašto je medijana bolja za iskrivljene podatke?
Za distribucije koje imaju odstupanja ili su iskrivljene, medijana je često poželjna mjera centralne tendencije jer je medijana otpornija na odstupanja od srednje vrijednosti… Imajte na umu da se srednja vrijednost povlači u smjeru nagiba (tj. u smjeru repa).
Kada je nagnuto udesno, srednja vrijednost je srednja vrijednost?
Za desnu iskrivljenu distribuciju, srednja vrijednost je tipično veća od medijane Također primijetite da je rep distribucije na desnoj (pozitivnoj) strani duži nego na lijevoj strani. Iz dijagrama kutije i brkova također možemo vidjeti da je medijana bliža prvom kvartilu nego trećem kvartilu.
Kako iskrivljenost utiče na podatke?
Efekti iskrivljenosti
Ako ima previše iskrivljenosti u podacima, onda mnogi statistički modeli ne rade, ali zašto. Dakle, u iskrivljenim podacima, regija repa može djelovati kao outlier za statistički model i znamo da outliers negativno utiču na performanse modela, posebno na modele zasnovane na regresiji.