Q: Varför är variansen alltid icke-negativ?

Eftersom avvikelserna kvadreras innan summering är varje term i täljaren ≥ 0, vilket innebär att summan (och därmed variansen) inte kan bli negativ. Variansen är exakt noll enbart i det degenererade fallet då alla observationer är identiska — ingen spridning, ingen variabilitet. Denna icke-negativitetsegenskap är matematiskt bekväm och gör det möjligt att aggregera och dekomponera varians rent i ANOVA och regression: total varians = förklarad varians + residualvarians, med alla tre storheterna icke-negativa. Kvadreringen har också en nackdel: variansen har enheten av data i kvadrat (kg² för vikter, $² för dollar), vilket är svårt att tolka direkt. Det är därför standardavvikelsen — roten ur variansen — oftare rapporteras, eftersom den har samma enhet som ursprungsdata.

Q: Varför använder variansen kvadratavvikelser i stället för absolutavvikelser?

Kvadrering har flera matematiska fördelar jämfört med att ta absolutvärden. För det första är kvadratavvikelserna deriverbara överallt, vilket underlättar optimering (medelvärdet minimerar summan av kvadratavvikelser exakt, medan medianen minimerar summan av absolutavvikelser). För det andra dekomponeras kvadratsummor naturligt i ortogonala komponenter i ANOVA och regression, vilket möjliggör eleganta analyser. För det tredje följer kvadratsummor ki-kvadratfördelningar under normalitet, vilket möjliggör F-test och konfidensintervall. Medelabsolutavvikelsen (MAD) är ett alternativ som är mer robust mot extremvärden och lättare att tolka, men saknar de rena matematiska egenskaper som gör variansen så central inom inferensstatistik. I modern robust statistik föredras MAD när extremvärden är ett bekymmer; inom klassisk parametrisk statistik dominerar variansen eftersom matematiken fungerar smidigt.

Q: Vilka är de vanligaste misstagen vid beräkning av varians?

Det första är att använda n i stället för (n − 1) för stickprovsvarians — det underskattar något den verkliga spridningen, särskilt för små stickprov. Det andra är att försöka beräkna variansen direkt från datalistan när man bara har sammanfattningsstatistik; den här räknaren kräver summan av kvadratavvikelser, som beräknas genom att först hitta medelvärdet, subtrahera det från varje värde, kvadrera och summera. Det tredje är att blanda ihop varians med standardavvikelse: variansen är i kvadrerade enheter (m² för meter), standardavvikelsen i ursprungliga enheter (m). Det fjärde är att beräkna kvadratsumman med xᵢ² i stället för (xᵢ − x̄)² — råkvadratsummeformeln är Σxᵢ² − (Σxᵢ)²/n, men att stoppa in Σxᵢ² direkt i en (n−1)-divisor ger ett kraftigt felaktigt svar. Det femte är att behandla variansen som om den vore meningsfull vid mycket litet n (n = 2 eller 3); variansestimat är mycket instabila för mycket små stickprov och kräver konfidensintervall för att vara ärliga.

Q: När bör jag inte använda den här räknaren?

Hoppa över den om du bara har rådata och inte summan av kvadratavvikelser — använd en medelvärdes- och standardavvikelseräknare som hanterar avvikelseberäkningen åt dig, eller klistra in data i ett kalkylblads VAR.S / VAR.P. Undvik den för kraftigt skeva eller tungsvansade data där kvadratavvikelserna domineras av extremvärden; rapportera medianabsolutavvikelse (MAD), interkvartilsavstånd eller robusta spridningsmått i stället. Den är fel verktyg för kategoriska data där begreppet varians inte är tillämpligt. Använd den inte för tidsserier med autokorrelation, där den grundläggande variansformeln underskattar den verkliga spridningen eftersom på varandra följande observationer inte är oberoende. Och för mycket små stickprov (n ≤ 3) är variansestimatet så opålitligt att det bär lite information; samla mer data innan du försöker sammanfatta spridningen.

Question 1

Vad är skillnaden mellan stickprovsvarians och populationsvarians?

Accepted Answer

Populationsvariansen σ² beskriver spridningen i en hel population — om du har mätningar för samtliga medlemmar dividerar du med N. Stickprovsvariansen s² beskriver spridningen i ett delmaterial draget från en större population — dividera med (n − 1) för att kompensera för att stickprovsmedelvärdet används i stället för det okända populationsmedelvärdet. Nämnaren n − 1 (Bessels korrektion) gör stickprovsvariansen till en väntevärdesriktig skattning av populationsvariansen; att använda n i stället skulle systematiskt underskatta den verkliga spridningen. För små stickprov (n < 30) spelar skillnaden roll; för stora stickprov är den försumbar. I praktiken är nästan all verklig data ett stickprov från en större population (du mäter 100 kunder, inte hela kundbasen), så stickprovsformeln är rätt standardval om du inte verkligen har tillgång till hela populationen.

Question 2

Varför är variansen alltid icke-negativ?

Accepted Answer

Eftersom avvikelserna kvadreras innan summering är varje term i täljaren ≥ 0, vilket innebär att summan (och därmed variansen) inte kan bli negativ. Variansen är exakt noll enbart i det degenererade fallet då alla observationer är identiska — ingen spridning, ingen variabilitet. Denna icke-negativitetsegenskap är matematiskt bekväm och gör det möjligt att aggregera och dekomponera varians rent i ANOVA och regression: total varians = förklarad varians + residualvarians, med alla tre storheterna icke-negativa. Kvadreringen har också en nackdel: variansen har enheten av data i kvadrat (kg² för vikter, $² för dollar), vilket är svårt att tolka direkt. Det är därför standardavvikelsen — roten ur variansen — oftare rapporteras, eftersom den har samma enhet som ursprungsdata.

Question 3

Varför använder variansen kvadratavvikelser i stället för absolutavvikelser?

Accepted Answer

Kvadrering har flera matematiska fördelar jämfört med att ta absolutvärden. För det första är kvadratavvikelserna deriverbara överallt, vilket underlättar optimering (medelvärdet minimerar summan av kvadratavvikelser exakt, medan medianen minimerar summan av absolutavvikelser). För det andra dekomponeras kvadratsummor naturligt i ortogonala komponenter i ANOVA och regression, vilket möjliggör eleganta analyser. För det tredje följer kvadratsummor ki-kvadratfördelningar under normalitet, vilket möjliggör F-test och konfidensintervall. Medelabsolutavvikelsen (MAD) är ett alternativ som är mer robust mot extremvärden och lättare att tolka, men saknar de rena matematiska egenskaper som gör variansen så central inom inferensstatistik. I modern robust statistik föredras MAD när extremvärden är ett bekymmer; inom klassisk parametrisk statistik dominerar variansen eftersom matematiken fungerar smidigt.

Question 4

Vilka är de vanligaste misstagen vid beräkning av varians?

Accepted Answer

Det första är att använda n i stället för (n − 1) för stickprovsvarians — det underskattar något den verkliga spridningen, särskilt för små stickprov. Det andra är att försöka beräkna variansen direkt från datalistan när man bara har sammanfattningsstatistik; den här räknaren kräver summan av kvadratavvikelser, som beräknas genom att först hitta medelvärdet, subtrahera det från varje värde, kvadrera och summera. Det tredje är att blanda ihop varians med standardavvikelse: variansen är i kvadrerade enheter (m² för meter), standardavvikelsen i ursprungliga enheter (m). Det fjärde är att beräkna kvadratsumman med xᵢ² i stället för (xᵢ − x̄)² — råkvadratsummeformeln är Σxᵢ² − (Σxᵢ)²/n, men att stoppa in Σxᵢ² direkt i en (n−1)-divisor ger ett kraftigt felaktigt svar. Det femte är att behandla variansen som om den vore meningsfull vid mycket litet n (n = 2 eller 3); variansestimat är mycket instabila för mycket små stickprov och kräver konfidensintervall för att vara ärliga.

Question 5

När bör jag inte använda den här räknaren?

Accepted Answer

Hoppa över den om du bara har rådata och inte summan av kvadratavvikelser — använd en medelvärdes- och standardavvikelseräknare som hanterar avvikelseberäkningen åt dig, eller klistra in data i ett kalkylblads VAR.S / VAR.P. Undvik den för kraftigt skeva eller tungsvansade data där kvadratavvikelserna domineras av extremvärden; rapportera medianabsolutavvikelse (MAD), interkvartilsavstånd eller robusta spridningsmått i stället. Den är fel verktyg för kategoriska data där begreppet varians inte är tillämpligt. Använd den inte för tidsserier med autokorrelation, där den grundläggande variansformeln underskattar den verkliga spridningen eftersom på varandra följande observationer inte är oberoende. Och för mycket små stickprov (n ≤ 3) är variansestimatet så opålitligt att det bär lite information; samla mer data innan du försöker sammanfatta spridningen.

Variansräknare

Jämför med liknande

Om denna räknare

Hur du använder den

Vanliga frågor

Vad är skillnaden mellan stickprovsvarians och populationsvarians?

Varför är variansen alltid icke-negativ?

Varför använder variansen kvadratavvikelser i stället för absolutavvikelser?

Vilka är de vanligaste misstagen vid beräkning av varians?

När bör jag inte använda den här räknaren?

Källor och referenser