Q: Vilka är de vanligaste misstagen vid t-test?

Det första är att använda stickprovets standardavvikelse utan Bessels korrektion (dividering med n istället för n − 1), vilket något underskattar spridningen och blåser upp t. Det andra är att använda t-testet på kraftigt snedfördelad data utan att kontrollera normalitetsantagandet; för starkt icke-normalfördelad data med små stickprov är Wilcoxons test mer tillförlitligt. Det tredje är att tolka ett icke-signifikant resultat som bevis för att medelvärdena är lika; statistisk icke-signifikans är avsaknad av bevis för en skillnad, inte bevis för avsaknad av skillnad. Det fjärde är att använda ettstegs t-test på data som borde vara parade (före/efter, tvillingspar, upprepade mätningar); parade data kräver ett parat t-test. Det femte är att rapportera p utan effektstorlek eller konfidensintervall; t-statistika och p döljer storleken på skillnaden. Det sjätte är att använda ett ensidigt test i efterhand efter att ha sett riktningen på data — en klassisk form av p-hacking. Det sjunde är att blanda ihop statistisk signifikans med praktisk betydelse; med mycket stora stickprov blir även små skillnader statistiskt signifikanta.

Q: När ska jag inte använda den här kalkylatorn?

Hoppa över den för tvågruppsjämförelser (oberoende stickprov) — använd ett oberoende t-test eller Welchs t-test istället. Undvik den för parade data (samma individer mätta två gånger) — använd ett parat t-test på differenserna, som har andra formler och högre statistisk styrka än att behandla data som oberoende. Det är fel verktyg för icke-parametriska jämförelser av kraftigt snedfördelad data eller ordinaldata — använd Wilcoxons rangräkningstest eller teckentestet istället. Använd den inte när n = 1 (ingen standardavvikelse kan beräknas) eller när normalitetsantagandet är grovt brutet och n är litet. Hoppa över den för jämförelser av flera grupper (använd ANOVA), kategoriska utfall (använd chi-två-test) eller proportioner (använd proportionstest eller binomialtest). Slutligen, för industriell kvalitetskontroll med etablerade kontrolldiagram integrerar Shewhart- och CUSUM-diagram t-testets logik med sekventiella beslutsregler som tar hänsyn till upprepad testning — ett enstaka t-test är inte rätt ramverk där.

Question 1

När ska jag använda ett t-test istället för ett z-test?

Accepted Answer

Använd t-testet när populationens standardavvikelse σ är okänd och du skattar den från stickprovet (s); använd z-testet när σ är genuint känd (sällsynt i praktiken) eller när stickprovsstorleken är mycket stor (n ≥ 30+) så att s ≈ σ. T-fördelningen har tyngre svansar än normalfördelningen för att kompensera för den extra osäkerheten i skattningen av σ. För små stickprov spelar skillnaden roll: vid n = 5 (df = 4) ger en t-statistika på 2,0 p ≈ 0,116 (tvåsidigt), medan motsvarande z ger p ≈ 0,046 — kvalitativt olika slutsatser. När n ökar närmar sig t-fördelningen normalfördelningen: vid n = 30 sammanfaller de nästan, och vid n = 100 är skillnaden försumbar. I modern praxis rekommenderas att alltid använda t-testet, även vid stora stickprov — det är konservativt och undviker behovet av att verifiera om σ verkligen är känd.

Question 2

Vad är skillnaden mellan ensidiga och tvåsidiga t-test?

Accepted Answer

Ett tvåsidigt test frågar om stickprovsmedelvärdet skiljer sig från μ₀ i någon riktning; ett ensidigt test frågar om det skiljer sig i en specifik riktning. Det tvåsidiga testet förkastar H₀ när |t| överstiger ett kritiskt värde, medan det ensidiga enbart förkastar när t är extremt i den förangivna riktningen. Det ensidiga testet har högre statistisk styrka i den riktningen (halverar i praktiken p-värdet) men kan inte detektera avvikelser i motsatt riktning. Använd ensidigt test ENDAST när en riktningshypotes formulerades innan data samlades in, OCH när ett utfall i motsatt riktning inte är av intresse eller ändå räknas som 'ingen effekt'. Att välja riktning efter att ha sett data är en form av p-hacking och fördubblar den verkliga sannolikheten för typ I-fel. Vid osäkerhet, använd tvåsidigt test — det är det konservativa standardvalet och vad de flesta tidskrifter förväntar sig.

Question 3

Vilka antaganden gäller för ettstegs t-testet?

Accepted Answer

Fyra antaganden: (1) slumpmässigt urval från populationen av intresse — snedvridna urval ogiltigförklarar alla slutledningar; (2) oberoende observationer — varje datapunkt bidrar oberoende till medelvärdet; (3) approximativ normalfördelning i den underliggande fördelningen, ELLER ett tillräckligt stort stickprov (n ≥ 30) för att centrala gränsvärdessatsen ska göra stickprovsmedelvärdet approximativt normalfördelat oavsett datans fördelning; (4) populationens standardavvikelse är okänd (annars, använd z-test). Brott mot normalitetsantagandet spelar större roll för små stickprov; med n < 15, använd ett normalkvantil-diagram för kontroll, och om data tydligt avviker från normalfördelningen, använd Wilcoxons rangräkningstest som ett robust alternativ. Kraftiga avvikande värden kan blåsa upp s och dra x̄, vilket snedvrider t; identifiera och undersök avvikande värden innan testet körs. Parade data (mätningar före/efter på samma individer) kräver ett parat t-test på differenserna, inte ett ettstegs t-test på varje grupp.

Question 4

Vilka är de vanligaste misstagen vid t-test?

Accepted Answer

Det första är att använda stickprovets standardavvikelse utan Bessels korrektion (dividering med n istället för n − 1), vilket något underskattar spridningen och blåser upp t. Det andra är att använda t-testet på kraftigt snedfördelad data utan att kontrollera normalitetsantagandet; för starkt icke-normalfördelad data med små stickprov är Wilcoxons test mer tillförlitligt. Det tredje är att tolka ett icke-signifikant resultat som bevis för att medelvärdena är lika; statistisk icke-signifikans är avsaknad av bevis för en skillnad, inte bevis för avsaknad av skillnad. Det fjärde är att använda ettstegs t-test på data som borde vara parade (före/efter, tvillingspar, upprepade mätningar); parade data kräver ett parat t-test. Det femte är att rapportera p utan effektstorlek eller konfidensintervall; t-statistika och p döljer storleken på skillnaden. Det sjätte är att använda ett ensidigt test i efterhand efter att ha sett riktningen på data — en klassisk form av p-hacking. Det sjunde är att blanda ihop statistisk signifikans med praktisk betydelse; med mycket stora stickprov blir även små skillnader statistiskt signifikanta.

Question 5

När ska jag inte använda den här kalkylatorn?

Accepted Answer

Hoppa över den för tvågruppsjämförelser (oberoende stickprov) — använd ett oberoende t-test eller Welchs t-test istället. Undvik den för parade data (samma individer mätta två gånger) — använd ett parat t-test på differenserna, som har andra formler och högre statistisk styrka än att behandla data som oberoende. Det är fel verktyg för icke-parametriska jämförelser av kraftigt snedfördelad data eller ordinaldata — använd Wilcoxons rangräkningstest eller teckentestet istället. Använd den inte när n = 1 (ingen standardavvikelse kan beräknas) eller när normalitetsantagandet är grovt brutet och n är litet. Hoppa över den för jämförelser av flera grupper (använd ANOVA), kategoriska utfall (använd chi-två-test) eller proportioner (använd proportionstest eller binomialtest). Slutligen, för industriell kvalitetskontroll med etablerade kontrolldiagram integrerar Shewhart- och CUSUM-diagram t-testets logik med sekventiella beslutsregler som tar hänsyn till upprepad testning — ett enstaka t-test är inte rätt ramverk där.

Ettstegs t-test-kalkylator

Jämför med liknande

Om denna räknare

Hur du använder den

Vanliga frågor

När ska jag använda ett t-test istället för ett z-test?

Vad är skillnaden mellan ensidiga och tvåsidiga t-test?

Vilka antaganden gäller för ettstegs t-testet?

Vilka är de vanligaste misstagen vid t-test?

När ska jag inte använda den här kalkylatorn?

Källor och referenser