Q: Vilka är de vanligaste misstagen folk gör med p-värden?

Det första är att behandla p 0,05 som bevis för att ingen effekt finns – båda tolkningarna är fel; p-värden är kontinuerliga mått på bevis mot H₀, inte kategoriska sanningar, och "frånvaro av bevis är inte bevis för frånvaro". Det andra är p-hacking: att köra många tester, delgruppsanalyser eller transformationer och bara rapportera de signifikanta – 20 oberoende tester på α = 0,05 ger ungefär ett falskt positivt av ren slump. Det tredje är att förväxla statistisk signifikans med praktisk signifikans; på ett dataset med en miljon rader kan en försvinnande liten effekt ha p < 0,001 och ändå vara irrelevant. Det fjärde är att glömma multipel testkorrigering (Bonferroni, Benjamini-Hochberg FDR, eller föranmälan) när man kör många tester. Det femte är felrapportering: "p = 0,5" är inte detsamma som "p = 0,05" och tangentbordsfel är vanliga i publicerade artiklar. Rapportera slutligen aldrig bara "p < 0,05" – inkludera alltid det exakta p, effektstorleken och ett konfidensintervall så att läsarna kan bedöma både signifikans och magnitud.

Q: När ska jag inte använda den här kalkylatorn?

Använd den inte för t-test med litet stickprov och okänd populationsstandardavvikelse – du behöver ett t-fördelnings-p-värde med rätt frihetsgrader (df = n − 1), inte ett z-baserat. T-fördelningen har tyngre svansar, så samma testmått ger ett större p; att använda den här kalkylatorn på ett t-värde underskattar systematiskt p (överskattar signifikansen) och ökar antalet falska positiva. Vid df = 5 ger ett t-värde på 2,0 p ≈ 0,102 tvåsidigt; samma tal som ett z ger p ≈ 0,046 – ett kvalitativt annorlunda slutsats. Använd den inte heller för chi-två-, F- eller andra icke-normala testmått; varje sådant har sin egen referensfördelning. Den är inte rätt verktyg för icke-parametriska test (Mann-Whitney, Wilcoxon, Kruskal-Wallis), exakta test (Fishers exakta test, binomial) eller permutations-/bootstrap-p-värden, som alla kräver dedikerade kalkylatorer eller programvara. Undvik att använda den som ensam beslutsport utan att ta hänsyn till effektstorlek, stickprovsstorlek och statistisk styrka. Och använd den inte för Bayesiansk inferens – sannolikheten att H₀ är sann givet data är ett posteriori, inte ett p-värde, och kräver ett a priori.

Question 1

Vad innebär p = 0,05 egentligen (och vad innebär det inte)?

Accepted Answer

Den bokstavliga definitionen: om nollhypotesen (H₀) är exakt sann och du upprepade din studie många gånger, skulle resultat minst lika extrema som detta uppträda i 5 % av dessa upprepningar. Det är hela definitionen – punkt. P = 0,05 innebär INTE att det är 5 % chans att nollhypotesen är sann; det vore ett Bayesianskt posteriori som kräver ett a priori som den här beräkningen aldrig ser. Det innebär INTE 95 % chans att alternativet är sant, INTE 5 % chans att resultatet beror på slumpen, INTE 5 % chans att resultatet inte replikeras, och INTE ett mått på hur stort eller viktigt effekten är. P är en långsiktig felfrekvensgaranti för din beslutsregel, inte en sannolikhet om din specifika studie. Gränsvärdet 0,05 är också en historisk konvention från R.A. Fisher på 1920-talet – det finns inget magiskt med det, och en artikel av Benjamin m.fl. 2018 (68 medförfattare) argumenterade för att flytta standarden till 0,005 för att motverka replikeringskrisen.

Question 2

Ska jag använda ett ett- eller tvåsidigt p-värde?

Accepted Answer

Använd ett tvåsidigt p-värde som standard – det testar om parametern skiljer sig från H₀ i endera riktning, vilket nästan alltid är den fråga du faktiskt vill besvara. Använd ett ensidigt p-värde bara när det finns en stark, föranmäld teoretisk anledning att testa i en enda riktning, och när ett resultat i motsatt riktning inte vore intressant (eller ändå skulle räknas som "ingen effekt"). Det ensidiga testet har större statistisk styrka för den valda riktningen (i praktiken halvt så stort p), men om du bestämmer riktningen efter att ha sett data har du fördubblat din faktiska Typ I-felfrekvens – ett läroboksexempel på p-hacking. De flesta tidskrifter kräver uttrycklig motivering för ensidiga test just för att de är lätta att missbruka. Tveka du, välj tvåsidigt; diagrammet ovan skuggar båda svansarna när du gör det, så att du direkt kan se det symmetriska förkastningsområdet.

Question 3

Vad är skillnaden mellan ett p-värde och en effektstorlek?

Accepted Answer

Ett p-värde talar om hur starkt data argumenterar mot H₀ – specifikt hur osannolikt det observerade resultatet vore om H₀ vore sant. Det talar INTE om hur stor effekten är, bara att det finns en. Effektstorlek mäter effektens magnitud oberoende av stickprovsstorlek: Cohens d för medelvärdeskillnader, Pearsons r för korrelationer, oddskvot för andelar, η² för ANOVA. De två är kopplade via statistisk styrka: med ett enormt stickprov kan till och med en trivial effekt (Cohens d = 0,01) ge p < 0,001, medan en verklig och viktig effekt (d = 0,8) kanske inte når p < 0,05 med ett litet stickprov. American Statistical Associations uttalande om p-värden 2016 rekommenderar uttryckligen att rapportera effektstorlekar och konfidensintervall tillsammans med p, eftersom p ensamt inte säger något om praktisk signifikans. Konkret exempel: ett vaccin som minskar influensafall med 0,1 % hos 10 miljoner försökspersoner får ett försvinnande litet p men en kliniskt försumbar effekt; en behandling som fördubblar överlevnaden i en pilotgrupp om 30 personer kanske inte når p < 0,05 men motiverar ändå en mycket större studie. Para alltid p med effektstorlek.

Question 4

Vilka är de vanligaste misstagen folk gör med p-värden?

Accepted Answer

Det första är att behandla p < 0,05 som bevis för en effekt och p > 0,05 som bevis för att ingen effekt finns – båda tolkningarna är fel; p-värden är kontinuerliga mått på bevis mot H₀, inte kategoriska sanningar, och "frånvaro av bevis är inte bevis för frånvaro". Det andra är p-hacking: att köra många tester, delgruppsanalyser eller transformationer och bara rapportera de signifikanta – 20 oberoende tester på α = 0,05 ger ungefär ett falskt positivt av ren slump. Det tredje är att förväxla statistisk signifikans med praktisk signifikans; på ett dataset med en miljon rader kan en försvinnande liten effekt ha p < 0,001 och ändå vara irrelevant. Det fjärde är att glömma multipel testkorrigering (Bonferroni, Benjamini-Hochberg FDR, eller föranmälan) när man kör många tester. Det femte är felrapportering: "p = 0,5" är inte detsamma som "p = 0,05" och tangentbordsfel är vanliga i publicerade artiklar. Rapportera slutligen aldrig bara "p < 0,05" – inkludera alltid det exakta p, effektstorleken och ett konfidensintervall så att läsarna kan bedöma både signifikans och magnitud.

Question 5

När ska jag inte använda den här kalkylatorn?

Accepted Answer

Använd den inte för t-test med litet stickprov och okänd populationsstandardavvikelse – du behöver ett t-fördelnings-p-värde med rätt frihetsgrader (df = n − 1), inte ett z-baserat. T-fördelningen har tyngre svansar, så samma testmått ger ett större p; att använda den här kalkylatorn på ett t-värde underskattar systematiskt p (överskattar signifikansen) och ökar antalet falska positiva. Vid df = 5 ger ett t-värde på 2,0 p ≈ 0,102 tvåsidigt; samma tal som ett z ger p ≈ 0,046 – ett kvalitativt annorlunda slutsats. Använd den inte heller för chi-två-, F- eller andra icke-normala testmått; varje sådant har sin egen referensfördelning. Den är inte rätt verktyg för icke-parametriska test (Mann-Whitney, Wilcoxon, Kruskal-Wallis), exakta test (Fishers exakta test, binomial) eller permutations-/bootstrap-p-värden, som alla kräver dedikerade kalkylatorer eller programvara. Undvik att använda den som ensam beslutsport utan att ta hänsyn till effektstorlek, stickprovsstorlek och statistisk styrka. Och använd den inte för Bayesiansk inferens – sannolikheten att H₀ är sann givet data är ett posteriori, inte ett p-värde, och kräver ett a priori.

P-värdesberäknare

Jämför med liknande

Om denna räknare

Hur du använder den

Vanliga frågor

Vad innebär p = 0,05 egentligen (och vad innebär det inte)?

Ska jag använda ett ett- eller tvåsidigt p-värde?

Vad är skillnaden mellan ett p-värde och en effektstorlek?

Vilka är de vanligaste misstagen folk gör med p-värden?

När ska jag inte använda den här kalkylatorn?

Källor och referenser