P-värdesberäknare
Omvandla ett z-värde (eller annat standardnormalt testmått) till ett p-värde för ett ett- eller tvåsidigt hypotestest, och se det visualiserat som den skuggade svanssarean under standardnormalfördelningskurvan. Ju mindre p-värdet är, desto starkare är beviset mot nollhypotesen – förkasta H₀ när p understiger din signifikansnivå (vanligtvis 0,05).
Last updated: May 2026
Red shaded area is the rejection region — the probability mass in the tail(s) at least as extreme as your test statistic. A significant result means this red area is smaller than your significance level α.
Jämför med liknande
Om denna räknare
P-värdet besvarar en precis fråga som är lätt att missförstå: om nollhypotesen (H₀) är exakt sann, hur ofta skulle slumpmässigt urval ge ett testmått som är minst lika extremt som det du observerade? Formlerna för ett standardnormalt testmått z är: tvåsidigt p = 2·[1 − Φ(|z|)], högersidigt p = 1 − Φ(z), vänstersidigt p = Φ(z), där Φ är den standardnormala kumulativa fördelningsfunktionen. Den här kalkylatorn beräknar Φ via Abramowitz-Steguns rationella approximation av felfunktionen: Φ(z) = ½·[1 + erf(z/√2)]. Det röda skuggade området i klockurvan ovan är exakt den sannolikheten – visualiserad som svansen (eller de två svansarna) bortom ditt testmått. Signifikansnivå α är den långsiktiga andelen falska förkastningar du är beredd att tolerera, och beslutas innan data ses. Vanliga trösklar: α = 0,05 (1 falskt positivt av 20) är standard inom psykologi, utbildning och de flesta samhällsvetenskaper; α = 0,01 (1 av 100) är typiskt inom kliniska prövningar och farmakologi; α = 0,001 (1 av 1 000) används vid högrisk-inferens som genomövergripande associationsstudier, vanligtvis efter multipel testkorrigering; partikelfysik kräver famöst 5σ ≈ p < 3·10⁻⁷ för ett upptäcktspåstående. Gränsvärdet 0,05 är i sig en historisk konvention som tillskrivs R.A. Fisher på 1920-talet – det finns inget magiskt med det, och p = 0,049 kontra 0,051 är i praktiken identiska bevis. Beslutsregeln är enkel: förkasta H₀ om p < α, annars låt bli. Välj ett tvåsidigt test (standard) när avvikelser i båda riktningar från H₀ skulle vara av intresse – vilket nästan alltid är rätt val. Välj ensidigt test bara när en riktningshypotes föranmälts innan data setts; att bestämma riktning efter att ha tittat på data fördubblar din faktiska Typ I-felfrekvens och är ett läroboksexempel på p-hacking. Den här kalkylatorn förutsätter att testmåttet följer en standardnormalfördelning, vilket gäller när populationens standardavvikelse är känd eller stickprovet är stort (n ≥ 30 som tumregel). Vid små stickprov med skattad standardavvikelse bör du istället använda en t-fördelnings-p-värdesberäknare – t-fördelningens tyngre svansar ger ett större p för samma testmått, och att använda z här överskattar systematiskt signifikansen. Kantfall: mycket stora |z| (över ungefär 5) returnerar p ≈ 0 eftersom den rationella approximationen inte kan representera extremt små svanssannolikheter exakt – det verkliga värdet finns men är försvinnande litet (|z| = 5 ger p ≈ 5,7·10⁻⁷ tvåsidigt; |z| = 6 ger p ≈ 2·10⁻⁹). Ett z på exakt 0 ger p = 1 tvåsidigt och p = 0,5 ensidigt. P-värdet är INTE sannolikheten att H₀ är sann (det är ett Bayesianskt posteriori som kräver ett a priori), INTE sannolikheten att resultatet beror på slumpen, och INTE sannolikheten för replikering. Det är en betingad sannolikhet givet H₀ – en långsiktig felfrekvensgaranti för din beslutsregel, inget mer.
Hur du använder den
Exempel 1 — Tvåsidigt test med z = 2,10. Du körde ett z-test och fick z = 2,10 (t.ex. stickprovsmedelvärdet ligger 2,10 standardfel över det hypotetiserade medelvärdet). Ange Testmått = 2,10, Testtyp = tvåsidigt. Kalkylatorn beräknar Φ(2,10) ≈ 0,9821, så p = 2·(1 − 0,9821) = 2·0,0179 ≈ 0,0357. ✓ Eftersom p < 0,05 förkastar du H₀ på 5 %-signifikansnivån. Resultatet säger: om H₀ vore sann skulle du se ett testmått av denna extremitet (i endera riktning) ungefär 3,6 % av gångerna. Exempel 2 — Ensidigt test med z = −1,50. Du föranmälde ett vänstersidigt alternativ (t.ex. ny tillverkningsprocess har lägre felfrekvens än baslinjen). Ange Testmått = −1,50, Testtyp = vänstersidigt. Φ(−1,50) ≈ 0,0668. p ≈ 0,0668. ✓ Eftersom p > 0,05 förkastar du inte H₀ på 5 %-nivån – beviset är antydande (ca 6,7 % chans under H₀) men når inte den konventionella tröskeln. Notera: med ett tvåsidigt test på samma z ger p ≈ 0,1336, vilket är mer konservativt – det är kostnaden (eller ärligheten) med tvåsidigt testande.
Vanliga frågor
Vad innebär p = 0,05 egentligen (och vad innebär det inte)?
Den bokstavliga definitionen: om nollhypotesen (H₀) är exakt sann och du upprepade din studie många gånger, skulle resultat minst lika extrema som detta uppträda i 5 % av dessa upprepningar. Det är hela definitionen – punkt. P = 0,05 innebär INTE att det är 5 % chans att nollhypotesen är sann; det vore ett Bayesianskt posteriori som kräver ett a priori som den här beräkningen aldrig ser. Det innebär INTE 95 % chans att alternativet är sant, INTE 5 % chans att resultatet beror på slumpen, INTE 5 % chans att resultatet inte replikeras, och INTE ett mått på hur stort eller viktigt effekten är. P är en långsiktig felfrekvensgaranti för din beslutsregel, inte en sannolikhet om din specifika studie. Gränsvärdet 0,05 är också en historisk konvention från R.A. Fisher på 1920-talet – det finns inget magiskt med det, och en artikel av Benjamin m.fl. 2018 (68 medförfattare) argumenterade för att flytta standarden till 0,005 för att motverka replikeringskrisen.
Ska jag använda ett ett- eller tvåsidigt p-värde?
Använd ett tvåsidigt p-värde som standard – det testar om parametern skiljer sig från H₀ i endera riktning, vilket nästan alltid är den fråga du faktiskt vill besvara. Använd ett ensidigt p-värde bara när det finns en stark, föranmäld teoretisk anledning att testa i en enda riktning, och när ett resultat i motsatt riktning inte vore intressant (eller ändå skulle räknas som "ingen effekt"). Det ensidiga testet har större statistisk styrka för den valda riktningen (i praktiken halvt så stort p), men om du bestämmer riktningen efter att ha sett data har du fördubblat din faktiska Typ I-felfrekvens – ett läroboksexempel på p-hacking. De flesta tidskrifter kräver uttrycklig motivering för ensidiga test just för att de är lätta att missbruka. Tveka du, välj tvåsidigt; diagrammet ovan skuggar båda svansarna när du gör det, så att du direkt kan se det symmetriska förkastningsområdet.
Vad är skillnaden mellan ett p-värde och en effektstorlek?
Ett p-värde talar om hur starkt data argumenterar mot H₀ – specifikt hur osannolikt det observerade resultatet vore om H₀ vore sant. Det talar INTE om hur stor effekten är, bara att det finns en. Effektstorlek mäter effektens magnitud oberoende av stickprovsstorlek: Cohens d för medelvärdeskillnader, Pearsons r för korrelationer, oddskvot för andelar, η² för ANOVA. De två är kopplade via statistisk styrka: med ett enormt stickprov kan till och med en trivial effekt (Cohens d = 0,01) ge p < 0,001, medan en verklig och viktig effekt (d = 0,8) kanske inte når p < 0,05 med ett litet stickprov. American Statistical Associations uttalande om p-värden 2016 rekommenderar uttryckligen att rapportera effektstorlekar och konfidensintervall tillsammans med p, eftersom p ensamt inte säger något om praktisk signifikans. Konkret exempel: ett vaccin som minskar influensafall med 0,1 % hos 10 miljoner försökspersoner får ett försvinnande litet p men en kliniskt försumbar effekt; en behandling som fördubblar överlevnaden i en pilotgrupp om 30 personer kanske inte når p < 0,05 men motiverar ändå en mycket större studie. Para alltid p med effektstorlek.
Vilka är de vanligaste misstagen folk gör med p-värden?
Det första är att behandla p < 0,05 som bevis för en effekt och p > 0,05 som bevis för att ingen effekt finns – båda tolkningarna är fel; p-värden är kontinuerliga mått på bevis mot H₀, inte kategoriska sanningar, och "frånvaro av bevis är inte bevis för frånvaro". Det andra är p-hacking: att köra många tester, delgruppsanalyser eller transformationer och bara rapportera de signifikanta – 20 oberoende tester på α = 0,05 ger ungefär ett falskt positivt av ren slump. Det tredje är att förväxla statistisk signifikans med praktisk signifikans; på ett dataset med en miljon rader kan en försvinnande liten effekt ha p < 0,001 och ändå vara irrelevant. Det fjärde är att glömma multipel testkorrigering (Bonferroni, Benjamini-Hochberg FDR, eller föranmälan) när man kör många tester. Det femte är felrapportering: "p = 0,5" är inte detsamma som "p = 0,05" och tangentbordsfel är vanliga i publicerade artiklar. Rapportera slutligen aldrig bara "p < 0,05" – inkludera alltid det exakta p, effektstorleken och ett konfidensintervall så att läsarna kan bedöma både signifikans och magnitud.
När ska jag inte använda den här kalkylatorn?
Använd den inte för t-test med litet stickprov och okänd populationsstandardavvikelse – du behöver ett t-fördelnings-p-värde med rätt frihetsgrader (df = n − 1), inte ett z-baserat. T-fördelningen har tyngre svansar, så samma testmått ger ett större p; att använda den här kalkylatorn på ett t-värde underskattar systematiskt p (överskattar signifikansen) och ökar antalet falska positiva. Vid df = 5 ger ett t-värde på 2,0 p ≈ 0,102 tvåsidigt; samma tal som ett z ger p ≈ 0,046 – ett kvalitativt annorlunda slutsats. Använd den inte heller för chi-två-, F- eller andra icke-normala testmått; varje sådant har sin egen referensfördelning. Den är inte rätt verktyg för icke-parametriska test (Mann-Whitney, Wilcoxon, Kruskal-Wallis), exakta test (Fishers exakta test, binomial) eller permutations-/bootstrap-p-värden, som alla kräver dedikerade kalkylatorer eller programvara. Undvik att använda den som ensam beslutsport utan att ta hänsyn till effektstorlek, stickprovsstorlek och statistisk styrka. Och använd den inte för Bayesiansk inferens – sannolikheten att H₀ är sann givet data är ett posteriori, inte ett p-värde, och kräver ett a priori.