Korrelationskoefficient-kalkylator
Beräkna Pearsons korrelationskoefficient (r) mellan två variabler utifrån parade sammanfattande statistik — n, Σxy, Σx, Σy — för att mäta hur starkt de rör sig linjärt tillsammans. Värdet sträcker sig från −1 (perfekt negativ linjärt samband) via 0 (inget linjärt samband) till +1 (perfekt positivt linjärt samband).
Last updated: May 2026
Jämför med liknande
Om denna räknare
Pearsons r kvantifierar styrkan och riktningen hos det linjära sambandet mellan två parade variabler X och Y. Den beräkningsformel som används här är: r = [ n·Σxy − Σx·Σy ] / √[ (n·Σx² − (Σx)²) · (n·Σy² − (Σy)²) ], där n är antalet (x, y)-par, Σxy är summan av varje x·y-produkt, Σx och Σy är de enkla summorna, och Σx² och Σy² är summorna av kvadrerade värden. Algebraiskt är detta ekvivalent med r = Cov(X, Y) / (σx · σy) — kovariansen skalad med produkten av de två standardavvikelserna — men beräkningsformen låter dig härleda r direkt från löpande summor utan att behöva beräkna avvikelser från medelvärdena. r är dimensionslös och begränsad till intervallet −1 till +1 av Cauchy-Schwarz olikhet. Viktigt att notera vid tolkning: r mäter enbart styrkan hos det linjära sambandet. Två variabler kan ha r = 0 och ändå ha ett starkt icke-linjärt samband (t.ex. har y = x² över ett symmetriskt intervall kring 0 r = 0). r säger heller ingenting om kausalitet — confoundingvariabler, omvänd kausalitet och slumpmässiga samband ger alla upphov till korrelationer skilda från noll. r² (determinationskoefficienten) är ofta mer användbar än r i sig: den anger andelen av variansen i Y som förklaras av linjär regression på X, så r = 0,8 innebär r² = 0,64, dvs. att 64% av variationen i Y är "förklarad" av X. Gränsfall: r är odefinierat om någon av variablerna har noll varians (alla x- eller y-värden identiska — nämnaren blir 0). r är också mycket känsligt för extremvärden, och en enstaka extrem observation kan förändra det drastiskt. r är inte invariant mot icke-linjära monotona transformationer, så inspektera alltid spridningsdiagrammet innan du rapporterar resultatet.
Hur du använder den
Exempel 1 — Tre datapar. Data: (1, 2), (2, 4), (3, 5). Beräkna n = 3, Σx = 1 + 2 + 3 = 6, Σy = 2 + 4 + 5 = 11, Σxy = 1·2 + 2·4 + 3·5 = 25. Observera att kalkylatorn behandlar Σx och Σy som täljarposter — ange 3, 25, 6, 11. Manuellt: r = (3·25 − 6·11) / √[(3·14 − 36)·(3·45 − 121)] = (75 − 66) / √[6·14] = 9 / √84 ≈ 0,982. ✓ r ≈ 0,98 innebär ett nästan perfekt positivt linjärt samband — bekräftat av att de tre punkterna nästan faller på en rät linje i ett diagram. Exempel 2 — Negativt samband. TV-timmar per dag och självrapporterade minuters motion per dag för 5 personer: TV = {1, 2, 3, 4, 5}, Motion = {60, 50, 40, 30, 20}. Σx = 15, Σy = 200, Σxy = 1·60 + 2·50 + 3·40 + 4·30 + 5·20 = 60 + 100 + 120 + 120 + 100 = 500. Σx² = 55, Σy² = 9000. r = (5·500 − 15·200) / √[(5·55 − 225)·(5·9000 − 40000)] = (2500 − 3000) / √[50·5000] = −500 / √250000 = −500 / 500 = −1. ✓ r = −1 återspeglar det perfekt linjära omvända sambandet. I verkliga data ser man aldrig exakt −1, bara värden som kommer nära.
Vanliga frågor
Hur stark behöver en korrelation vara för att "ha betydelse"?
Det finns ingen universell gräns — sammanhanget avgör. Grova tumregler: |r| > 0,7 kallas ofta starkt, 0,4–0,7 måttligt och under 0,4 svagt. Men dessa är fältberoende. Inom fysik eller teknik, där mätningar är precisa och det underliggande sambandet är deterministiskt, förväntar man sig |r| över 0,95 för ett "verkligt" samband — lägre värden bör väcka misstankar. Inom samhälls- och beteendevetenskap betraktas r-värden på 0,3–0,5 rutinmässigt som meningsfulla, eftersom fenomenen är noisiga. r² är ofta en mer praktisk statistik: r = 0,5 innebär r² = 0,25, vilket betyder att X bara förklarar en fjärdedel av variationen i Y — det mesta som sker med Y drivs av något annat. Ange alltid urvalsstorlek och helst ett konfidensintervall för r, eftersom små urval kan ge dramatiskt utseende korrelationer av ren slump.
Innebär korrelation kausalitet?
Nej, och det är den mest upprepade varningen i statistik — med goda skäl. Ett r skilt från noll berättar bara att två variabler rör sig linjärt tillsammans i ditt urval; det säger inte att den ena orsakar den andra. Det finns fyra vanliga alternativa förklaringar att ha i åtanke. (1) Omvänd kausalitet: kanske orsakar Y X, inte tvärtom. (2) Confounding: en tredje variabel Z driver både X och Y och skapar ett skenbart samband dem emellan. (3) Selektionsbias: urvalet överrepresenterar par där X och Y råkar samvariera. (4) Slump: med tillräckligt många variabler och tillräckligt små urval är en del korrelationer rent brus. Att fastslå kausalitet kräver kontrollerade experiment (slumpmässig tilldelning), naturliga experiment, instrumentvariabler eller rigorösa kausala metoder (DAG, propensity scores). Korrelation är ett användbart första spår, aldrig en slutsats.
När ska jag använda Pearson r vs Spearman ρ vs Kendall τ?
Använd Pearson r när båda variablerna är kontinuerliga, ungefär normalfördelade och sambandet verkligen är linjärt. Använd Spearmans rangkorrelation (ρ) när sambandet är monotont men inte linjärt (Y ökar konsekvent med X, men inte rätlinjigt), eller när dina data innehåller inflytelserika extremvärden — Spearman arbetar på ranker snarare än råvärden och är därmed robust. Använd Kendalls tau när urvalsstorleken är liten (n < 20), när det finns många lika rankvärden, eller när du vill ha ett mer konservativt associationsmått (Kendall ger typiskt lägre värden än Spearman på samma data). Alla tre mäter association; bara Pearson antar linjäritet. Visar spridningsdiagrammet en tydlig kurva underskattar Pearson det verkliga sambandets styrka — byt till Spearman eller anpassa en icke-linjär modell.
Vilka är de vanligaste misstagen vid beräkning och tolkning av korrelation?
Det första är att rapportera r utan att titta på spridningsdiagrammet — Anscombes kvartett visar på ett berömvärt sätt fyra dataset med identiska r ≈ 0,82 men helt olika mönster (ett linjärt, ett kurvigt, ett med ett enda extremvärde, ett där alla utom en punkt är identiska). Det andra är att blanda ihop r med r²: r = 0,4 låter som en del men r² = 0,16 innebär att X bara förklarar 16% av Y:s varians, vilket ofta är oanmärkningsvärt. Det tredje är att behandla r som kausal evidens — se ovan. Det fjärde är att missa extremvärdesdrivna korrelationer: en enstaka extrem punkt kan driva r från 0,0 till 0,6 utan något verkligt samband i resten av data, eller dölja ett starkt samband i merparten av data. Det femte är att beräkna r på stympade data (begränsat variationsområde för X) och dra slutsatsen att det inte finns något samband — begränsat variationsområde försvagar alltid r även om det underliggande sambandet är starkt.
När ska jag inte använda den här kalkylatorn?
Hoppa över den vid icke-linjära samband — Pearson r underskattar kraftigt styrkan hos böjda eller kvadratiska samband. Använd den inte för ordinal- eller rankdata; använd istället Spearman ρ eller Kendall τ. Det är fel verktyg när en av variablerna är kategorisk (använd punktbiseriell korrelation, phi eller Cramér's V beroende på situationen). Undvik den för tidsseriedata utan att först kontrollera för autokorrelation och trend — båda kan blåsa upp r utan något verkligt samband mellan variablerna. Använd den inte för mycket små urval (n < 5); konfidensintervallen för r är extremt breda där och r-värden från små urval är i princip brus. Rapportera aldrig en enskild korrelationskoefficient som bevis för ett samband utan att även visa spridningsdiagrammet, urvalsstorleken och helst ett konfidensintervall eller p-värde.