Linjär regressionsanalys
Anpassa en minsta-kvadrat linjär regression och avläs lutningen för den bäst anpassade linjen y = a + b·x med hjälp av sammanfattande statistik (n, Σx, Σy, Σxy, Σx²) från parade x- och y-data. Används för trendanalys, prognoser och för att kvantifiera hur mycket y förändras per enhet förändring i x.
Last updated: May 2026
Jämför med liknande
Om denna räknare
Minsta-kvadratslutningen är b = (n·Σxy − Σx·Σy) / (n·Σx² − (Σx)²), där n är antalet parade (x, y)-observationer, Σxy är summan av produkterna, Σx är summan av x-värdena, Σy är summan av y-värdena och Σx² är summan av kvadrerade x-värden. Skärningspunkten (beräknad separat) är a = (Σy − b·Σx) / n, vilket ger den fullständiga linjen y = a + b·x. Denna lutning minimerar summan av kvadrerade vertikala residualer – det kvadrerade avståndet från varje observerat y till den anpassade linjen. Täljaren (n·Σxy − Σx·Σy) är proportionell mot kovariansen mellan x och y; nämnaren (n·Σx² − (Σx)²) är proportionell mot variansen hos x. Variabler: b är lutningen (stigning per enhet längs x-axeln, positiv när y ökar med x); a är skärningspunkten (skattat y-värde när x = 0). Gränsfall: om alla x-värden är identiska (ingen variation i x) är nämnaren noll och lutningen är odefinierad – det går inte att skatta hur y förändras med x när x inte varierar. Minsta-kvadratslutningen är mycket känslig för extremvärden eftersom residualerna kvadreras; en enda extrem datapunkt kan förskjuta linjen avsevärt. Modellen förutsätter ett linjärt samband; krökning i datan ger snedvridna lutningsskattningar och stora residualer. Kontrollera alltid residualerna (observerat minus skattat) för mönster, och kombinera lutningen med r² (determinationskoefficienten) för att bedöma anpassningens kvalitet.
Hur du använder den
Exempel 1 – Studietimmar vs. provresultat. n = 5 par: (1,50), (2,60), (3,70), (4,80), (5,90). Σx = 1+2+3+4+5 = 15. Σy = 50+60+70+80+90 = 350. Σxy = 1·50 + 2·60 + 3·70 + 4·80 + 5·90 = 50+120+210+320+450 = 1150. Σx² = 1+4+9+16+25 = 55. b = (5·1150 − 15·350) / (5·55 − 15²) = (5750 − 5250) / (275 − 225) = 500/50 = 10. ✓ Varje extra studietimme ger 10 poäng mer på provet i detta dataset. Beräkna skärningspunkten separat: a = (350 − 10·15)/5 = 200/5 = 40. Fullständig linje: poäng = 40 + 10·timmar. Exempel 2 – Bostadsyta vs. huspriser. n = 4 bostäder: (1200, 250), (1500, 290), (1800, 340), (2100, 410), med pris i $1000-tals. Σx = 6600. Σy = 1290. Σxy = 1200·250 + 1500·290 + 1800·340 + 2100·410 = 300,000 + 435,000 + 612,000 + 861,000 = 2,208,000. Σx² = 1,440,000 + 2,250,000 + 3,240,000 + 4,410,000 = 11,340,000. b = (4·2,208,000 − 6600·1290) / (4·11,340,000 − 6600²) = (8,832,000 − 8,514,000) / (45,360,000 − 43,560,000) = 318,000/1,800,000 ≈ 0,1767. ✓ Varje extra kvadratfot tillför ungefär $177 till husets pris i detta dataset. (a = (1290 − 0,1767·6600)/4 ≈ 31,0 tusen, så pris ≈ 31 + 0,177·sqft.)
Vanliga frågor
Vad beräknar egentligen linjär regression?
Linjär regression hittar den unika räta linjen y = a + b·x som minimerar summan av kvadrerade vertikala avstånd från de observerade punkterna till linjen. Lutningen b representerar den genomsnittliga förändringen i y per en enhets ökning av x; skärningspunkten a representerar det skattade y-värdet när x = 0 (ofta utanför dataområdet, i vilket fall den saknar en direkt fysikalisk tolkning). Minsta-kvadratsproceduren ger väntevärdesriktiga och minimumvarianta skattningar av lutning och skärningspunkt under standardantagandena (linjäritet, oberoende fel, konstant varians, normalitet). Linjär regression ger även r² (andelen av variansen i y som förklaras av x), konfidensintervall för lutning och skärningspunkt, samt prediktionsintervall för enskilda framtida observationer. Det är grundstenen i all parametrisk statistisk modellering – multipel regression, ANOVA, ANCOVA, mixade modeller och de flesta maskininlärningsmetoder för regression bygger vidare på detta ramverk.
Hur tolkar jag lutning och skärningspunkt i praktiken?
Lutningen har enheten (y per enhet av x): lön per erfarenhetsår ($/år), pris per kvadratfot ($/ft²), provpoäng per studietimme (poäng/timme). Den anger den marginella takt med vilken y är associerat med x – inte en deterministisk prediktion utan ett genomsnittligt mönster. Skärningspunkten har enheten y och representerar det skattade y-värdet när x = 0. Skärningspunkten är meningsfull att tolka endast när x = 0 är rimligt för dina data: om du anpassar vikt mot längd hos vuxna (där längd = 0 är meningslöst) är skärningspunkten bara en matematisk artefakt. Ibland centrerar forskare x kring sitt medelvärde (använder x − x̄ i stället för x), vilket gör att skärningspunkten representerar det skattade y-värdet vid genomsnittligt x – ofta mer meningsfullt. Lutningens tolkning förändras inte när x centreras eller skalas, men enheterna gör det.
Vad är r² och hur hänger det ihop med regressionslutningen?
r² (determinationskoefficienten) är andelen av variansen i y som förklaras av x: r² = SSR/SST = 1 − SSE/SST, där SSR är kvadratsumman förklarad av regressionen, SSE är summan av kvadrerade residualer och SST är den totala kvadratsumman för y. r² varierar från 0 (modellen förklarar ingenting – lutningen är i princip 0) till 1 (modellen förklarar all varians – varje punkt ligger exakt på linjen). För enkel linjär regression är r² lika med kvadraten på Pearsons korrelationskoefficient r. Lutningen b och r² hänger samman men är distinkta: en brant lutning med stor spridning kan ge hög lutning och lågt r²; en liten lutning med tät punktsamling kan ge låg lutning och högt r². Att rapportera bara det ena är missvisande – lutningen är förändringshastigheten, r² är hur pålitligt linjen predikterar. Rapportera alltid båda, tillsammans med ett spridningsdiagram.
Vilka är de vanligaste misstagen med linjär regression?
Det första är att tolka lutningen som kausalitet; en stark lutning visar bara korrelation, och många störfaktorer kan ge upphov till skenbart linjära samband. Det andra är att extrapolera utanför det observerade x-intervallet; en modell anpassad för x ∈ [1, 5] kan vara helt fel vid x = 100. Det tredje är att anpassa linjära modeller till icke-linjära data; visuell granskning av residualerna avslöjar krökning som modellen missar, och r² ensamt räcker inte för att upptäcka detta. Det fjärde är att ignorera extremvärden, som dramatiskt kan förändra både lutning och skärningspunkt. Det femte är att använda regression på autokorrelerade tidsseriedata utan att korrigera för tidsberoende; klassisk inferens förutsätter oberoende fel. Det sjätte är att rapportera bara lutningen utan standardfel, konfidensintervall eller hypotesprövning av om lutningen signifikant skiljer sig från noll. Det sjunde är att anpassa modeller till sammanfattande statistik som döljer gruppstruktur – Simpsons paradox kan vända lutningens tecken när mönster inom grupper skiljer sig från det sammantagna mönstret.
När bör jag inte använda den här kalkylatorn?
Använd den inte för icke-linjära samband – prova polynomregression, log-transformationer eller icke-linjära modeller (exponentiella, logistiska). Undvik den för små stickprov (n < 5) där lutningsskattningen är mycket instabil och inferensen opålitlig. Det är fel verktyg när vanliga minsta-kvadratsantaganden är brutna: heteroskedastiska fel (variansen beror på x), autokorrelerade fel (tidsserier) eller icke-normala fel med tunga svansar – dessa kräver viktad minsta-kvadrat, ARIMA eller robust regression. Använd den inte för kategoriska prediktorer utan att koda dem korrekt som dummyvariabler. Undvik den för högdimensionell regression (många prediktorer), som kräver multipel regression med eventuell regularisering (ridge, lasso, elastic net). Och för prediktioner utanför det observerade x-intervallet bör resultaten behandlas med stor försiktighet – linjär extrapolation kan vara kraftigt felaktig långt från datan, särskilt när det sanna sambandet är krökt eller plattar ut.