• No results found

4.3 Metode

4.3.1 Lineær regresjon

Vanlig lineær regresjonsanalyse benyttes når den avhengige variabelen er kvantitativ, slik som min karaktervariabel. Man kan finne ut hvor mye den avhengige variabelen øker eller avtar når uavhengige variabler endres med en enhet.

Lineær regresjon uttrykkes med følgende formel:

𝑌𝑖 = 𝑏0+ 𝑏1∗ 𝑋𝑖 + ԑ𝑖

Denne formelen frembringer en rett linje i grafisk fremstilling, og derfor kalles regresjonen lineær. Y utgjør den avhengige variabelen, b0 er konstantleddet som gir den gjennomsnittlige Y-verdien blant de i utvalget som har verdien 0 på den uavhengige variabelen. b1 er en regresjonskoeffisient for den uavhengige variabelen Xi, som gir informasjon om hvor mye Y endrer seg når X øker med en enhet. Restleddet er oppgitt som ԑ𝑖 og utgjør alle faktorer som påvirker Y som ikke fanges opp av modellen. Både b0 og b1 er konstanter som gjelder hele utvalget, mens X og Y varierer mellom observasjonsenhetene (Skog 2004:215-218).

48

Denne modellen er bivariat, den forklarer sammenhengen mellom to variabler. Som regel er ikke en slik enkel sammenheng mellom bare to variabler nok til å forklare særlig mye av variasjonen i Y. Dette fører oss over til modell 2:

𝑌 = 𝑏0+ 𝑏1∗ 𝑋1+ 𝑏2∗ 𝑋2+ . . . + 𝑏𝑘∗ 𝑋𝑘+ ԑ

Denne formelen utrykker en multivariat regresjonsanalyse. Hensikten med en slik modell kan være å forsøke å komme frem til en tilnærmet fullstendig forklaring av variasjonen i den avhengige variabelen, eller å kontrollere for bakenforliggende faktorer som kan konfundere effekten av én uavhengig variabel på den avhengige. Ved å trekke inn flere kontrollvariabler, kan vi kontrollere for andre faktorer som kan ha innvirkning på sammenhengen mellom en X og Y. Konstantleddet gir den gjennomsnittlige Y-verdien blant de i utvalget som har verdien 0 på alle de uavhengige variablene. b1 måler nå hvor mye Y øker eller avtar dersom variabelen X1 øker med en enhet, og de andre uavhengige variablene forblir uendret. Restleddet er fortsatt et mål på effekten av alle uobserverte årsaksfaktorer.

Noen ganger er det slik at effekten av X1 på Y er avhengig av verdien på X2. Da foreligger det samspill. Det er flere måter å håndtere dette på, én av dem er å gjøre separate analyser for de ulike verdiene på den ene uavhengige variabelen. Denne tilnærmingen vil bli benyttet i noen tilfeller, blant annet vil jeg gjøre separate analyser for kjønn, og etter hvert også elevgrupper.

Noen ganger er det ikke nødvendig, eller hensiktsmessig å gjøre separate analyser. I slike tilfeller kan man benytter et produktledd mellom de to variablene som samspillet foreligger mellom. Formelen med samspillsledd vises nedenfor i modell 3:

𝑌 = 𝑏0+ 𝑏1∗ 𝑋1+ 𝑏2∗ 𝑋2+ 𝑏3 ∗ 𝑋1∗ 𝑋2+ ԑ

I denne formelen er b3 et mål på differansen mellom effekten av X1 på Y avhengig av X2. Hvis b3 er null foreligger det ikke samspill.

Som sagt er den grafiske fremstillingen av lineær regresjon en rett linje. Hensikten med linjen er å beskrive hovedtendensen i dataene. Måten denne linjen estimeres på gjøres ved å benytte minste kvadratsums metode (OLS). Denne metoden gir oss et mål på hvor godt

regresjonslinjen passer til dataene ved å velge den linjen som gir så liten sum av kvadrerte avvik som mulig (Skog 2004:222).

49 I noen tilfeller er det nærliggende å benytte en lineær modell på en dikotom avhengig

variabel. Dette kalles linear probability-model. I slike modeller vil sannsynligheten (andelen) for å ha en egenskap øke eller avta lineært når den uavhengige variabelen øker (Skog

2004:390). I mitt tilfelle er den dikotome avhengige variabelen kodet 0 og 1, og utfallet jeg er interessert i er hvor mange (andel) som fullfører videregående skole (kodet 1). Tolkningen av konstantleddet blir gjennomsnittsandelen som har verdien 1 på variabelen ved kontroll for de uavhengige variablene. Jeg ser på sannsynligheten for å ha fullført etter ulike verdier på kontrollvariabler og gruppetilhørighet. Jeg beregner altså forventet fullføringsgrad.

All variasjon av en avhengig variabel (Y) skal i lineær regresjonsanalyse forklares av en eller flere uavhengige variabler (X) og restleddet (ԑ). R2 er et mål på hvor stor andel av variasjonen i Y som forklares av den eller de uavhengige variablene, samt motsatt, hvor mye som forblir uforklart. Dette er et veldig nyttig redskap for å få en idé om hvilke uavhengige variabler som har en substansiell effekt, og hvor viktig effekten er. R2 oppgis direkte i Stata ved utføring av regresjoner, derfor vil jeg ikke gå nærmere inn på utregningen her. Jeg vil oppgi både et mål på R2 og justert R2, da førstnevnte ofte tenderer til å oppgi for høye verdier, spesielt når utvalget består av få observasjoner.

I regresjonsanalyse er hensikten ofte å teste hypoteser om en sammenheng mellom en avhengig variabel Y og en eller flere uavhengige variabler X. I forrige kapittel utledet jeg flere hypoteser som jeg vil søke å få bekreftet. Selv om jeg ikke skriver de eksplisitt har alle mine hypoteser en komplementær nullhypotese: det er ingen sammenheng mellom X og Y.

Hvis man forkaster nullhypotese, men den er korrekt er dette en type 1-feil. Å beholde

nullhypotese som er feil er en type 2-feil. Hvis man forkaster feil hypotese har man problemer med konklusjonsvaliditet. Sjansen for å forkaste en korrekt nullhypotese er avhengig av signifikansnivå. I de tilfellene jeg har et stort utvalg vil sannsynligvis ikke type 1-feil være et problem. I analysene der jeg har få observasjoner vil jeg operere med signifikansnivå helt nede på p<0,10. Dette innebærer at det er 90% sjanse for å ikke begå en type 1-feil.

Begrunnelsen for dette signifikansnivået er at jeg har et ønske om å også få frem sammenhenger som det er noe større usikkerhet til. Jeg har informasjon om alle i

populasjonen, selv om noen underutvalg er små. Koeffisientenes signifikansnivå er oppgitt i alle analysetabeller, og regnes automatisk ut av statistikkprogrammet. Generaliserbarheten er dermed stor, spesielt der utvalgsstørrelsen er høy, noe som sikrer ekstern validitet. At jeg beskriver alle er en stor fordel, særlig med små utvalgsstørrelser.

50