• No results found

3. DATA OG METODE

3.4. A NALYSEMETODE

I første del av de empiriske analysene undersøkes det hvordan de ulike uavhengige variablene fordeler seg, sett i forhold til den avhengige variabelen. Dette gjøres blant annet ved hjelp av bivariate krysstabeller. Hensikten med denne analyseformen er å kunne sammenlikne hvordan grupper på en variabel fordeler seg på en annen variabel (Johannesen og Tufte 2002:176). For at det skal være hensiktsmessig å fremstille dataene i krysstabeller er man avhengig av at hver variabel har forholdsvis få verdier, hvis ikke kan det fort bli uoversiktlig og vanskelig å tolke resultatene (Hegna og Helland 1998:132). I krysstabellene vil den avhengige variabelen ha tre verdier, henholdsvis høye, lave og ubestemte utdanningsplaner. De uavhengige variablene har stort sett tre verdier, med unntak av klassebakgrunn og utdanningsnivå som har noen flere.

Når vi ser på sammenhengen mellom utdanningsplaner og landbakgrunn, vil den uavhengige variabelen ha elleve verdier, som er det antall land som er med i undersøkelsen.

I samtlige tabeller oppgis kjikvadratet, X2. Hensikten med kjikvadrattesten er å undersøke om sammenhengene man finner er statistisk signifikante (Bakken 2003:36). Jo strengere

signifikansnivå man velger desto mindre er sannsynligheten for at sammenhengen man finner er et resultat av tilfeldigheter (Skog 2004:177). Signifikansnivået uttrykkes gjennom

bokstaven p, og jo lavere denne er desto større er sannsynligheten for at man har klart å avdekke reelle forskjeller mellom ulike grupper (Johannesen og Tufte 2002:232).

3.4.2. Type I og type II feil

Når man tester hypoteser, er det to typer feil det er mulig å gjøre. Den ene er å forkaste en sann nullhypotese, en såkalt type 1 feil. Den andre er å beholde en gal nullhypotese, en såkalt type 2 feil. Hvorvidt man står i fare for å gjøre en type 1 feil avgjøres av signifikansnivået man velger, og man har derfor en viss grad av kontroll over denne type feil. Jo strengere signifikansnivå man velger, desto mindre er sannsynligheten for å gjøre feil av type 1. Ved å velge et strengt signifikansnivå øker imidlertid faren for å gjøre type 2 feil, det vil si å

beholde en gal nullhypotese. En annen faktor som påvirker sannsynligheten for å gjøre feil av type 2 er utvalgets størrelse. Jo større utvalg man har, desto større er sannsynligheten for at man klarer å avdekke sammenhenger eller gruppeforskjeller som faktisk eksisterer (Skog 2004:207).

I denne oppgaven er det valgt et signifikansnivå på 5 prosent. Det vil si at dersom vi får en p-verdi som er mindre enn 0,05 kan vi med 95 prosents sannsynlighet si at funnene våre ikke er et resultat av tilfeldigheter. Men selv om vi med sikkerhet kan si at vi har observert en

forskjell mellom to grupper, er ikke dette det samme som at resultatet vi har kommet frem til er av stor betydning. Årsaken til dette er at selv små forskjeller kan bli signifikante dersom utvalget er stort nok (Johannesen og Tufte 2002:234). Dersom man får ikke-signifikante resultater i små utvalg kan det dermed tenkes at disse resultatene i realiteten er av større betydning enn signifikante resultater for store utvalg.

Et sentralt begrep i forbindelse med feil av type 1 og type 2 er teststyrke. Mens høy teststyrke innebærer at det er stor sannsynlighet for å forkaste en feilaktig nullhypotese, innebærer lav teststyrke at det er stor sannsynlighet for å beholde en feilaktig nullhypotese. Hvorvidt man

ender opp med å forkaste eller beholde en nullhypotese vil være avhengig av to faktorer: For det første hvor stor forskjellen mellom de ulike gruppene faktisk er, og for det andre

utvalgsstørrelsen (Skog 2004: 207-208).

I første del av analysen er utvalget på 10.234 respondenter. Fordi utvalget her er forholdsvis stort vil et signifikant resultat mest sannsynlig innebære at vi har klart å avdekke faktiske forskjeller mellom de ulike gruppene, og vi vil dermed være i stand til å forkaste en feilaktig nullhypotese om at det ikke eksisterer forskjeller mellom gruppene. Teststyrken vil i dette tilfellet være høy. I andre og tredje del av analysen er imidlertid norsk ungdom tatt ut, og utvalget reduseres til 2.234 respondenter. De fleste minoritetsgruppene i utvalget består av mellom 100 og 200 respondenter, med unntak av pakistansk ungdom som består av 862 respondenter. Når det blir såpass få respondenter i hver gruppe, øker sannsynligheten for å få ikke-signifikante resultater. Vi risikerer dermed å beholde en gal nullhypotese om at det ikke eksisterer forskjeller mellom de ulike gruppene. I en slik situasjon kan teststyrken sies å være lav. Det er imidlertid viktig å huske på at det å ikke kunne påvise en signifikant forskjell ikke er det samme som at det ikke finnes noen forskjell.

3.4.3. Gjennomsnittsanalyse

For å vise hvordan de ulike gruppene skiller seg fra hverandre på en del av variablene som overfor er omtalt under verdiforklaringen vil det benyttes gjennomsnittsanalyse. Dette innebærer at verdiene for alle enhetene i en landgruppe summeres for så å deles på antall enheter (Tufte og Johannesen 2002:165). For å teste om forskjellene mellom gruppene er statistisk signifikante benyttes F-test. For å kunne benytte F-testen må først gjennomsnittet for alle gruppene beregnes under ett. Deretter sammenlignes de enkelte gruppegjennomsnittene med totalgjennomsnittet (Skog 2004:197). Dersom F-verdien er høyere enn kritisk verdi innebærer det at nullhypotesen om at det ikke eksisterer forskjeller mellom gruppene forkastes (ibid:203).

3.4.4. Gjennomsnittsskårer

En del av variablene er slått sammen til indekser, som består av mellom to og seks spørsmål.

Indeksene vil vise hvordan respondentene i en gruppe gjennomsnittlig skårer på de

spørsmålene som er inkludert i de ulike indeksene. Skåren vil variere innenfor verdiskalaen til de enkelte variablene. Dersom skalaen går fra 1 til 4 vil den gjennomsnittlige skåren ligge et sted innenfor dette intervallet.

Det er to hovedgrunner til at en del av variablene presenteres som gjennomsnittsskårer. For det første vil det å samle flere spørsmål i en indeks gi en mer oversiktlig fremstilling enn man får dersom alle spørsmålene presenteres hver for seg. I tillegg er de spørsmålene som

presenteres i indeksene typiske holdnings- eller atferdsspørsmål. Fordi holdninger ofte er komplekse, er dette spørsmål det kan være vanskelig å få et godt mål på ved hjelp av svar på kun ett spørsmål. Ved å vise gjennomsnittlig verdi på flere variabler antas det derfor at vi får et bedre mål på de ulike holdnings- og atferdsvariablene (Hegna og Helland 1998:133).

3.4.5. Logistisk regresjon

I andre del av de empiriske analysene undersøkes effekten av landbakgrunn i forhold til utdanningsplaner når det kontrolleres for de andre forklaringsvariablene. Utdanningsplaner kodes om til å ha to verdier, høye eller lave utdanningsplaner. Mens de som har planer om universitets- eller høgskoleutdanning på middels- eller høyt nivå får verdien høye

utdanningsplaner, får de som vil avslutte utdanningen på et lavere nivå enn dette, dvs. etter ungdomsskole eller videregående skole, verdien lave utdanningsplaner. Også de som ikke har bestemt seg får verdien lave utdanningsplaner. Grunnen til at vi gjør dette er at vi er

interessert i å sammenligne de som har høye utdanningsplaner med de som ikke har slike planer. Fordi den avhengige variabelen er kodet om til en dikotom variabel er ikke lenger forutsetningene i lineær regresjon til stede. For det første kan man ikke anta at

sammenhengen mellom variablene er lineær. For det andre er ikke restleddet normalfordelt, og det råder heller ikke homoskedastisitet (Skog 2004:354, 360). I og med at forutsetningene for å benytte seg av lineær regresjon ikke er tilstede brukes i stedet logistisk regresjon.

Det finnes flere ulike måter å tolke effekten av den uavhengige variabelen på i logistisk regresjon. Man kan tolke både logit, odds og sannsynligheter. I denne oppgaven vil det være logiten som blir tolket. Logiten har den fordelen at sammenhengen mellom variablene er lineær, slik at effekten av en bestemt endring i den avhengige variabelen blir den samme på alle nivåer. Ulempen er at den ikke har noen enkel og intuitiv tolkning (Skog 2004:358).

Den logistiske regresjonsanalysen vil være todelt. Først vil det gjøres en analyse der det kontrolleres for variabler som i kapittel 2 ble omtalt under ressursteori, det vil si

klassebakgrunn, foreldrenes utdanningsnivå og karakterer. Deretter vil det kontrolleres for variabler som i kapittel 2 ble omtalt under verditeori. Fordi sammenhengen mellom variablene er lineær ved tolkning av logiten er det mulig å avgjøre hvor mye de ulike

bakenforliggende variablene forklarer av den opprinnelige sammenhengen mellom

utdanningsplaner og landbakgrunn ved å se hvordan b-koeffisienten endrer seg fra en modell til den neste.

For karakterer og de uavhengige variablene som er definert under verdiforklaringen er det laget en dummyvariabel, slik at også de som ikke har besvart de ulike spørsmålene blir inkludert i analysen. Dersom vi ikke gjør dette, vil alle som har missing på minst en variabel ekskluderes fra analysen. Ved å lage en dummyvariabel vil samtlige av respondentene fra de innledende analysene være med i regresjonsanalysen, og resultatene blir dermed direkte sammenlignbare med resultatene fra krysstabell- og gjennomsnittsanalysene.