• No results found

Akseptabilitetsvurderinger som metode

In document «Det ikke er så lett som man tror» (sider 59-63)

43

4.1.2 Grammatikalitetsbedømminger og akseptabilitetsvurderinger

Før jeg redegjør for akseptabilitetsvurderinger som metode, er det nødvendig å klargjøre begrepene akseptabel og grammatikalsk. Etter Chomsky (1965) er det ikke uvanlig at mange forskere skiller mellom disse begrepene i vurderinger av setningers syntaktiske velformethet (Hårstad et al 2017, 142). Som redegjort i teorikapittelet (2.1), fremholdes det i generativ tradisjon at grammatikken er en mental konstruksjon som styres etter medfødte regler og prinsipper, og den er derfor ikke tilgjengelig for bevisst oppmerksomhet. En språkbruker kan derfor vanskelig vurdere en setnings status med hensyn til dens grammatikalitet, siden den mentale grammatikken er utilgjengelig for bevisstheten (Schütze & Sprouse 2013, 28). En setningsvurdering angår derfor mer akseptabilitet enn grammatikalitet, det vil si om en setning høres «bra» eller «dårlig» ut (ibid.). Skillet blir enda mer uklart når akseptable setninger kan bli vurdert som ugrammatiske, og grammatiske setninger som uakseptable (Dabrowska 2010, 4). Slik sett dreier akseptabilitet og grammatikalitet seg om det samme: Man kan ha

internalisert en struktur i den mentale grammatikken, men velge å ikke benytte den fordi den ikke anses som akseptabel, ikke «god norsk», i visse språksamfunn. Deltakerne kan være styrt av sterke normative oppfatninger i forhold til hva som anses som «riktig» språkbruk i de språkmiljøene de tilhører, og særlig gjelder dette der skriftspråklige normer står sterkt (Hårstad et al 2017, 147). For eksempel kan språkbrukere av urbane talestiler skille på ulik bruk ved å benytte en ugrammatikalsk struktur med venner (I går jeg var på kino), for deretter å skrive den samme ytringen grammatisk riktig i en skoleoppgave (I går var jeg på kino).

Med andre ord er de, bevisst eller ubevisst, klar over hva som er akseptert bruk i noen

kontekster og ikke akseptert i andre kontekster. Grammatisk og ugrammatisk blir da heller et uttrykk for en skriftspråklig norm enn en internalisert grammatikk. Det kan derfor være vanskelig å avgjøre om dataene som genereres, er et uttrykk for grammatikalitet eller akseptabilitet, og sannsynligvis uttrykker de også begge deler. Flere forskere argumenterer derfor for å gå vekk fra denne distinksjonen (Dabrowska 2010, 4). I resten av denne oppgaven vil jeg bruke begge begrep om hverandre med tanke på at akseptabilitet kan være et uttrykk for grammatikalitet og omvendt. I likhet med Schütze & Sprouse (2013, 28) velger jeg å referere til metoden som akseptabilitetsvurderinger, som jeg nå vil redegjøre for.

44

generelle fordeler og ulemper ved en slik metode og drøfte disse mot mer spesifikke forhold knyttet til min undersøkelse.

Som grunnlag for vurderingene, har jeg valgt å benytte en Likert-skala, som er en numerisk skala hvor endepunktene eksempelvis kan være akseptabel og uakseptabel (Schütze &

Sprouse 2013, 33). Deltakerne blir da bedt om å rangere setningene på denne skalaen.

Metoden er svært nyttig fordi vurderingene vil kunne gi informasjon om ikke bare hvilke former som kan brukes, men også hvilke former som ikke kan brukes (Schilling 2013, 97).

Bruk av Likert-skala kan dermed gi svar på om informantene mener PreNeg er akseptabelt eller ikke. Ifølge (Dabrowska 2010, 8) er det vanligst å velge odde antall målepunkter, for eksempel fra 1 til 5, eller fra -3 til +3, fordi det inneholder et presist middelpunkt, i tillegg til at det er intuitivt å forstå. Et slikt midtpunkt vil imidlertid også kunne gi et nøytralt svar og er derfor en ulempe hvis man ønsker at informantene skal ta stilling og gi et tydeligere ‘Ja’- eller

‘Nei’-svar. Dette er årsaken til at jeg har valgt å bruke et likt nummer for antall målepunkter.

En ulempe med vurderinger på en Likert-skala er at den bruker fast angitte verdier, for eksempel 3 eller 4, og derfor vil den ikke være sensitiv til å plukke opp mer nyanserte kontraster, som 3,5. Man kan derfor ikke være sikker på at deltakerne behandler forskjellen mellom 1 og 2 på samme måte som forskjellen mellom 4 og 5, eller om intervallene vurderes likt på tvers av deltakergruppa (Schütze & Sprouse 2013, 33). Skalaens verdier er dermed noe som kan påvirke undersøkelsens reliabilitet. Tenfjord (1998, 42) viser til forskning som har målt akseptabilitetsvurderingers reliabilitet, som tyder på at informantene forandrer sine vurderinger hvis de utsettes for samme test flere ganger. Når målingene er ustabile, er dataene verken reliable eller valide, og da er de heller ikke replikerbare. Tenfjord (1998, 42) mener at et krav til metoden derfor må være at det skjer en retesting for å sjekke reliabiliteten. En innvending til dette er at det kanskje ikke er så overraskende om man skulle endre bedømmelse etter å ha gjort samme test flere ganger gitt at testingen skjer så tett at man

«husker» forrige test. Metodisk er det interessant om det var nøyaktig samme test som ble testet flere ganger. Man kunne tenke seg at man ville få like resultater dersom man testet samme type strukturer, men ved hjelp av ulike testsetninger (jf. «Latin squares design», Abbuhl et al 2013, 121). Dette var også noe jeg vurderte, men på grunn av tidsbegrensninger for dette prosjektet lot det seg ikke gjøre med en slik retesting. Det argumenteres likevel for at testing med Likert-skala er robust nok til at det ikke skal ha noen innvirkning på resultatene, og metoden kan nå sies å ha blitt en standard (Dabrowska 2010, 8).

45

Alternativt til Likert-skala kunne man ha benyttet for eksempel «forced-choice» som er en slags flervalgsoppgave, eller en Ja/Nei-test. I «forced-choice»-oppgaver blir deltakerne presentert for to eller flere setninger og bedt om å velge den de synes er mest akseptabel (Schütze & Sprouse 2013, 31). For dette prosjektet er det imidlertid ikke så interessant å finne ut hva informantene synes er mest akseptabelt, men derimot om de mener setningen i det hele tatt er akseptabel. Når man velger om noe er mer akseptabelt enn noe annet, får man ingen informasjon om hvor lite akseptabelt det andre alternativet er. Tester med Likert-skala og Ja/Nei-svar er derfor gunstigere her, fordi de også vil kunne gi informasjon om strukturelle begrensninger, det vil si hvilke former som kan eller ikke kan, brukes (Schilling 2013, 97).

Ved en Ja/Nei-test skal man krysse av for om en setning er akseptabel eller ikke, ja eller nei.

Det er imidlertid ikke sikkert at alle har den samme grensen mellom ja-nei, siden dette er to absolutte kategorier. Man kan synes en setning er litt eller ganske akseptabel, uten at den dermed oppfattes som helt riktig. Testen er derfor mindre sensitiv til å oppdage kvalitative forskjeller mellom de to forholdene enn tester med flere målepunkter (Schütze & Sprouse 2013, 33). Jeg vurderte derfor Likert-skala som mer egnet fordi den gir en numerisk skala som gjør det mulig å rangere setningene, og som også er intuitiv å forstå.

Videre har jeg valgt å benytte en skala fra 1 til 8. Ved å bruke partallsnummer for antall målepunkter unngår jeg som nevnt en midtverdi, noe som tvinger deltakerne til å ta stilling. I utregningen etterpå vil jeg da kunne regne vurderinger mellom 1 til 4 som ikke-akseptabel og 5 til 8 som akseptabel. Siden strukturen jeg ønsker å teste, er lite frekvent, skal vi tro korpus, ønsket jeg å undersøke i hvilken grad svarene ville fordele seg på en større skala og ville gi deltakerne mulighet til å gradere svaret sitt mer «midt på treet» og med flere valg i

ytterpunktene for et mer nyansert ja eller nei. Jeg valgte derfor en skala fra 1 til 8, men dette er også begrunnet gjennom en tilbakemelding fra en pretest jeg gjennomførte. Schilling (2013, 105) anbefaler en pilot eller pretest for å luke ut uforutsette problemer som kan forhindres, før testen gjennomføres. Siden man ikke kan endre undersøkelsen underveis i testingen, kan en pretest bidra til at man oppdager ting man burde ha gjort annerledes, og kan tilpasse undersøkelsen deretter. Jeg valgte personer jeg kjente, ungdom og voksne, første- og andrespråkstalere, til å ta testen før jeg tok den med ut i klasserommene. De ble da spurt om de helst ville ha Ja/Nei-svar, skala 1–4, 1–6 eller 1–8, hvor skala 1–8 var det foretrukne alternativet. Begrunnelsen var at de ikke ønsket å svare helt i enden av skalaen, og at de foretrakk å kunne gi mer nyanserte svar enn det en mindre skala tillot.

46

Det er også vanlig i slike eksperimenter å gi eksempler på topp- og bunnskåringer på skalaen slik at oppgaven hovedsakelig dreier seg om å vurdere om testsetningene er mer lik setning A eller B i akseptabilitet, noe som gjør det enkelt for deltakerne å bestemme om en stimulus-setning er nærmere den ‘gode’ eller den ‘dårlige’ enden av skalaen (Dabrowska 2010, 8).

Dette vil også bidra til å gjøre metoden mer reliabel, siden deltakerne har likt

sammenligningsgrunnlag som utgangspunkt for skalaens endepunkter. Jeg valgte å benytte begrepene helt ok og helt feil på endepunktene i stedet for akseptabel og uakseptabel som eksempler på topp- og bunnskåringer på skalaen. Årsaken til dette er at jeg var usikker på om de unge deltakerne ville legge samme betydning i begrepene akseptabel–uakseptabel. Ims (2013, 46) benyttet endepunktene sært og greit i sin store nettbaserte test, «Oslotesten», men jeg vurderte også disse til ikke å være helt representative for deltakergruppa. Samtidig ville bruk av ord som riktig/feil eller god/dårlig være uheldig fordi det kan tenkes at noen bruker både V2 og V3 med ikke eller aldri, men at de anser den ene varianten som mer «riktig» (i betydningen «god norsk») enn den andre (jf. også 4.1.2 om grammatikalitet og akseptabilitet).

Da risikerer man at deltakerne kun godtar det som er «god norsk», selv om de også ville godta og synes det er helt ok med andre setningstyper også. Jeg anså derfor helt ok og helt feil som mer heldige begreper, og som jeg også antok ble gitt relativ lik betydning hos deltakerne.

En innvending mot bruk av akseptabilitetsvurderinger er at de lett kan påvirkes av utenom-grammatiske faktorer, som man derfor må forsøke å nøytralisere så langt det lar seg gjøre (Dabrowska 2010, 5). Dette kan være forhold som gjelder for eksempel lengden på testen, hvis den er for lang, blir deltakerne slitne, eller det kan være setningsinnholdet som vurderes i stedet for den grammatiske strukturen. Begge disse forholdene kan påvirke vurderingenes validitet og reliabilitet og må derfor tas høyde for i utformingen av testen. I 4.3.2 og 4.3.3 gjør jeg rede for slike forhold knyttet til min test. En annen innvending er at setningsvurderinger krever at deltakerne er metalingvistisk bevisste i bedømmingen (Schütze & Sprouse 2013, 28). Dette svekker validiteten ettersom den knyttes til forholdet mellom akseptabilitets-vurderingen og kunnskapen denne akseptabilitets-vurderingen reflekterer. Man risikerer dermed at det er språknormen som blir vurdert, og ikke setningens akseptabilitet (Tenfjord 1998, 42). Hårstad et al (2017, 148) medgir at en slik bevissthet om egen språkbruk unektelig varierer blant språkbrukere. På den annen side påpeker de at deltakerne bare skal gi sine umiddelbare reaksjoner på setningene, ikke at de skal si noe om hvorfor en setning høres mer eller mindre akseptabel ut (ibid.). En annen ulempe berører dataenes replikerbarhet. Det er vanskelig å etterprøve dataene som er samlet inn, siden informantenes vurderinger vanskelig kan

47

kontrolleres for av andre (Hårstad et al 2017, 150). Samtidig argumenteres det for at metoden primært brukes for å finne yttergrensene for hva grammatikken tillater, og at det derfor ikke er så viktig å kunne reprodusere vurderingene, så lenge man er sikker på at de har blitt samlet inn på en god måte (ibid.). Til sammenligning er data fra korpus slik sett svært etterrettelige, fordi man veldig enkelt kan benytte søkestrengen som oppgis, på nytt i de samme korpusene og kontrollere resultatene. Det at jeg bruker data fra korpus og akseptabilitetsvurderinger til å støtte opp om hverandre, gjør derfor det samlede datagrunnlaget mer valid og reliabelt. Men replikerbarhet dreier seg også om at resultatene bør bli de samme om undersøkelsen gjentas med andre deltakere og i andre kontekster (Abbuhl et al 2013, 117). Slik sett vil det være mulig å reprodusere vurderingene i min undersøkelse ved at den bør gi lignende resultater hvis man gjentar den med andre deltakere i samme aldersgruppe i tilsvarende miljøer i Oslo.

Til tross for de ulike innvendingene er akseptabilitetsvurderinger en svært anvendt metode (Dabrowska 2010, 8). Akseptabilitetsvurderinger anses som valide data og har lenge vært brukt i studier av tverrspråklig variasjon og språklæring (Schütze & Sprouse 2013, 29). De benyttes rutinemessig også i ASF, og man antar at de reflekterer lingvistisk kunnskap også om andrespråket (Dabrowska 2010, 5, fotnote). I senere norsk ASF baserer for eksempel Busterud (2014) og Anderssen et al. (2018) sine undersøkelser på denne metoden. I forskning på

språkkontakt har også Sunde (2018a) benyttet metoden for å undersøke engelsk påvirkning på norsk. Dette er relevant for mitt prosjekt fordi litt av hensikten er å undersøke om morsmål på noen måte kan knyttes til hva som godtas av strukturer, i tillegg til å teste for engelsk

påvirkning på norsk. Styrken i metoden ligger i at den er enkel å gjennomføre, og at man ganske raskt kan nå ut til mange deltakere og fremskaffe både positive og negative data. Det er likevel forhold ved utformingen av undersøkelsen som er viktig å tenke grundig gjennom, som jeg nå vil redegjøre for.

In document «Det ikke er så lett som man tror» (sider 59-63)