I det moderne samfunnet (særlig i skolesammenheng) er det en tendens til å unngå faglige problemer

(1)

Om metoder i lingvistikken

Øivin Andersen. Institutt for lingvistikk og litteraturvitenskap 1. Innledning

Vi forskere er som folk flest på de aller fleste områder, men på ett bestemt område skiller vi oss klart ut. I det moderne samfunnet (særlig i skolesammenheng) er det en tendens til å unngå faglige problemer. Vi prøver enten å unngå å snakke om dem eller vi prøver å skyve dem under et teppe. Med andre ord: Vi prøver ikke å løse problemet før vi er nødt til det.

I forskningen, og dermed også i språkforskningen prøver vi derimot å oppsøke

problemer, og vi blir nærmest ulykkelige hvis vi ikke finner de problemene vi leter etter.

Hvorfor gjør vi da ikke som ellers i samfunnet: puster lettet ut når vi ikke finner dem?

En av de viktigste grunnene er at ethvert vitenskapelig prosjekt går ut på å løse en eller annen oppgave. Det kan være av rent praktisk art, som å lage en ordbok tilpasset en innvandrergruppe, eller det kan være av mer teoretisk karakter som å løse et faglig spørsmål som vi er opptatt av. Når studenter skal skrive en prosjektbeskrivelse for å søke på et doktorgradsprosjekt søker man som oftest hjelp av en erfaren forsker for å etablere en prosjektbeskrivelse som er realistisk og passelig avgrenset. Er man heldig blir man deltaker i et større anlagt forskningsprosjekt hvor doktorgradsprosjektet kan inngå som naturlig del. Da har man allerede det tematiske hoveddomenet på plass.

I en del prosjektbeskrivelser jeg har lest er nettopp dette tematiske hoveddomenet det som omtales. Problemet er da nettopp at man ikke kan oppdage problemet. Hva er det kandidaten skal finne ut? Hva er utgangspunktet og hva skal prosjektet munne ut i?

I denne forelesningen skal jeg fokusere på metoder i lingvistikken. Jeg skal omtale følgende: Forholdet mellom data og hypoteser: Hva kommer først? Hvilke datakilder bruker vi: Introspeksjon, korpus, informanter, kombinasjoner av datakilder, forholdet mellom data og fakta, ulike typer fakta, hypoteser, modeller.

Hvis vi slår opp i en ordbok på metode finner vi at ordet har med systematikk og etterrettelighet å gjøre. Det å være metodisk impliserer at man er systematisk og ordentlig. I vitenskapelig sammenheng betyr det også å være etterrettelig og ikke minst:

ettersporbar. Et av de mest sentrale krav til vitenskapelig metode er kravet om ettersporbarhet eller reproduserbarhet. Derfor er det et uomtvistelig krav i vitenskapelige avhandlinger at metoder som anvendes blir eksplisitt formulert og begrunnet.

2. Hva kommer først i prosjektet?

Med mindre vårt doktorgradsprosjekt er av en helt spesiell karakter trenger vi det vi kaller data som vi kan bygge prosjektet vårt på. Det første spørsmålet vårt er da: Hva skal vi begynne med? Skal vi begynne med datainnsamling eller skal vi begynne med

(2)

problemformuleringen? Opp gjennom lingvistikkens historie har synet på dette variert, og man har prøvd begge deler. La oss først se hva som skjer hvis vi begynner med data.

2.1. Data først Induksjonsproblemet

Da lingvistikken vokste frem som egen vitenskap i første del av forrige århundre var det først og fremst strukturalistenes kritikk mot den tradisjonelle latinsk baserte grammatikken som førte til nytenking. Påvirkningen fra Saussure’s Course de Linguistique Generale var stor både i Europa og i USA. I USA hadde man i lengre tid arbeidet med kartlegging av de amerikanske indianerspråkene, og det ble fort klart at den tradisjonelle grammatikken var uegnet for dette formålet. Edward Sapir hadde lenge arbeidet med alternative lingvistiske teorier og metoder i sitt arbeid med indianerspråk i Canada, men det var Leonard Bloomfield som fikk gjennomslag for sin helt spesielle variant av strukturalismen med ”amerikansk smak”. Hans bok Language fra 1933 var på 40- og 50-tallet totalt dominerende i amerikansk lingvistikk. Bloomfields strukturalistiske teori var knyttet til behaviorismen innen psykologien, en slags ”psykologi uten sjel”, dvs en variant av en adferdspsykologisk, antimentalistisk stimulus-respons teori overført på menneskelige naturlige språk.

Bloomfield var logisk positivist og beundret de metodene som naturvitenskaper som fysikk og kjemi hadde arbeidet seg frem til. Hans utgangspunkt var å redusere språklige data ned til mest mulig konkrete observerbare enheter som skulle kunne analyseres på samme måte som i naturvitenskapene. Dette var en ide som hadde vokst frem i form av en tese om enhetsvitenskap, dvs ideen om at alle vitenskaper skulle underlegges samme sett av metoder, og at de enhetene man skulle analysere skulle være konkrete erfaringsdata.

For å få dette til var det naturlig å starte med de mest konkrete enhetene i språk, næmlig lydene, som han mente man kunne observere direkte. Først når lydsystemet, dvs det fonemiske inventaret i et språk var på plass kunne man kaste seg over det neste nivå, næmlig morfologien.

Behavioristene med Bloomfield i spissen så på mennesket som et slags avansert dyr, dets omgivelser var viktigere enn deres arv. Dette førte til et mekanistisk og deterministisk syn på mennesket. De hadde en meget enkel observasjonsteori om stimulus, respons, betingede reflekser, tabula rasa (forestillingen om at mennesket var et helt tomt og forutsetningsløst individ ved fødselen, både kognitivt og språklig).

Det som ikke kunne observeres måtte man unngå å si noe om. For Bloomfieldianerne var dette semantikken. Den ble overlatt til andre vitenskaper og til fremtidige generasjoner.

Lingvistikk ble en slags steril formmekanikk.

(3)

Det sentrale i vår sammenheng er den nærmest naive tro behavioristene hadde på vår observasjonsevne som sikker kilde til kunnskap. Dette var en ren form for induksjon som førte mange problemer med seg.

Induksjonsproblemet er kjent fra vitenskapsfilosofien. John Stuart Mill mente at man kunne anvende de samme metodene i humaniora som i naturvitenskapene, og at metodene måtte bygge på induksjon, dvs å trekke konklusjoner fra omhyggelige og systematiske iakttagelser og generalisere på grunnlag av dem (Kjørup 1996:85ff). Denne antakelsen overtok de amerikanske strukturalistene uten særlige motforestillinger. For dem var det som Chomsky senere kalte oppdagelsesanalyser av avgjørende betydning for en metodisk stringent og objektiv fremstilling av språklige strukturer.

En av de mest sentrale og epokegjørende oppdagelsesanalysene som kom frem gjennom strukturalistisk fonologi var den såkalte minimale par-testen, som var veien å gå for å oppdage et språks fonologiske inventar. Metodens ”objektivitet” har senere blitt angrepet av blant andre den generative fonologien som vokste frem i USA på 60-tallet. Metodens svakheter er glimrende illustrert i Marianne Haslev bok Lorang (1985:42ff):

Hvis vi tar et enkelt ordpar som og vil vi, ut fra det vi har lært på forprøven i språk og språkvitenskap, trekke den konklusjon at og tilhører ulike fonemer i norsk fordi ”de opptrer i samme omgivelser og resulterer i et skifte av betydning”. Videre vil vi kunne slutte at det som skiller fra fonetisk er faktorene urundet og rundet. Dermed er lepperunding et distinktivt trekk i norsk.

En analyse i minimale par forutsetter at det som har distinktiv funksjon er ulikt (kalt substitutter hos Haslev) og resten er identisk (kalt rammen). Problemet er om vi kan si om rammen er identisk i de to ordene. Siden er i naboskap av , som er urundet i det første ordet og i naboskap av , som er rundet i det andre ordet, kan vi like gjerne si at vi har to ulike s-er: og . Dermed er ikke rammen konstant og vi kan ikke avgjøre om det distinktive trekket (urundet/rundet) ligger i vokalsegmentet eller i konsonantsegmentene ( samme resonnement gjelder for og . Resultatet av analysen kan like gjerne bli at og er to ulike fonemer i norsk eller at og

er to ulike fonemer som at og er det.

Her har vi altså ingen objektiv mulighet gjennom induktiv metode til å fastslå hva som er distinktivt og hva som er redundant. Hvis vi skal kunne gjøre det er vi nødt til å forutsette hvor det distinktive ligger. Problemet er jo at det er nettopp det vi skal oppdage gjennom den minimale par-testen. Vi er altså inne i en metodisk sirkel som vi ikke kommer ut av uten at vi forkaster induksjonsmetoden.

Haslev konkluderer med at hvis vi skal finne ut noe i det hele tatt må vi med utgangspunkt i det fonetiske materialet gjette, dvs stille opp hypoteser som vi ikke er kommet frem til på strengt logisk grunnlag. Mill var klar over at induksjonsmetoden ikke var logisk holdbar, men anbefalte den likevel.

(4)

Som vi ser er det ingen metode som kan lede oss ut av metodesirkelen. Dette eksempelet viser at det å gå induktivismens vei for å etterape naturvitenskapelige metoder i lingvistikken fører til problemer. Det var nettopp slike argumenter den generative fonologien med Moris Halle og Noam Chomsky i spissen anførte mot de behavioristiske strukturalistene. Observasjon er ikke objektiv, men notorisk upålitelig. Riktignok er vi alle født med en viss observasjonsevne. Uten den ville vi ikke ha vært mennesker i det hele tatt. Men det er et uomtvistelig faktum at det vi faktisk observerer delvis er en funksjon av det settet av normer og kulturelle verdier som omgir oss i samfunnet.

Dessuten påvirkes vi av hva vi har erfart tidligere i livet. Dette gjelder også språklig persepsjon. Vårt øre er innstilt på å oppfatte distinksjoner som er viktige for oss, som for eksempel forskjellen mellom og , men ikke mellom og eller og . Men minimalpartesten kan ikke påvise denne forskjellen på en uproblematisk måte gjennom induksjon. Vi kan altså ikke oppdage fonemdistinksjonene. Vi kan heller ikke observasjonelt avgjøre hvilken av de tre mulighetene som er riktige. Det eneste vi kan gjøre er å evaluere hvilken løsning som er mest plausibel. For å kunne gjøre det må vi blant annet konsultere vår egen intuisjon.

Dette poenget er et av de mest sentrale i Chomsky’s klassiske verk Syntactic Structures, som kom ut i 1957, og som etter hvert bidro til å rive vekk mye av fundamentet for Bloomfields oppdagelsesanalyser. Som Chomsky påpekte var evalureringsprosedyrer det beste man realistisk sett kunne håpe på i lingvistisk metode.

Vi kan konkludere med et sitat fra Popper (1972:46):

”Observation is always selective. It needs a chosen object, a definite task, an interest, a point of view, a problem. And its description presupposes a descriptive language, with property words; it presupposes similarity and classification, which in its turn presupposes interests, points of view, and problems.”

Lydskrift

Likevel, selv om vår observasjonsevne er upålitelig, er den en hovedkilde til data og vi kan ikke komme utenom den, selv om enkelte har prøvd. Derfor er det viktig å skille mellom observasjonsevne og observasjonskompetanse. Fonetikerne har vist oss at det er mulig å trene opp sin observasjonskompetanse. I det klassiske fonetikkstudiet ble dette tillagt stor vekt. De som skal bruke for eksempel lydskrift som data i sine prosjekter bør tillegge dette vekt.

Tradisjonelt har lydskriftssystemer vokst frem som en metode til å notere kodeegenskaper ved språk som ikke fremkommer gjennom ortografi. Ortografien er høyst selektiv når det gjelder hvilke egenskaper ved tale som gjengis: Både norsk og vietnamesisk kan sies å ha tonemotsetninger, men i motsetning til vietnamesisk angir ikke norsk tonemotsetninger ortografisk. Skrift er altså en reduksjon av tale. Det gjelder både vår latinske ortografi og ulike lydskriftssystemer, som for eksempel IPA.

(5)

Lydkriftens hovedfunksjon er å produsere en gjengivelse av de aspektene ved en ytring som er relevante i en praktisk situasjon. Siden lydskrift kun angir visse aspekter av talte ytringer forutsetter lydskrift at det må være foretatt en form for analyse av talen før eller når den skrives ned. Det er altså ikke noen induktiv prosess. Skrift bygger på analysert tale. Det gjelder både vårt latinske alfabet og lydskrift som vi bruker i vitenskapelig sammenheng.

Som vi husker fra forprøven skiller vi mellom fonemisk og fonetisk skrift. Den fonemiske transkripsjonen har et fastlagt abstraksjonsnivå (det fonemiske nivå), mens fonetisk transkripsjon ikke har et fastlagt abstraksjonsnivå. Fonetisk skrift kan være svært detaljert, dvs mer spesifikk enn det fonemiske nivå, men den kan også være svært generell, dvs mindre spesifikk enn det fonemiske nivå.

Dette er et svært viktig poeng som har metodiske konsekvenser. Flere stort anlagte dialektundersøkelser, blant annet TUB-prosjektet (talemålsundersøkelsen for bergensdialekten) på 80-tallet, brukte blant annet båndopptak av informanter som ble brukt som utgangspunkt for fonetisk transkripsjon. Det ble satset store ressurser på dette, og mange prosjektmedarbeidere ble satt til å transkribere i størst mulig detalj alle aspekter ved informantenes tale.

Et av problemene med dette var at man akkumulerte en stor mengde data som var nærmest umulig å håndtere. Denne situasjonen kan man fort havne i hvis man ikke i utgangspunktet klarer å avgrense mengden av data. Den beste måten å gjøre det på er å formulere et sett av problemer eller hypoteser som man vil finne ut noe om. Dette problemsettet vil da på en helt naturlig måte kunne sette grenser for hvilke data som er relevante og hvilke som ikke er det. Siden fonetisk skrift ikke er spesifisert med hensyn til spesifikasjonsgrad kan lydskriften være spesifikk på de områdene som omtales av hypotesene og uspesifikk eller generell på de områdene som ikke er relevante i forhold til hypotesene.

Dvs.: Lydskriftsspesifikasjon er avhengig av våre utgangshypoteser.

Hvis man for eksempel har til oppgave å undersøke visse aspekter ved nasaler i trøndersk til forskjell fra finnmarksdialekten, vil transkripsjonene være så detaljert som det er nødvendig på akkurat dette punktet, men generell på andre områder. Hvis man er interessert i tonelagsmotsetninger, må disse markeres, etc.:

5 ulike trenskripsjoner av kasse:

1. ^{2 h}

2.

3. V

4. ^hV V 5. KV V

(6)

I transkripsjon 1. er man interessert i både tonelag, aspirasjon, konsonantlengde og ulike vokalkvaliteter, i 2. er man ikke interessert i tonelag, aspirasjon og vokallengde, mens vokaler i trykklette stavelser synes å være interessant. I 3. er man kun interessert i av vokalene, i 4. er man ikke interessert i vokalegenskaper i det hele tatt, mens aspirasjon er relevant, og i 5. er man utelukkende interessert i hvordan realiseres mellom to vokaler.

Poenget med disse eksemplene er å vise at det kun er mulig å sile ut de relevante dataene hvis man har en klar problemstilling før man begynner å samle dem.

Konklusjonen må da bli at data ikke kan komme først. Da risikerer vi å drukne i irrelevante data.

2.2. Problem først Hva er data?

Uttrykket data er opprinnelig et latinsk neutrum partisipp av verbet dare, som betyr ”å gi”. Partisippets betydning er da ”det som er gitt”. Men er data gitt? Vi har allerede sett eksempel på at data ikke uten videre er objektivt observerbare, selv om de er offentlig tilgjengelige; noe som er et viktig krav til gyldige data. Som det fremgår av Dyviks forelesning fra 1997, ”Data, Facts and Concepts of Language”, er data ikke uten videre gitt. Det er gitt at de eksisterer og kan prinsipielt observeres, men tolkningen av dem vil variere avhengig av hva man er interessert i å hente ut fra data. Når mennesker tar inn informasjon via sansene foregår det en utsilingsprosess. Kun en delmengde av all informasjonsmengde som potensielt er tilgjengelig blir tatt opp og registrert. Uten denne silingsegenskapen ville ikke mennesket kunne håndtere verden. Kun de data som blir manifeste for oss er data.

Slik er det også på en måte med vitenskapen. Verden er uendelig rik på data. For at vi skal kunne sortere dem og nyttiggjøre oss dem må vi sile ut de data som er viktige for oss i gitte situasjoner. Slik sett er også strengt tatt en fonetisk transkripsjon, uansett hvor fingradert den måtte være, en siling av data til en delmengde av relevante data. Hvis utgangspunktet er et båndopptak vil opptaket kanskje også inneholde lydkilder som ikke er språklige, for eksempel lyden av en bil som passerer, eller en fugl som synger.

Vi siler ut de språklige lyddataene og prøver å gjengi de aspektene av dem som vi antar er relevante ut fra et sett av problemstillinger og hypoteser som vi ønsker å prøve eller etterprøve. Det vi sitter igjen med da er ikke data, men fakta som er utledet fra data. Som Dyvik påpeker, med referanse til Dretskes eksempel, kunne vi også fra det samme lydbåndopptaket ha silt ut andre fakta hvis våre interesser og problemstillinger hadde vært annerledes.

Den konklusjonen vi er nødt til å trekke er at problemet med datamengde og relevante data kan ikke løses induktivt.

(7)

Deduksjon og hypotetisk-deduktivisme

De to andre klassiske metodene i lingvistikken er deduktivisme og hypotetisk- deduktivisme. Deduktivismen er eldst og kan føres tilbake til de antikke filosofene.

Typiske eksempler er Euklids geometri og Aristoteles’ syllogismelære. Den deduktive metoden er en systematisering og klargjøring av det en allerede vet fra før. Den trekker logisk nødvendige slutninger fra premisser (kalt aksiomer). Konklusjonene kalles teoremer. Man kan utlede beviser for at slutninger er logisk gyldige. Dette er typiske metoder i matematikkens verden.

Siden vår kunnskap om menneskelige naturlige språk er det Polanyi og Chomsky kalte taus kunnskap, kan den deduktive metoden hjelpe oss til å eksplikere eller bevisstgjøre deler av denne språkkunnskapen gjennom for eksempel introspeksjon.

Et problem med denne metoden er at den er fullstendig formallogisk og ikke-empirisk.

Matematikerne kan bruke den deduktive metoden helt uavhengig av hvordan verden ser ut. Vi språkvitere må dessverre forholde oss til den problematiske ”virkeligheten”, dvs den verden hvor språk brukes ustanselig og hele tiden.

Når man bruker hypotetisk-deduktiv metode bringes forhold fra vår erfaringsverden derimot inn. Metoden ble opprinnelig brukt i naturvitenskaper som fysikk og kjemi.

Hovedformålet var å finne en metodikk for å teste og kontrollere hypoteser eller gjetninger. En hypotese skiller seg fra et aksiom ved at hypotesen antar at et utsagn om et ytre fenomen i verden er sann.

Et aksiom, derimot, antas som en underliggende premiss i en formallogisk deduksjon. I den hypotetisk-deduktive metoden er kontroll av empiriske data av avgjørende betydning.

Teoremer i deduktiv metode kan verifiseres og dermed bevises, mens hypoteser i den hypotetisk-deduktive metode aldri kan bevises, men kun sannsynliggjøres eller bestyrkes.

Derfor snakker vi vanligvis ikke om beviser i lingvistikken. Vi drøfter heller om lingvistens hypoteser er blitt bestyrket gjennom et prosjekts sett av tester.

I et hypotetisk-deduktivt system erstattes aksiomer med empirisk baserte primitiver. Et primitiv er et empirisk faktum som har status av å være uproblematisk. Det betyr at det hersker en utstrakt enighet i et forskersamfunn om hvordan dette fenomenet skal tolkes.

Det vil vanligvis dreie seg om grunnleggende antakelser som at hendelser utspiller seg i tid, at objekter har en stabilitet over tid, etc. Primitivene inngår da i hypoteseformuleringene i det hypotetisk-deduktive systemet.

(8)

I moderne grammatiske generative teorier brukes deduktive systemer også i empiriske sammenhenger. Det er da et krav om at de termene som brukes i de deduktive systemene er empirisk fortolket (Dyvik 1980:12ff). En ofte kritisert svakhet med Chomskys generative teorier er nettopp at grunnleggende begreper som ” grammatisk subjekt” og

”grammatisk objekt” defineres modellinternt og ikke søkes definert i empiriske domener utenfor modellen selv. Da mister teorien viktige empiriske forankringspunkter, noe som fører til at teorien blir mindre egnet for empirisk anlagte prosjekter.

Vi kan konkludere med at de data vi søker må være tilpasset de hypotesene vi stiller opp.

Jo mer man arbeider med hypoteseutforming desto større er mulighetene for at man får relevante data. Hvis data er relevante vil de som regel også være gyldige data. Gyldige data er data som potensielt sett kan bidra til at man kan ta stilling til en hypoteses status som bestyrket, avsvekket eller forkastet. I det følgende skal vi se nærmere på ulike kilder til data.

3. Kilder til data

I det følgende vil de vanligste kildene til data behandles. Jeg vil behandle 1.

introspeksjon 2. korpus 3. kombinasjon av introspeksjon og korpus 4. informantarbeid av forskjellig slag: a. intervju, b. spørrskjema og c. deltagende observasjon.

Alle disse metodene har vært brukt med suksess i lingvistiske prosjekter, men det er mange muligheter for å begå metodiske feil som vil kunne forringe verdien av de data man får ut. Vi skal også illustrere at disse metodene ikke ekskluderer hverandre, men ofte brukes sammen.

induktivisme deduktivisme hypotetisk-deduktivisme

data aksiom hypotese/problem/primitiv

relevante data generalisering utledning testing/kontrollering konklusjon bevis/teorem

styrking/svekking/avkrefting

(9)

3.1. Spekulasjon/introspeksjon

En av de mest bemerkelsesverdige aspekter ved språk er at språkbrukere i mange tilfeller kan avgjøre om en setning er grammatisk eller ugrammatisk uavhengig av hvilken kontekst man setter setningen inn i:

1. Per måtte ikke gå.

2. *Per ikke måtte gå.

3. Ole sa at Per ikke måtte gå.

4. ?Ole sa at Per måtte ikke gå.

Her må vi skille mellom kunnskap om språk og ferdighet i språk. Den ferdigheten vi har som innfødte språkbrukere av norsk setter oss i stand til å avgjøre at 1. og 3. er grammatiske mens 2. ikke er det. Men hvis vi ikke har noen opplæring i grammatikk vil vi få store problemer med å forklare hvorfor 2. ikke er grammatisk. For å kunne det trenger vi også kunnskap om språket, dvs kunnskap på et metanivå. Det problematiske med det er at denne kunnskapen er taus, men prinsipielt artikulerbar (jf Johannessen 1999).

Mens behavioristene forkastet introspeksjon som ubrukelig som kilde til data, mente Chomsky at nettopp introspeksjon var hovedkilden til vår kunnskap om språk.

Diskusjonene rundt introspeksjonens rolle i lingvistikken har så langt munnet ut i at introspeksjon er et nødvendig innslag i all språkforskning, men at introspeksjon i seg selv er notorisk upålitelig. Introspeksjonsdata fremkommer typisk ved at språkforskeren konsulterer seg selv for å avgjøre om manipulering av visse kodeegenskaper ved konstruerte setninger resulterer i grammatiske eller ugrammatiske konstruksjoner.

Antakelsen her er at både lingvisten og andre språkbrukere har en innebygget, velformet grammatikk som er tilgjengelig via introspeksjon.

Men om introspeksjon er nødvendig i språkforskningen er det likevel mye som tyder på at den ikke er tilstrekkelig som kilde til data.

For det første baserer introspeksjonen seg på lingvistens eget internaliserte språk (kalt i- språk i den generative lingvistikken), dvs en form for idiolekt. Som vi vet er det ofte forskjeller mellom ulike idiolekter innen samme språkområde, også når det gjelder bedømmelse av setningers grammatiske status.

For det andre er det i mange tilfeller ikke mulig å avgjøre om en setning er grammatisk eller ikke. Intuisjonen kan ikke avgjøre dette i alle tilfeller. For eksempel vil 4. være grammatisk for noen, og ugrammatisk for andre:

4. Ole sa at Per måtte ikke gå.

For det tredje er det mange ting som tyder på at grammatikalitet ikke bare er et spørsmål om enten eller. Noen setninger vurderes som ”mer grammatiske” mens andre vurderes

(10)

som ”mindre grammatiske”. Dette oppdager lingvisten fort hvis han/hun konsulterer andre språkbrukeres intuisjon.

Derimot er introspeksjon et ypperlig utgangspunkt for hypotesedanning både når det gjelder grammatikalitet og når det gjelder andre aspekter ved språksystem og språkbruk.

3.2. Korpus

Korpuslingvistikken hadde lenge et dårlig rykte på grunn av Chomskys harde kritikk mot behavioristene. Chomskys hovedpoeng var at ethvert korpus, uansett hvor stort det måtte være, består av et finitt sett av setninger/tekster. Et hvert naturlig menneskelig språk er infinitt og et hvert korpus vil da per definisjon være utilstrekkelig.

Videre skilte Chomsky mellom kompetanse og utføring (senere kalt i-språk og e-språk).

Det som var den generative lingvistens studieobjekt var kompetansen, mens det som fremkom i korpora var utføringsdata. I følge Chomsky var utføringsdata fulle av feil som skyldtes blant annet slurv, tretthet og uoppmerksomhet. Disse data var ikke egnet til å si noe om kompetansen hos språkbrukerne.

De strukturalistiske korpuslingvistene så på korpusdata som eneste kilde til kunnskap om språket. I dag vet vi at dette langt fra er tilfelle, men korpora inneholder mange eksempler på lingvistiske fenomener som man ikke kan ha noen klar intuisjon om. Derfor sees korpusdata som et viktig supplement til andre datakilder, blant annet intuisjon.

Men først må vi foreta et par grunnleggende skiller. Det er viktig å skille mellom korpus og beleggsamling. Et standardkorpus er vanligvis sett på som et sett av data, nærmere bestemt tekster (eller deler av tekster) som er samlet uten en forutgående siling av data gjennom hypoteser (med mindre man velger et skreddersydd korpus for sitt eget prosjekt). En beleggsamling, derimot, er en samling av data som er silt gjennom et sett av hypoteser. Beleggsamlinger inneholder altså ingen negative data, dvs moteksempler. Man leter etter positive data som kan bestyrke en hypotese. Vi skal her ikke si noe mer om beleggsamlinger, men konsentrere oss om korpora.

Man skiller mellom elektroniske korpora og korpora i papirform. Noen elektroniske korpora er nærmest ferdig tilrettelagt med mange praktiske søkefaciliteter som gjør det mulig å hente ut relevante data på en praktisk måte.

En svært vanlig og utbredt bruk av korpora i språklig sammenheng er såkalte KWIC- konkordanser. Dette er et meget praktisk og nyttig verktøy i mange sammenhenger. Selv har jeg brukt det såkalte Oslokorpuset ved Tekstlaboratoriet i Oslo. Det er satt sammen av de tekstene som Tekstlaboratoriet har hatt tilgjengelige pr januar 1999. Korpuset består av 18,3 millioner ord, og omfatter tre genrer: skjønnlitteratur (1,7 mill. ord), avis/ukeblad (9,6 mill. ord) og sakprosa (6,9 mill. ord). Korpuset er fritt tilgjengelig og gratis, men man trenger et passord for å kunne bruke det. Man kan få mer informasjon på hjemmesiden:

(11)

http://www.tekstlab.uio.no/norsk/bokmaal/index.html

Introspektivt utgangspunkt: mottak av flyktninger vs mottak for flyktninger

I mitt prosjekt om verbalsubstantiver i norsk bokmål brukte jeg KWIC-konkordanser til å teste ut et par hypoteser som utkrystalliserte seg i løpet a prosjektperioden. Jeg arbeidet ut fra den hypotesen at verbalsubstantiver som har prosessbetydning er mer verbale enn verbalsubstantiver som refererer til entiteter, for eksempel steder. Mange

verbalsubstantiver kan ha begge betydninger (polysemi). Videre hadde jeg en hypotese om at hvis substantivet hadde prosessbetydning ville det ofte overføre det direkte patiensobjektet ved nominalisering ved hjelp av preposisjonen av, mens hvis det samme verbalsubstantivet hadde stedsbetydning ville en annen preposisjon, ofte for, bli brukt:

Prosess vs sted-polysemien er svært utbredt i verbalsubstantivsystemet i norsk. Jeg undersøkte dette i forbindelse med rotnominaler som mottak i konstruksjoner som mottak av flykninger vs mottak for flyktninger:

Hypotese: Hvis det deverbale rotnominalet denoterer ”prosess” brukes preposisjonen av, fordi av er en grammatisk markør for et overført direkte objekt. Hvis rotnominalet denoterer ”sted” vil ikke den grammatiske markøren av forekomme, men preposisjonen for, som ikke er en grammatisk markør, som i: mottak av flyktninger vs mottak for flyktninger

Ut fra denne hypotesen gikk jeg til Oslokorpuset for å sjekke preposisjonsbruken ved postnominale preposisjonsledd ved mottak:

Oslokorpuset Mottak for:

2 forekomster funnet.

AV/BT95/02: urt Lancaster) skal bygge et mottak for nordsjøolje i en skotsk småby. Stedet AV/Bb95/01: ere et nettverk av kombinerte mottak for skogssopp og -bær over hele landet. Øs 82 forekomster av mottak av: de 20 første:

AV/Af96/01: land og landet er isolert for mottak av nabolands programmer. Kilde : Nordisk AV/BT95/02: liegjenforeningen, og øvrige mottak av asylsøkere og flyktninger på 1980-talle AV/BT96/03: rede til å ta sitt ansvar for mottak av et økt antall overføringsflyktninger ut AV/BT97/01: på sin nye beredskapsplan for mottak av flyktninger og har ikke skjerpet bereds AV/BT97/01: ordi vi fikk god erfaring for mottak av mange mennesker under Bosnia-konflikten

(12)

AV/BT97/01: iskarfagskulen. Her blir det mottak av fisk og et område for saltvannsakvarier AV/Bb95/01: rsielle aktører vedr. kjøp og mottak av korn, analyser m.v.. Disse tjenestene AV/Fa96/01: es av andre i forlaget? Vårt mottak av manus på papir utenfra er idag ca 18 tr AV/VG96/01: oringen var bare genial, med mottak av høy klasse, måten han vendte vekk svei SA/Lo81/01: nne sted. Den ansvarlige for mottak av avfallet kan kreve opplysninger om avfa SA/Lo81/01: nne sted. Den ansvarlige for mottak av avfallet kan kreve opplysninger om avfa SA/Lo84/01: r fler. Minst 90 % av samlet mottak av epler og pærer fra norske produsenter s SA/Lo84/01: tføring av arbeid i arkivet : mottak av post og registrering, arkivlegging, p SA/Lo86/01: redte rekvisisjoner. 8. Ved mottak av rekvirerte ytelser skal det forholdes p SA/Lo86/01: lig kjøling o.l., kan videre mottak av fisk nektes inntil allerede mottatt fis SA/Lo87/01: an få utstedt en erklæring om mottak av søknad. Erklæringen sammen med det ute SA/Lo87/01: r det utstedes bekreftelse om mottak av søknad. ==== | FOR-1987-07-01-582. Fo SA/Lo87/01: fiserer hussentralen/klar for mottak av MFPB-innvalgssiffer). -- --->>" "

SA/Lo87/01: Utsalgsstedene kan ikke nekte mottak av rimelige mengder returemballasje som

Når vi leser oss gjennom konkordansene ser vi også andre aspekter ved mottak av, som i

”Scoringen var bare genial, med mottak av høy klasse,….Dette eksempelet var spesielt, fordi den i motsetning til de andre eksemplene med mottak av uttrykker noe momentant, ikke noe durativt, noe som har utstrekning i tid. Eksempelet viser også at preposisjonen av har flere andre funksjoner enn å være en grammatisk markør for et overført direkte objekt. Dette førte til at jeg måtte se nærmere på polysemien ved av. Bokmålsordboken har registrert 15 betydninger av preposisjonen, og da er ikke den grammatikaliserte bruken som jeg var på jakt etter tatt med.

Dessuten måtte jeg se nærmere på aspektmotsetninger som perfektiv- imperfektivmotsetningene. I sin tur ledet det meg til skillet mellom imperfektive konstruksjonstyper som pass og stell av barn vs et spark på ballen.

Poenget her er at jeg ved å veksle mellom konstruerte eksempler fremkommet via introspeksjon fra hypoteser og KWIC-konkordanssøk i et tekstkorpus fikk frem relevante data som også ble kilde til nye hypoteser som kunne testes ved nye søk i korpuset.

Men en ting er å ha velorganiserte og ferdig kodede korpora som man fritt kan bruke. En annen ting er at det aktuelle korpuset kanske ikke er egnet til å få frem de data som du er på jakt etter. Hvis man arbeider med aspekter vedrørende teknologiske tekster med teknisk innhold eller vitenskapelige tekster av ulike genre må man kanskje bygge et skreddersydd korpus selv. Men det er en vanskelig og omstendelig prosess å bygge egne korpora. Det forutsetter en tidkrevende xml-koding, en headermarkering, blant annet en DTD-beskrivelse, hvor for eksempel genrebestemmelser ofte inngår. Dette er ressurskrevende.

(13)

Men før man overhodet kommer så langt møter man rettighetsproblemene, som mange, inkludert meg selv, ofte undervurderer. Det viser seg ofte vanskelig å få tillatelse til å bruke mange typer tekster i korpussammenheng.

Og, som om ikke det var nok: Man får vanligvis ikke pengestøtte til korpusbygging.

Men hvis man får etablert et brukbart elektronisk korpus er fordelene mange: Man kan kjøre statistikk på data hvis man ønsker det. Det aktualiserer forskjellen mellom en kvantitativ og en kvalitativ metode. Jeg skal ikke si så mye om bruk av statistikk, men hvis man har tenkt å anlegge en kvantitativ metode på sine data må man bruke disse metodene hele veien.

Det første man må ta stilling til ved bruk av kvantitativ metode er om man skal ha representative data. Vurderingene rundt representativitet er mange, og det vil føre for langt å gå inn på det her, men jeg vil kort nevne forskjellen mellom populasjon og utvalg. En populasjon kan være finitt eller infinitt. Det kan være hva som helst som er et forskningsobjekt i et prosjekt, for eksempel antallet ord i en tekstsamling, antallet verbalsubstantiver i en roman, antallet passivkonstruksjoner i en teknisk håndbok, antallet instruktive språkhandlinger i en bruksanvisning, antallet informanter som brukte konstruksjonen x i stedet for y i en bestemt dialekt, etc.

Hvis populasjonen er meget stor må vi trekke ut et utvalg. En fordel med det er at prosessen både blir mer håndterlig og er mindre arbeidskrevende. Dessuten vil risikoen for feil bli mindre enn hvis hele populasjonen må prosesseres statistisk. Hvis man har arbeidet med informanter om akseptabilitetsholdninger til avvikende bruk av flertall ved nøytrumssubstantiver i bergensdialekten, for eksempel et fat-fater vs et fat-flere fat, så kan man ikke sjekke alle bergensere. Man må foreta et utvalg, ikke bare et hvilket som helst utvalg, men et tilfeldig utvalg. Et tilfeldig utvalg betyr ikke at man bare plukker ut bergensere tilfeldig, men at utvalget velges på en slik måte at hver informant fra populasjonen har like stor mulighet til å bli representert i utvalget som de har mulighet til ikke å bli representert i utvalget.

Det fins statistiske metoder for hvordan man skal foreta et slikt utvalg, men det er ikke uten videre enkelt. I vårt eksempel er det ikke lett å definere populasjonen heller: Hvem skal telle som ”bergenser” her? Hvor mye skal vedkommende ha bevart av sin bergensdialekt? Hva hvis det er”infisert” av sunnmørsk?

Statistiske metoder har vært gjennomført med suksess både i forbindelse med informantdata og i forbindelse med elektroniske korpora. Et paradeeksempel er Douglas Bibers faktoranalyse i sin flerdimensjonale analyse av tekster fra London-Lund korpuset og LOB-korpuset (jf Biber 1988). En god innføringsbok i statistikk er Christopher Butlers bok fra 1985: Statistics in linguistics. Den har vært brukt av Kolbjørn Slethei i undervisningen i statistikk, og har øvingsprogrammer både for Mac og PC. Den er utsolgt fra forlaget, men Slethei har kopiert opp boken med tillatelse fra forfatteren.

(14)

Hvis man ønsker å ta i bruk statistiske metoder bør man følge kurser i statistikk anvendt på språklige problemstillinger. Seksjon for lingvistiske fag har ofte tilbud om slike kurs.

Det mest grunnleggende å ha et våkent øye for når man bruker statistikk i sin argumentasjon er å være forsiktig med å trekke konklusjoner som det ikke er grunnlag for. Dette er typiske tabber man begår i statistikken. Statistikk kan i aller høyeste grad misbrukes.

For øvrig har det nettopp kommet ut en bok om metoder i samfunnsvitenskapene av professor Sigmund Grønmo: Samfunnsvitenskapelige metoder. Fagbokforlaget 2004. Den inneholder flere metodeeksempler for både kvantitative metoder og kvalitative metoder.

Boken kan anbefales. Forfatteren har lagt frem informative transparenter fra bokens ulike kapitler på nettet, jf.:

<http://www.fagbokforlaget.no/boker/sv-metode/>

Men tilbake til korpus: I realiteten viser det seg ofte at praktiske problemer og begrensninger på ressurser tvinger mange doktorgradskandidater til å anvende den tradisjonelle papirvarianten som korpus.

Uansett, hvis man skal skreddersy et korpus for et spesielt prosjekt, må man ta stilling til hvilke tekster man skal velge. Det dikteres av settet av problemstillinger. Ofte er det slik at de tekstene man ønsker å velge ikke er tilgjengelige av ulike årsaker, eller at de tekstene man har funnet frem til ikke holder mål kvalitetsmessig. Det er selvfølgelig mulig å lete etter tekster på nettet, men de må da kvalitetssikres for prosjektformålet, fordi man ikke har noen garanti for disse tekstenes kvalitet i utgangspunktet.

Det fins flere gode innføringsbøker i korpuslingvistikk: Stubbs (1996) står i den såkalte Firth-Halliday-tradisjonen, Birminghamskolen, mens McEnery et al (2. utg. 2001) tilhører Lancaster-skolen. En forskjell er at Birminghamskolen legger vekt på hele tekster, mens Lancaster-skolen også tillater tekstutdrag og deler av tekster i et korpus.

Begge bøkene kan anbefales.

3.3 Informanter

I mange prosjekter er det vanlig å bruke informanter. Det er mange og vanskelige spørsmål som reiser seg i forbindelse med det: Hvor mange informanter bør man ha?

Hvilken bakgrunn skal informantene ha? (alder, kjønn, utdannelse, sosial tilhørighet, geografisk tilhørighet, etc).

Når man anvender informanter kommer man ikke utenom introspeksjon. Introspeksjon betyr ikke bare at man spør seg selv om data, men at man spør andre språkbrukere om data. I slike tilfeller må disse språkbrukerne konsultere sin egen intuisjon. Dette er problematisk.

(15)

Et kjernespørsmål er: Hvordan skal jeg elisitere/uteske andres intuisjon om data?

Hvordan skal jeg tolke de informantreaksjonene jeg får frem? Man kan operere med ulike typer informantarbeid:

Intervjuet er en vanlig måte. En fordel med intervju er at forskeren selv er til stede og kan observere informanten direkte ”on line” så å si. Dette betyr at forskeren har muligheter for ”feedback”, dvs han/hun har muligheter til å påvirke informanten underveis i prosessen. Dessuten kan forskeren ut fra de svarene som informanten gir, skyte inn tilleggsspørsmål for å følge opp gitte svar.

Dette står i kontrast med spørreskjemaet, hvor forskeren vanligvis ikke har mulighet til å være til stede. Ved denne metoden kan man nå flere informanter enn ved intervjumetoden, men man har færre muligheter for ”feedback”, dvs til å følge opp de data man ha samlet inn.

Begge disse metodene krever nøye planlegging både når det gjelder hvilke spørsmål man skal stille, hvor mange spørsmål man skal stille, og ikke minst hvordan man skal utforme spørsmålene på en slik måte at man virkelig får de data man er interessert i. Ikke lag spørsmål som legger svarene i munnen på informanten. Ikke lag spørsmål som kan tolkes på flere måter. Da får du helt sikkert den tolkningen du ikke intenderte. Bruk god tid til å komponere spørsmålene.

Opptak av informanter, gjerne kombinert med et intervju, kan få frem tilleggsinformasjon som man lett kan gå glipp av ellers, for eksempel prosodiske forhold ved ytringer som intonasjonsmønstre (som jo gir viktig ekspressiv informasjon) og trykkplassering. Ved visuelle opptak får man også et bedre bilde av den situasjonen som forskeren og informanten befinner seg i. Man får også informasjon om paralingvistiske fenomener som gester, kroppspositur og ansiktsuttrykk. Dette kan være viktig informasjon for bedømmelse av informantreaksjoner, ikke bare på språk, men på hele intervjusituasjonen.

informantarbeid

intervju spørreskjema opptak

auditivt, visuelt deltakende observasjon

+feedback

- feedback

+ feedback

(16)

De situasjonene som intervjuer forekommer i, er nemlig av en litt spesiell karakter. Den berømte amerikanske sosiolingvisten William Labov har i et av sine hovedverk

”Sociolinguistic Patterns” fra 1972 beskrevet flere av de problemene man kommer opp i.

Det mest omtalte metodeproblemet kalles the Oberserver’s Paradox, kapittel 8 ”The Study of Language in its Social Context”.

Det mange lingvister er opptatt av er å finne ut hvordan folk bruker språket i dagligdagse situasjoner. Dette kaller Labov ”the vernacular”, eller ”hjertespråket”, som enkelte kaller det på norsk: ”…-the style in which the minimum attention is given to the monitoring of speech”.

Ut fra dette blir da Observer’s Paradox: ”The aim of linguistic research in the community must be to find out how people talk when they are not being systematically observed; yet we can only obtain these data by systematic observation”.

Intervjusituasjonen er en formell situasjon hvor informanten ventelig vil gi “maximum attention to speech”. Hvis ”vernacular” ikke står på dagsorden i intervjuet er ikke dette nødvendigvis et uløselig problem, men man må da være klar over at man får en mer formell, kanskje mer preskriptivt ”korrekt” variant av språkbruk enn den man kanskje er ute etter.

I seg selv er the Oberserver’s Paradox et uløselig problem, men Labov har en rekke gode råd å gi for å kunne komme forbi dette paradokset. Det kan dere lese mer om selv.

En måte å unngå the Observer’s Paradox på er å selv delta i språk og diskurssamfunnet som man skal hente data fra. Denne metoden, kalt deltakende observasjon, har vært brukt med suksess av blant andre Leslie Milroy ved hennes berømte Belfastundersøkelser (Milroy 1980). Hun gjorde seg kjent med språksamfunnet og sosialiserte seg inn i det slik at hun, uten å kunne mistenkes for å ”pay attention to speech”, kunne observere den språkbruken hun var ute etter å analysere.

Ellers er jo denne metoden kjent fra antropologien, og mange ”antropologiske lingvister”, som Edward Sapir, brukte slike metoder i sine studer av indianerspråk i Canada.

Men denne metoden er tidkrevende, og folk flest har jo både familie, slekt og et sosialt nettverk som i praksis hindrer dem i å bruke en slik metode.

En annen form for deltakende observasjon er såkalte longitudinelle studier. Dette er mye brukt innenfor førstespråkslæring. Det har ofte vært populært å bruke sine egne spedbarn som informanter for å finne ut hvordan vi lærer vårt morsmål. Hvilke faser/nivåer man kan identifisere og hvordan disse fasene kan korrelere med allmenn kognitiv utvikling.

Bruk av spedbarn er en svært krevende oppgave, og spesielle, mer indirekte elisitasjonsmetoder må tas i bruk i den grad det overhodet er mulig å elisitere i det hele tatt. Tålmodighet er svært viktig her.

(17)

3.4 Kombinasjoner av datakilder

Det vi alt har sagt understreker at vi hele tiden må spørre oss selv: Hvor sikre er våre kilder til data? Hvilke data er relevante? Er data gyldige? For å kunne diskutere disse spørsmålene mer inngående må vi se på hvordan vi kombinerer ulike datakilder, og hvilke implikasjoner det har.

Som vi allerede har vært inne på kan ikke korpusdata eller informantdata brukes uten et innslag av introspeksjon. Stubbs (1996:4) skiller i forbindelse med korpusarbeid mellom 3 ulike datakilder: 1. attesterte, autentiske data, 2. modifiserte data og 3. konstruerte, intuitive, introspektive data. Vi har allerede påpekt at introspeksjon er involvert både i forbindelse med korpusdata og med forskerens egne intuitive data.

Måten vi henter ut data på er også avhengig av hvordan vi betrakter studieobjektet.

Mange språkforskere ser på språk som en sosial institusjon som er styrt av normer. Noen er interessert i språkbruk i forskjellige domenetyper mens andre er interessert i å studere grammatiske egenskaper ved språk. Med andre ord er det språkbruk eller språksystem vi forsker på.

Hvis vi er interessert i språksystemets syntaks, for eksempel, bør vi ta stilling til

grunnleggende begreper som setning og ytring. Ytringer er observerbare mens setninger ikke er direkte observerbare. En ytring er konkret og utspiller seg i tid og rom, mens en setning kan betraktes som en abstraksjon av et sett av ytringer med felles egenskaper. En setning kan sies å være en generalisering over et sett av ytringer. En ytring har alltid en kontekst, mens en setning prinsipielt er kontekstfri, nettopp fordi den er en abstraksjon, en generalisering. Lyons sier at den er ”maksimalt avkontekstualisert” (Lyons

1977:570ff).

I følge generativ grammatikk har vi intuisjon om både setninger og ytringer. Setninger hører til språksystemet og ytringer hører til språkbruken. Setninger kan deles i

grammatiske og ugrammatiske, mens ytringer deles i akseptable og uakseptable:

setninger ytringer

språksystem språkbruk

grammatiske vs ugrammatiske akseptable vs uakseptable ikke direkte observerbare direkte observerbare maksimalt avkontekstualiserte kontekstavhengige

Chomsky har påpekt at vi kan skille mellom grammatiske og ugrammatiske setninger selv om begge er uakseptable:

(18)

5. Colorless green ideas sleep furiuosly.

6. *Colorless sleep green ideas furiously.

Når vi spør en informant om en setning er grammatisk eller ikke, er det slett ikke sikkert at det vi får til svar er et utsagn om grammatikalitet. Høyst sannsynlig er det et utsagn om akseptabilitet. En viktig grunn til at vi ikke aksepterer setning 5. som en akseptabel setning er at vi ikke kan forestille oss en kontekst hvor det ville være naturlig eller vellykket å bruke en slik setning. Setning 5. ligger der som et grammatisk potensiale som ikke har noe ytringsmessig nedslagsfelt. Likevel kan vi konstatere at 5. er grammatisk mens 6. ikke er grammatisk.

Abstraksjonsforskjellen mellom setning og ytring kan vi ikke forvente at vår informant kan ta høyde for. Evnen til å kunne tenke seg en mulig situasjon/kontekst hvor en gitt ytring kan tenkes brukt krever både fantasi og forestillingsevne.

La oss sette opp en oversikt slik at vi kan drøfte dette mer inngående:

Denne modellen overforenkler forholdet mellom datakildene. Det er snarere slik at distinksjonen mellom empirisk og ikke-empirisk er en graduell distinksjon, ikke en enten- eller distinksjon (eller diskret distinksjon). Hvis man i hovedsak stoler på egen intuisjon, og eventuelt diskuterer med et par kolleger, er den empiriske forankring lav. Denne metoden kan brukes i hypotesedanningsfasen, men ikke i testfasen av hypoteser, i alle fall i følge manges oppfatning.

Hvis man ønsker å studere grammatiske egenskaper ved et språksystem, vil alle de tre kildene i modellen være aktuelle. Det ideelle er kanskje å konfrontere informanters

metoder

empiriske ikke-empiriske

korpus informant-

reaksjoner introspeksjon

(19)

reaksjoner med egne intuitive introspeksjonsdata. Denne konfrontasjonen er svært problematisk, nettopp fordi det ideelle er ”naive språkbrukere” som skal anvendes.

Det fins ingen enkel metode for å foreta en slik konfrontasjon, fordi man vanskelig kan diskutere informantenes reaksjoner med informantene selv. Dette krever en ferdighet som innebærer å kunne bruke språket på et metanivå.

Hva skal vi da gjøre? Skal vi trene opp informanten, slik enkelte har foreslått? Dette står i så fall i sterk kontrast til det som er idealet: den ”naive” språkbrukerens intuisjon.

Dessuten: Hvis vi trener opp informantene, hvilke data får vi da frem? Risikerer vil å få ugyldige data? Hvem er de beste informantene i ditt prosjekt? Dette lar seg ikke besvare på noen enkel måte.

Vi risikerer i alle fall å få en annen type data enn det vi er ute etter. Hvis vi leter etter egenskaper ved grammatiske setninger, opererer vi på et mer abstrakt plan enn

ytringsplanet. Mennesker har en evne til å kunne bedømme avkontekstualiserte ytringers grammatiske status, men det er ikke enkelt for en utrent informant.

Hvis vi er interessert i ytringer i visse typer kontekst virker det hele mer overkommelig, men da må vi ta stilling til hva kontekst er. Dette er et begrep som i mange

tekstlingvistiske sammenhenger betraktes som et logisk primitiv, dvs som et fenomen som det er utstrakt enighet om fortolkningen av.

Kontekstbegrepet er dessverre ikke noe logisk primitiv, og er et av de vanskeligste begrepene innen lingvistikken. Det fins ingen objektiv typologi for kontekster. Hvor slutter én kontekst og hvor begynner en annen? Det samme problemet har man om man opererer med begrepet ”situasjon” som et logisk primitiv. Man tror at kontekster er noe som er gitt i data, men det er ikke tilfelle. Kontekst er ikke gitt, kontekst skapes.

Deidre Wilsons relevansteori (Sperber et al 1986) påpeker at kontekster ikke er statiske, gitte størrelser. De skapes av forfatter og leser i fellesskap. Når vi leser er vi ikke passive observasjonsmottakere, som positivistene mente, men aktive fortolkere. Vårt mål er å oppnå forståelse. Hvis vi ikke forstår prøver vi å presse frem koherens ved å aktivere inferenser ved lesning. Vi prøver å sette oss i avsenderens sted for å søke å få tak i avsenderens intensjoner. Kontekst skapes i denne prosessen. Dette er et sentralt punkt i relevansteorien.

Alle data er situert i kontekst. Det kommer vi ikke forbi. Tekster er i utgangspunktet kun en bestemt konstellasjon av bokstaver og ord satt sammen på en spesiell måte med tegnsetting og avsnitt etc. Dette er våre ufortolkede data. Mening er ikke manifest i korpusdata. Mening fortolkes inn i teksten sammen med kontekstetablering og vår verdenskunnskap. Det er klart at elementer av introspeksjon også er involvert i en slik prosess.

Når det gjelder innhold må vi skille mellom eksplisitt, kodet innhold og implisitt innhold, dvs implikasjoner, eller implikaturer, som Searle kaller dem. Implikaturer må også

(20)

relateres til kontekstbegrepet. Konteksten er jo grovt sett den delen av meningen som varierer fra situasjon til situasjon. Noen implikaturer er kontektstuelle mens andre er uavhengige av kontekst, såkalte konvensjonelle implikaturer.

Begrepet ”kontekst” er også forbundet med begrepet ”subspråk” (Thompson 1996). Det er vanlig å beskrive språk i allmennspråklig forstand som et system fullt av

mangetydigheter og uklarheter. Mange av disse mangetydighetene disambigueres i kontekst på en rimelig måte.

En viktig type subspråk er det vi kaller fagspråk, dvs faglig kommunikasjon vanligvis i en yrkesmessig og spesialisert sammenheng. Mange forskere hevder at denne type kommunikasjon er preget av entydighet, særlig på ordnivå i form av terminologi.

En vesentlig grunn til at faglig kommunikasjon er mer entydig på ordnivå er ikke bare de preskriptive anbefalingene som ”unngå polysemi ved termdanning”, men også det faktum at rammene for mange typer kontekster i større grad er fastlagte og i større grad

identifiserbare enn rammene for kontekster i allmennspråket.

Dessuten er ulike fagspråksvarianter mer spesialiserte enn i dagligspråket. Dette har selvsagt med intensjonsdybde å gjøre, men det er viktig å påpekte at jo mer man snevrer inn settet av mulige kontekster for kommunikasjon, desto mindre polysemi får man. Det synes klart at i juridiske tekster vil ”rett” være en grunnterm og brukes på en mer systematisk måte enn i allmennspråket, og ”rett” i kulinariske sammenhenger vil også være en term som brukes med større intensjondybde enn i allmennspråklige

kommunikative situasjoner hvor dette ikke er potensielt tematisert.

Derfor vil forutsigbarheten med hensyn til tolkningen av potensielt polyseme termer avhenge av hvilket subspråk man opererer innenfor. Det som er mangetydig i allmennspråket er ikke uten videre mangetydig innen et subspråk. Siden

”allmennspråket” åpner opp for mye større deler av skalaen av mulige kontekster, vil polysemien nettopp blomstre der, fordi det ikke settes a priori kontekstuelle begrensinger på det. Når det gjelder litteratur om polysemi kan jeg anbefale James Pustejovskys

arbeider, særlig hans monografi om det generative leksikon (1998), en form for leksikalsk semantikk som er godt tilrettelagt for datalingvistiske problemstillinger.

(21)

Et annet begrep som bør problematiseres er begrepet ”tekst” selv. Dette er heller ikke noe logisk primitiv. Hva er tekst? Er det kun innersirkel i vår modell, er det innersirkel og første konsentriske utenfor? eller alle tre? Må tekst analyseres i relasjon til også andre tekster? Kan man analysere kun hele tekster (Stubbs) eller kan man analysere deler av tekster? Hva blir konsekvensene teoretisk og praktisk?

Datas situerthet gjelder også når vi tilskriver andre språkbrukeres ytringer mening gjennom informantarbeid. Likevel skal vi huske på at det er jo nettopp tilskriving av mening hos andre personer vi driver med hele tiden når vi bruker språket.

Hvis vi skulle ta alt dette på alvor i positivistisk forstand, ville vi måtte konkludere med at det ikke er mulig å nå frem til data om språk på en sikker måte i det hele tatt. Kanskje er også dette korrekt, men det bør likevel ikke avskrekke oss. Vi vet at det fins en rekke hermeneutiske lag mellom språklige data og oss selv som språkforskere, men hvis vi er klar over dette vil vi også være i stand til å trekke de rette konklusjonene på grunnlag av de dataene vi har.

For øvrig kan jeg anbefale den nettdiskusjonen som har pågått innen kognitiv lingvistikk på Cognitive Linguists List, hvor flere av de nevnte problemene har vært diskutert på en innsiktsfull måte. Nettsiden kan nås fra nettsiden for Kognitiv vitenskap:

<http://www.hf.uib.no/i/Nordisk/ansatte/Barddal/Kognitiv.Vitskap>

eller direkte:

http://listserv.linguistlist.org/cgi-bin/wa?A1=ind0407&L=cogling#23

kontekst innhold tekst

(22)

4. Hypoteser

Hypoteser kan ikke etableres induktivt. Hypoteser fremkommer som et resultat av at vi har reflektert over et problem og hvordan det kan løses. Gjennom problemformuleringen kan vi da vaske ut et sett av hypoteser som må formuleres mest mulig presist, klart og entydig.

Hypoteseformuleringer må ikke inneholde begreper som er vage. De kan inneholde begreper som er kontroversielle i den forstand at det hersker uenighet om fortolkningen av dem i forskersamfunnet, men da må de intenderte betydningene av disse begrepene presiseres.

Det fins ingen kjent metode for å nå frem til hypotesene. De etableres ofte via refleksjon over et sett av problemer. Introspeksjon og ens egen intuisjon er ofte til hjelp her. En viss observasjonskompetanse er også en viktig kilde til hypotesedanning. Ofte er det snakk om å prøve å identifisere et sett av egenskaper assosiert ved et fenomen som skal undersøkes nærmere.

Et viktig krav til hypoteser innen språkvitenskap og filologi er at de må være empririsk forankret. Den mest nærliggende konsekvensen av det er at hypoteser må være testbare.

Det betyr at det må være mulig å utrede de betingelser som må til for at hypotesen skal kunne testes. Hvis man ikke umiddelbart kan gjøre rede for det i alle detaljer og aspekter, må man i alle fall stille krav til prinsipiell testbarhet. Popper snakker om prinsipiell avkreftbarhet. Hvis det ikke er mulig å se hvilke betingelser som må til for at hypotesen skal kunne avkreftes, er den ikke empirisk.

Det fins mange hypoteser innen lingvistikken som ikke er empiriske. Et typisk eksempel er den generative grammatikkens hypotese om at mennesket har en innebygget biologisk universell grammatikk. Denne grammatikken postuleres ut fra en nullhypotese om at siden spedbarn over hele verden, uansett bakgrunn, lærer seg sitt morsmåls grammatikk i løpet av to år, omtrent fra 1 til 3 årsalderen. Det er ikke mulig å forklare dette på noen annen måte enn at barnet må ha en medfødt grammatikk som inneholder alt som er felles for alle språk i verden.

Men: Under hvilke betingelser skal man kunne teste dette? Per dato fins det ikke noen muligheter for å kunne forankre en slik hypotese empirisk. Det finnes heller ingen muligheter for å finne de betingelsene som prinsipielt sett kan avkrefte en slik hypotese gjennom observasjon eller eksperimenter. Det samme gjelder flere hypoteser om hvordan språk endrer seg. Skjer endringene i overensstemmelse med bestemte parametre eller er endringene av mer graduell karakter. Hvis man ikke kan bruke performansdata til å teste dette er det ikke mulig å se hva som må til for å kunne teste en slik hypotese.

(23)

5. Modeller

I praktisk talt enhver innføringsbok i et vitenskapelig domene fins det en rekke modeller som leseren må forholde seg til på en eller annen måte. Det kan for eksempel være en skjematisk fremstilling av komponentene i menneskelige naturlige språk (for eksempel nivåene fonologi, morfologi, syntaks og sematikk), det kan være en matrise over

fonologiske trekk i et enkeltspråk, det kan være en fremstilling av tekstbegrepet i form av konsentriske sirkler (som jeg har benyttet meg av i denne forelesningen), etc.

Modeller er nyttige for oss fordi de hjelper oss til å forstå abstrakte fenomener som vi ellers vanskelig ville kunne gripe.

Hva er så en modell? Vi bruker jo ordet i dagligspråket. Da jeg var liten gutt var jeg svært glad i å sette sammen modellfly og modellbåter. Hva er det som skiller disse modellene fra det de er modeller av?

For det første er modeller ofte ikoniske, dvs de er en slags kopier av en original.

For det andre er modellene mye mindre enn originalene som de søker å kopiere. Et virkelig fly er jo for stort å sette sammen.

For det tredje er modellene bare delvise. Mitt modellfly hadde ingen motor og intet avansert styrepanel. Landingshjulene gikk ikke rundt og kunne ikke trekkes inn og ut av flykroppen.

For det fjerde var mine modellfly laget at skjørt plast. Hvis ”virkelige” fly hadde vært laget av det ville jeg neppe ha satt mine bein i det.

Slik er det også med de modellene vi lager oss i fremstillinger av menneskelige naturlige språk. De inneholder bare deler av den virkeligheten vi søker å modellere, nærmere bestemt det utsnittet av virkeligheten som opptar oss og som vi fokuserer på gjennom våre hypoteser.

Den kognitive psykologen P.N. Johnson-Laird (1987) påpeker at mennesket hele tiden konstruerer mentale modeller av den persiperte virkeligheten. Dette er faktisk en grunnleggende forutsetning for vår forståelse av verden. Det å forstå et fenomen betyr i følge ham å ha en arbeidsmodell av fenomenet i hodet på samme måte som en klokke er en modell av, ikke bare tidens gang, som for de fleste av oss, men også en modell av jordens rotasjon hvis man legger litt større intensjonsdybde i den. En og samme modell kan altså tolkes på flere nivåer.

Et annet viktig poeng hos Johnson-Laird er at det ikke finnes noen komplette modeller av noen empiriske fenomener. De er per definisjon partielle, slik som modellflyene i vårt eksempel. Modellene er derimot slik konstruert at visse ting, som for eksempel hypoteser, kan avledes fra dem. Modeller er derfor et grunnleggende element i vår tenking

(24)

overhodet, enten dette gjelder vitenskapelige resonnementer eller dagligdagse problemløsninger.

5.1. Modeller vs teorier

Modeller hjelper oss altså til å anskueliggjøre ting, men modeller kan også lede oss inn i feller. Det er en typisk tendens for uerfarne studenter at de begynner å ”tro” på modeller og betrakter dem som sannheter. Modellene begynner da så å si ” å leve sitt eget liv”.

Dette er en form for det Dyvik kaller for begrepsrealisme, dvs troen på at visse begreper og modeller har en reell eksistens. Det er klart at mitt modellfly har en reell eksistens, men modeller av mer abstrakte ting som språklige fenomener og de postulerte

regelmessighetene som ligger til grunn for dem har ingen annen reell eksistens enn en skisse på et tegnebrett. Vi kan lage et sett av alternative skisser eller modeller av samme fenomen uten at noen av dem blir mer reelle enn noen av de andre.

Men hvis vi går gjennom skissene vil vi kanskje se at noen av dem er mer hensiktsmessige enn andre fordi de førstnevnte setter en i stand til å gripe generaliseringer som de andre ikke setter en i stand til.

Slike skisser er ofte fruktbare både når det gjelder å teste allerede etablerte hypoteser og når det gjelder å generere nye hypoteser. Dette kan i sin tur føre til ny teoridanning innen et domene.

Det som er viktig i denne forbindelsen er å skille mellom modell og teori. En modell er en fremstilling av et vitenskapelig språk, en terminologi eller et begrepsapparat som man har funnet nyttig å bruke i en vitenskapelig fremstilling av et problem. Som modell er den mer eller mindre fruktbar til sitt formål, til forskjell fra teorier og hypoteser, som kan deles i sanne eller falske. Påstander har sannhetsfunksjon og inngår i hypoteser og i teorier. Elementer i teorier har kun fremstillingsfunksjon, dvs en beskrivende funksjon.

Teorier er sanne eller usanne, modeller er brukbare eller ubrukbare.

Selv om jeg har trukket frem de mentale arbeidsmodellene som vi bruker hele tiden, må vi skille mellom disse og våre vitenskapelige modeller. De mentale arbeidsmodellene er ubevisste til forskjell fra de bevisste vitenskapelige modellene. Man kan kanskje si at arbeismodeller er en form for taus kunnskap mens vitenskapelige modeller er en eksplikering av en taus kunnskap.

5.2. Modeller og Pilotprosjekter

Modellkonstruering er typisk for den delen av et vitenskapelig eksperiment som man kaller et pilotprosjekt.

Selv om en forsker har utarbeidet et sett av hypoteser innen et domene som han ønsker å finne noe mer ut om, er det ikke sikkert at han/hun ønsker å teste disse hypotesene på et

(25)

stort materiale. Det kan hende (som jo som regel er tilfellet) at det store ”representative”

materialet ikke er samlet inn enda.

I mange tilfeller er det slik at selve testeprosessen avslører at noen av hypotesene må modifiseres, og at de reviderte hypotesene krever andre typer data enn det som fins i det store korpuset, og at visse deler av det opprinnelige korpuset ikke lenger inneholder relevante data som kan belyse de nye hypotesene.

Hvis man da ha lagt et betydelig og tidkrevende arbeid i innsamlingen av disse dataene kan man lett få følelsen av å ha kastet bort tiden.

Dette kan man i noen tilfeller unngå hvis man tester sine utgangshypoteser på et mindre utvalg av data, dvs en modell av prosjektet i mindre målestokk. Dette vil kanskje også kunne utkrystallisere modifikasjoner av noen av hypotesene og kanskje også generere noen nye. Dette vil da kunne peke på hvilke data man skal søke etter.

Dette er i grunnen bare en variant av hypotetisk-deduktivisme kontra en induktiv metode:

Ikke start med et stort korpus. Prøv å lage en modell slik at du kan teste dine hypoteser i en mindre skala før du gir deg i kast med større datamengder. Da kan du spare mye tid.

6. Konklusjoner

Jeg håper at denne oversikten har bidradd til å skaffe dere en bedre oversikt over de mest omtalte og mest overgripende metodene i lingvistikken. På et mer spesifikt plan fins det selvsagt en lang rekke metoder som ikke er omtalt her, men de er i større grad

domeneavhengige enn de som er omtalt her. Men husk: Selv om det fins godt utprøvede og vellykkede metoder i lingvistikken, er det slett ikke sikkert at de uten videre kan anvendes i ditt prosjekt uten tilpasninger.

Referanseliste

Beaugrande, R.de & W. Dressler (1981): Introduction to Text Linguistics.

Longman Group UK Limited. Essex.

Biber, D. (1988): Variation across speech and writing. Cambridge University Press.

Cambridge.

Bloomfield, L. (1933): Language. Holt. New York.

Breivega, K. R. (2003) Vitskaplege argumentasjonsstrategiar. Ein komparativ analyse av superstrukturelle konfigurasjonar I medisinske, historiske og språkvitskaplege artiklar. Universitetet i Bergen.

Brown, E. (1984): Hypotetisk-deduktiv metode – et omriss. Sigma Forlag A.S. Bergen.

(26)

Butler, Chr. (1985): Statistics in linguistics. Basil Blackwell. Oxford. Kopiert med tillatelse fra forlaget. August 1994.

Chomsky (1957): Syntactic Structures. Mouton. The Hague.

Chomsky, N. (1986): Knowledge of Language.: Its Nature, Origin and Use. Praeger Special Studies. New York.

Dyvik, H. (1980): Grammatikk og empiri. En syntaktisk modell og dens forutsetninger.

Universitetet i Bergen.

Dyvik, H. (1992): To forelesninger om lingvistikkens vitenskapsteori. Institutt for fonetikk og lingvistikk skriftserie nr 41, Serie B. Bergen.

Dyvik, H. (1997): Data, facts and concepts of language. Lecture at the summer school on Language Data and Linguistic Questions, Bergen, 1997

Grønmo, S. (2004): Samfunnsvitenskapelige metoder. Fagbokforlaget. Bergen.

Haslev, M. (1985): Lorang eller den forbudte fonologi. Bind 1. Skriftserie nr 18, serie A.

Institutt for fonetikk og lingvistikk.

Haslev, M. (1995): Skrift og transkripsjon. Skriftserie nr 51. Serie A. Institutt for lingvistikk og litteraturvitenskap. Bergen.

Johannessen, K. S. (1999): Noen aspekter ved taus kunnskap: forelesning ved

Utviklingsprogram for universitetspedagogikk. i: PLF-rapport nr 2.A. Bergen.

Johnson-Laird, P. N. (1987): Mental models. Cambridge University Press. Cambridge.

Kjørup, S. (1996): Menneskevidenskaberne. Problemer og traditioner i humanioras videnskabsteori. Roskilde Universitetsforlag. Fredriksberg.

Labov, W. (1976): Sociolinguistic Patterns. University of Pennsylvania Press.

Philadelphia.

Lyons, J. (1977): Semantics I og II. Cambridge University Press. Cambridge.

McEnery, T. & A. Wilson (2001): Corpus Linguistics. Edinburgh University Press.

Edinburgh.

Milroy, L. (1980): Language and social networks. Blackwell. Oxford.

Polanyi, M. (1967): The tacit dimension. Routlegde & Kegan, Paul. London.

(27)

Popper, K. (1972): Conjectures and refutations. xxx. London.

Pustejovsky, J. (1998): The Generative Lexicon. MIT Press. Cambridge.

Sapir, E. (1921): Language. An introduction to the study of Speech. Oxford University Press. London.

Searle (1969): Speech acts. Cambridge University Press. Cambridge.

Sperber, D. & D. Wilson (1986): Relevance: Communication and Cognition. Harvard University Press. Massachusetts.

Stubbs, M. (1996): Text and Corpus Analysis. Blackwell Publishers. Oxford.

Thompson, B.N. (1996): The sublanguage paradigm: A comprehensive theory of linguistic activity. i: Partee, B.H. & P. Sgall (1996): Discourse and meaning.

Papers in Honour of Eva Haji ová. John Benjamins Publishing Company.

Amsterdam/Philadelphia.