• No results found

milliarder ord

In document POLITIKK OG JOURNALISTIKK (sider 135-139)

hva det kan levere av resultater

omkring 34 milliarder ord

Nasjonalbiblioteket som moderinstitusjon, mens N-gram er et uttrykk i datalingvistikken som hen-viser til bokstavsekvenser eller ordsekvenser. Ordet

«gram» brukes vanligvis om vekt, men i denne sam-menhengen viser det til utdrag av ordsekvenser fra digitaliserte avistekster. Enkeltord kalles 1-gram, mens fire ord i en sekvens kalles quadgram.

NB N-gram er altså et IT-verktøy som setter bruker en i stand til å søke etter ord i det lageret (det vil si korpus) som Nasjonalbiblioteket nå har av digi-taliserte tekster. Korpuset som verktøyet søker i, er satt sammen av alle tekster som var digitalisert av Nasjonalbiblioteket frem til 2013. Det består nå av ca. 11 milliarder ord fra bøker og ca. 23 milliarder ord fra aviser. Samlet omfang i 2019 er altså omkring 34 milliarder ord. Med «ord» menes her det som regnes som et «token» (symbol/tegn), så et ord kan også være punktum, komma og andre tegnsettinger og forkor-telser. Denne såkalte tokeniseringen gjør det mulig å skille mellom de tilfeller der f.eks. et punktum opptrer som en setningsgrense, og der det er en del av en forkortelse.11 Etter hvert som Nasjonalbiblioteket

fort-setter å digitalisere stadig flere tekster, har institusjo-nens totale korpus av tekst i digital form økt til over 55 milliarder ord.12 Men søk i denne tekstmassen er – så vel som de nyeste tendensene – for øyeblik-ket kun tilgjengelig via et hjelpemiddel som Jupyter Notebook og ikke på nett-sidene, men Nasjonalbiblioteket arbeider med å få det utvidede korpuset tilgjengelig på nettet også.13

Om NB N-gram skriver Nasjonalbiblioteket på sine nettsider at dette er en søketjeneste som gir

«deg muligheten til å finne og sammenligne ord-frekvenser, dvs. når og hvor ofte ord forekommer i et historisk perspektiv». Man kan søke i store deler av bok- og avismaterialet som Nasjonalbiblioteket har digitalisert, heter det. NB N-gram omfatter bøker og aviser fra 1810 og frem til og med september 2013.

Nettbrukeren får vite at det dreier seg om et tekst-materiale på om lag 11 milliarder ord fra bøker og 23 milliarder ord fra aviser. Videre heter det at etter hvert

som NB N-gram blir etablert som en varig tjeneste, vil det bli mulig å avgrense søkene etter kilde, sjanger, medietype og så videre.14

Trendlinjer

NB N-gram har siden starten i 2014 bestått av tre funksjoner. Den første er såkalte trendlinjer, som lar brukeren undersøke og sammenlikne tallmessige forekomster av ord og fraser over tid. Her kan vi altså få opp endringer i offentlig ordbruk – slik NB N-gram finner dem som historiske tendenser i aviser eller bøker. La oss se på noen eksempler.

Det første diagrammet viser hvordan NB N-gram visualiserer søkeresultatet på navnet til tre av våre eldste politiske partier - Venstre, Høyre og Arbeider-partiet - i tiden fra 1880 til 2013. De tre grafene viser til omtale i pressen, begge målformer og er vist med relative tall. Glattefaktoren er her satt til 5.

Figur 1 viser hvordan NB N-gram får frem den relative presseomtalen av de tre eldste partiene i Norge i perioden 1880–2013. Diagrammet viser inter-essante tendenser for hvert av de tre partiene. Den første er at Venstre oppnår den mest omfattende presseomtalen helt fra 1884 og fremover til midten av 1930-årene. Venstres andel av presseomtalen synker mot slutten av 1930-årene, er ekstremt lav under okkupasjonen 1940–45, men stiger deretter dramatisk

utover i etterkrigstiden. Omtalen når toppen helt i begynnelsen av 1970-årene, med EF-avstemningen i 1972 og den påfølgende partisplittelsen. Deretter synker andelen helt til en ny stigning fanges opp de siste årene frem til 2013.

Den andre tendensen gjelder Arbeiderpartiet.

Etter en langsom vekst når partiet en foreløpig omta-letopp midt i 1930-årene. Deretter forsvinner partiet fra avisene under krigsårene, men vender tilbake i 1945. Derfra og fremover ser vi en langstrakt vekst for partiet helt til omkring 1980. Deretter har den relative omtalen av Arbeiderpartiet sunket betydelig, bare avløst av en liten stigning rett før 2013.

Den tredje tendensen gjelder Høyres vekst. Den kommer for alvor i gang først i 1940-årene. Fra 1945 til 1970 stiger den relative omtalen av Høyre nokså jevnt fra år til år. Fra 1970 inntrer et skifte, slik at Høyres omtale nå begynner å vokse mye brattere enn før.

Denne voldsomme veksten fortsetter til 1981. Deret-ter ser vi at kurven avtar gjennom et langsomt fall gjennom 1980- og 1990-årene, men en ny vekst sees for partiet de siste årene før 2013.

Om vi nå sammenlikner kurvene for de tre parti-ene, ser vi en tydelig tendens: Det er lett å identi-fisere landets viktigste parti ut fra grafen. Venstre dominerer norsk politikk i tiden 1884–1935, og dette kan vi rett og slett gjenfinne i figur 1. Rundt 1950 er Figur 1. Diagram fra NB N-gram med presseomtale av partiene Venstre, Høyre og Arbeiderpartiet i perioden 1880–2013. Relative tall, begge målformer, stor forbokstav. Glattefaktor 5. Søkedato: 6.11.2019.

MEDIEHISTORISK TIDSSKRIFT NR. 2 2019 (NR. 32) 137

det det statsbærende Arbeiderpartiet som får mest presseomtale av de tre, og dets dominans holder seg frem til om lag 1980. Derfra og fremover ser vi at det er Høyre som får den mest omfattende presse-omtalen. Partiet ligger langt over de to andre i alle år etter 1980 og beholder således sin ledelse helt til tallene slutter i 2013.

Slik kan vi altså bruke NB N-gram. Spørsmålet som melder seg, er dette: Var det virkelig slik? I hvilken grad kan vi stole på disse resultatene? Det vi i første omgang vet, er at NB B-gram viser oss det resultatet vi har bedt det om å søke etter i Nasjonalbibliotekets korpus av digitaliserte tekster fra norske aviser i undersøkelsesperioden. En måte å arbeide videre på er å utføre flere ulike søk og med forskjellige, men beslektede, søkeord. Vi kan for eksempel søke på kjente norske politikere. Velger vi tre av dem, gir NB N-gram oss dette resultatet:

Figur 2 viser relativ presseomtale av tre av de mest kjente norske politikerne i årene 1951–2013. Igjen ser vi tre tydelige tendenser. Den første er hvordan Einar Gerhardsen var den mest omtalte av de tre frem til Kåre Willoch overtok den posisjonen kort tid etter 1965. Willochs relative presseomtale holdt seg så noenlunde stabil frem til slutten av 1970-årene, da den begynte å stige. Han nådde toppen i sin stats-ministertid 1981–86. Deretter dalte omtalen til et

lavere nivå, men forsvant aldri helt, selv ikke i 2013.

For Gro Harlem Brundtland ser vi at hun for alvor ble et navn i pressen da hun ble miljøvernminister i 1974.

Deretter steg omtalen av henne svært bratt til den nådde en foreløpig topp med hennes første regjering i 1981. Etter et fall de neste årene steg omtalen til det høyeste nivået som figur 2 viser, totalt sett, fra hennes andre regjering i 1986 og frem til begynnelsen av 1990-årene. Deretter faller andelen raskt til et nokså lavt nivå mot slutten av 1990-årene, men på dette nivået fortsetter hennes navn å være med helt til 2013.

Figur 1 og 2 viser hvordan vi kan bruke NB N-gram til å forske i presseomtalen av politiske partier og navngitte politikere. Men vi kan selvfølgelig også bruke verktøyet til å forske direkte på selve medie-utviklingen, slik figur 3 viser:

Figur 3 gir et eksempel på hvordan vi kan bruke NB N-gram til å utforske presseomtalen av medie-utviklingen selv. De tre store, nye massemediene utover i det 20. århundret var filmen, radioen og fjern-synet – og i figur 3 ser vi hvordan deres vekst slo inn i pressen. Hvert medium har sin egen tendens. Filmen er det mest omtalte mediet av de tre fra 1910 og helt til midten av 1940-årene. Fra da av blir filmomtalen liggende på omtrent samme andel frem til slutten av 1980-årene. Da inntraff en økning i filmomtalen frem til midt i 1990-årene, før den deretter sank. En liten Figur 2. Omtale av politikerne Einar Gerhardsen, Gro Harlem Brundtland og Kåre Willoch i norske aviser 1951–2013. Relative tall, begge målformer. Glattefaktor 2. Søkedato: 2.11.2019.

stigning sees like før 2013. Radioen fikk presseomtale fra omkring 1920, og andelen steg frem til 1940. Den sank under okkupasjonen, men steg dramatisk fra 1945 av. Utover i etterkrigstiden steg så radioomtalen til dramatiske høyder omkring 1985. Deretter har den sunket. Presseandelen for fjernsynet begynte å øke mot slutten av 1950-årene. Økningen fortsatte gjennom 1960-årene og holdt seg noenlunde stabil gjennom 1970- og 1980-årene, før den viser synkende tendens i 1990-årene og i 2000-årene.

De tre figurene vi nå har sett på, er kun ment som illustrasjoner. Ideelt sett bør man nok utføre flere slike forsøk for å se om ulike søk – og søkeord – bekrefter hverandre. Det viktigste de tre figurene viser i øyeblik-ket, er kanskje dette: NB N-gram kan vise presse-omtalens fluktuasjoner for både politiske partier, organisasjoner og enkeltpersoner som har vært aktive i den norske offentligheten. Men verktøyet kan også brukes til å kaste lys over medieutviklingen i seg selv.

Ved å bruke søkeord fra medienes egen historie, kan vi oppdage mønstre som ingen før har sett.

Det er lett å se at disse søkemulighetene kan komme til å sette fart i utforskningen av det tekst-lige innholdet i norsk presse. Nå finnes det som kjent ulike måter å studere pressen på. Dahl skiller mellom tre typer: Pressen kan studeres som 1) opinion, altså som meningsbærer; som 2) et eget system (slik bl.a.

Svennik Høyer har gjort), eller den kan studeres som

3) tekstlig produkt.15 Denne inndelingen hjelper oss til å plassere NB N-gram som verktøy i pressehistorisk forskning, for dette verktøyet kan åpenbart hjelpe oss til å studere pressen som tekst. Et hvilket som helst tema kan nå studeres i detalj, fordi tekstmassen som ligger i bunnen, nå er blitt søkbar. Vi kan nå altså begynne å stille helt nye typer spørsmål, slik som: Hva slags ordbruk har vært vanlig i norske aviser om et spesifikt emne over tid?

En uendelighet av omtalte temaer i avisene blir nå altså aktuelle på nytt. Vi kan tenke oss spørsmål som:

Når tok man egentlig i bruk et ord som «fascisme» i norsk presse? Hvor utbredt var det? Har bruken gått i bølger? I så fall: Når inntraff toppene og bunnene?

Eller hva med bruken av ord som vi i dag anser som belastende og fordomsfulle om ulike sosiale grupper?

Når oppstod denne typen språkføring, og hvor lenge varte den? Eller når begynte norske aviser å omtale Einar Gerhardsen som «landsfaderen»? Hvor utbredt var den betegnelsen? Eller: Når kom ord som «miljø»

og «klima» inn i norsk presse for alvor? Hvor lå starten, gjennombruddet og brukstoppen for disse ordene?

Disse eksemplene viser at NB N-gram gir brukeren nye muligheter til å utnytte digitaliserte avistek-ster som historisk kilde. Det har en rekke fordeler å anvende aviser som kilder. For det første er de lette å datere. For det andre har de status som folkelesning, det vil si at de har allmenn utbredelse i befolkningen.

Figur 3. Presseomtale av film, radio og fjernsyn i perioden 1910–2013. Relative tall, begge målformer. Glattefaktor 2. Søkedato: 2.11.2019.

MEDIEHISTORISK TIDSSKRIFT NR. 2 2019 (NR. 32) 139

For det tredje inneholder avisene sin tids offent-lige språkbruk, det vil si vanoffent-lige ord og vendinger.

Det er slett ikke alle kilder som har disse egenskapene.

Dette åpner nå for forskningsmuligheter som faktisk skiller seg radikalt fra all tidligere presseforskning:

Hvilke forskere har til nå hatt tid og ressurser til å gjøre manuelle undersøkelser av flere milliarder ord i norske aviser – for å lete etter ukjente mønstre?

Dimensjonene i alle disse milliardene med ord er svimlende, men la oss likevel beholde nøkternheten.

NB N-gram reduserer ikke behovet for vanlig historisk metode og alminnelig kildekritikk. Fortsatt vil den historiske metodens to måter å lese kilder på være nødvendig: Vi kan lese kilder (her: aviser) som beret-ninger om det som skjedde da avisen kom ut – eller vi kan lese dem som levninger, som forteller noe om avisen selv. Dette grunnleggende skillet diskuteres i alle historiefagets innføringsbøker – og i medie-historisk litteratur.16 Det at Nasjonalbiblioteket nå gjør avistekster søkbare, reduserer ikke betydningen av disse lesemåtene. Tvert om: Når tilgangen til digita-liserte avistekster nå blir åpnet for alle via Internett, blir evnen til å gjøre

inngå-ende vurderinger av dem – fagets håndverk – enda viktigere enn før. Eksterne forskere som tar i bruk NB N-gram, bør lære seg noe om avisen som medieform – både som helhet og i dets

deler. De bør kunne plassere en konkret avis i sin samtid og i forhold til andre aviser. Hver enkelt avis må vurderes for hva den var på det aktuelle tids-punktet, men også ut fra hva den skrev om konkrete spørsmål over tid. Presseforskeren kan ikke unnlate å gjøre seg kjent med den datiden han eller hun vil studere, og skaffe seg kunnskaper om konteksten som gjaldt akkurat da. Man kommer altså ikke unna den litt tunge veien via faglitteratur og studier av andre arkiver enn de digitaliserte tekstmassene som Nasjonalbiblioteket nå gjør tilgjengelig.

Men når dette er sagt, gjør vi klokt i å innse at NB N-gram har potensial til å fornye den presse- og mediehistoriske forskningen i Norge. Årsaken er alle de milliarder ord som nå er i ferd med å bli flyttet over

fra aviskjellernes papiravis-samlinger til dataskjermen – og dermed blir tilgjengelige for alle.

Råfrekvenser

Den andre funksjonen i NB N-gram er innhenting av såkalte råfrekvenser. De gir brukeren statistikk over ord og fraser i hele korpuset uavhengig av tid. Dette er et materiale som egner seg til videre bearbeiding og analyse utført av forskeren selv. Ståle de Lange Kofoed gir en nyttig veiledning for hvordan man kan importere et sett av data fra Internett for deret-ter å bearbeide eller analysere dem videre selv.17 Rå dataene kan for eksempel overføres til Excel-ark og derfra danne grunnlag for videre bearbeiding med resultater som kan vises i egenproduserte tabeller og diagrammer tilpasset undersøkelsens emne og formål.

Galakser

Den tredje funksjonen i NB N-gram er såkalte galakser som gir brukeren mulighet til å se på betydnings-relasjoner mellom ord. I NB N-gram er galakser en

grafisk måte å presentere statistiske funn på. Hvor tett er egentlig det tallmes-sige forholdet mellom to ord – slik vi kan studere dem i Nasjonalbibliotekets digitale database? Resulta-tet trenger ikke kun å vises med tall, men med et grafisk uttrykk. Avstanden mellom og størrelsen på ulike ordskyer gir et grafisk inntrykk av det statistiske forholdet mellom dem.

Dermed har vi enda en ny måte å visualisere det språklige innholdet i Nasjonal bibliotekets enorme database på. For galakser gjelder at det kun er enkelt-ord man kan søke på. Slik ser resultatet ut når vi søker på ordet «politikk»:

Figur 4 viser hvilke galakse et søk på ordet «poli-tikk» gir i NB N-gram. Resultatet viser at dette ordet inngår i flere ulike grupperinger: Vi kan skimte et samfunnstema og et religionstema så vel som både næringsliv og organisasjoner. Det grafiske uttrykket plasserer politikkbegrepet i sentrum for en hel rekke andre samfunnssektorer.

Et hvilket som helst tema kan nå studeres

In document POLITIKK OG JOURNALISTIKK (sider 135-139)