• No results found

Det russiske konstruktikonet: Hvordan vi bygger en database med syntaktiske konstruksjoner

N/A
N/A
Protected

Academic year: 2022

Share "Det russiske konstruktikonet: Hvordan vi bygger en database med syntaktiske konstruksjoner"

Copied!
47
0
0

Laster.... (Se fulltekst nå)

Fulltekst

(1)

Det russiske konstruk,konet:

Hvordan vi bygger en database med syntak,ske konstruksjoner

Laura Janda Anna Endresen Tore Nesset

NORKOGs Sommerseminar 2020/2021 10-11. juni 2021

(2)

Prosjektmedarbeidere

Laura A. Janda (UiT The Arc2c University of Norway): Background research, Concept, Design, Data mining, Edi2ng of content, Dissemina2on of findings and results

Tore Nesset (UiT The Arc2c University of Norway): Background research, Concept, Design, Edi2ng of content, Dissemina2on of findings and results

Ekaterina Rakhilina (Na2onal Research University Higher School of Economics in Moscow, Vinogradov Ins2tute of Russian Language at Russian Academy of Sciences): Background research, Concept, Design, Content, Data mining, Seman2c annota2on, Edi2ng, Dissemina2on of findings and results

Olga Lyashevskaya (Na2onal Research University Higher School of Economics in Moscow, Vinogradov Ins2tute of Russian Language at Russian Academy of Sciences): Concept, Design, Data mining, UD analysis, Syntac2c annota2on, Dissemina2on of findings and results

Francis M. Tyers (Indiana University; earlier affiliated with UiT The Arc2c University of Norway and Na2onal Research University Higher School of Economics): Concept, Design, UD for Russian

Radovan Bast (UiT The Arc2c University of Norway, Department of informa2on technology): New user interface, design and programming

Marianne Lund: Transla2on of defini2ons to Norwegian

Valen2na Zhukova (Na2onal Research University Higher School of Economics in Moscow): Content, Design, Data mining, Seman2c and syntac2c annota2on, Dissemina2on of findings and results

Daria Mordashova (Lomonosov Moscow State University, Ins2tute of Linguis2cs of the Russian Academy of Sciences):

Content, Design, Data mining, Seman2c and syntac2c annota2on, Dissemina2on of findings and results

Anna Endresen (UiT The Arc2c University of Norway): Content, Design, Data mining, Edi2ng, Seman2c and syntac2c annota2on, Usage labels, Dissemina2on of findings and results, Coordina2on of teamwork

(3)

Oversikt

• Hva er en konstruksjon?

• Hva er et konstruk/kon?

• Hvorfor lage et konstruk/kon?

• Hvordan lage et konstruk/kon:

• Samle konstruksjoner

• Klassifisere konstruksjoner

• Presentere konstruksjoner

(4)

Hva er en konstruksjon?

• En konstruksjon kan defineres slik:

• et hvert konvensjonalisert form-innhold-par i et språk, på hvilket som helst nivå fra morfem via leksem til frase og diskurs (Goldberg 2006, 5)

den grunnleggende enheten som strukturerer språk (men ikke nødvendigvis språkets minste bestanddel)

• Konstruksjoner kan være komposisjonelle og ikke-komposisjonelle.

Alle betydningsbærende enheter i språket er konstruksjoner.

Hele språket kan beskrives vha. konstruksjoner.

“It’s constructions all the way down”

(Goldberg 2006: 18)

(5)

Russiske konstruksjoner:

Eksempler

• morfemer

-t’ = INF

• leksemer

tancevat’ ‘danse’

• Idiomer som består av flere ord, og som ikke har åpne plasser

tancevat’ ot Adama ‘starte helt fra begynnelsen’

(bokstavelig: ‘danse fra Adam’

Faste u(rykk med åpne plasser

VP pod NP-Akk

Ona tancevala pod muzyku ‘Hun danset Nl (bokst. inn under) musikken’

• Større diskursenheter

Vårt prosjekt

fokuserer på denne

typen

(6)

Hva er et konstruk7kon?

• Et konstruktikon er:

• et strukturert inventar av konstruksjoner i et gitt språk

• Konstruktika finnes for:

• Engelsk

• Tysk

• Svensk

• Japansk

• Brasiliansk portugisisk

Det russiske

konstruk,konet er det klart største med over 2200

konstruksjoner

(7)

Hvorfor lage et konstruk7kon?

• For lingvister

• for å legge til rette for bedre beskrivelser av språk

• for å videreutvikle teorien om konstruksjoner (konstruksjonsgrammatikk)

• for å gjøre typologiske sammenligninger på tvers av språk mulig

• For annetspråkstudenter

• for å forbedre praktiske språkferdigheter

• for å forstå hvorfor visse bøyningsformer er spesielt mye brukt

• for å fylle hull i eksisterende læremidler

(8)

Fyll hullene!

• Ordbøker, grammaLkker og lærebøker fokuserer på

leksemer, leksikaliserte

idiomer, bøyningsparadigmer og grammaLske mønstre

UArykk som består av flere ord og har åpne plasser, er ikke så godt representert i eksisterende læremidler

REFERENCE GRAMMAR

DICTIONAR Y

TEXTBOOK

PHRASE

BOOK GLOS

SARY

It seems that a few things just fall through the cracks

(9)

Hvordan lage et konstruk7kon:

Samle konstruksjoner

Manuell innsamling fra lærebøker, vitenskapelig liVeratur,

crowdsourcing

Ekstrahering fra dialoger, talespråk, og korpus-kollokasjoner.

Klassifikasjon av syntak2ske og seman2ske typer.

Søk eVer synonymer, antonymer og anker-ord med utgangspunkt i den

seman2ske klassifikasjonen.

(10)

Hvordan lage et konstruktikon:

Klassifikasjon av konstruksjoner

Familier

En familie er en rela+vt homogen gruppe på ca. 2-9 konstruksjoner som har seman+ske, syntak+ske og/eller strukturelle fellestrekk.

Konstruksjonene i en familie deler undergrupper av disse trekkene.

Seman+ske og syntak+ske trekk gjør det mulig å iden+fisere familier.

Annotering foretaE av et panel på tre morsmålsbrukere.

Klynger

En klynge er en gruppe familier som er forbundet gjennom seman+ske og/eller syntak+ske likheter

Strukturert rundt prototyper

Klyngene svarer oGe +l undergrupper i annotasjonssystemet

Ne-verk

Et neEverk er en gruppe klynger som har et seman+sk trekk felles.

(11)

Konstruksjonalisering er gramma7kalisering

• Konvensjonalisering av form-innhold-par kan analyseres som en tidlig fase i en grammatikaliseringsprosess.

• De semantiske trekkene er kvasigrammatiske betydninger som er

relevant for både konstruksjonen som helhet og for (de ofte blekede) anker-ordene

• Klassifikasjonen tar utgangspunkt i leksikalske funksjoner (jf. Mel’čuk, Apresjan) som kan danne grunnlag for tverrspråklige

sammenligninger

(12)

Distribusjonen /l konstruksjoner

mhp. de vanligste seman/ske

trekkene

(13)

La oss se nærmere på et mindre neEverk:

Prohibi/ve

konstruksjoner

(14)

Et eksempel på en prohibi/ve konstruksjon

(15)

anker åpen plass

(16)

1:1 (4 constructions) Prevention of intended activity

Ne smej VP-Imp.Inf

‘Don’t you dare X’

1:2 (7 constructions) General rules

Ne VP-Inf!

‘No X-ing!’

1:4 (7 constructions) Prohibition of smallest portion

Nikakix NP-Gen!

‘No X-es!’

1:5 (3 constructions) Anticipation of resistance Ne VP-Fut.2!

‘You’re not going to do X!’

1:6 (2 constructions)

Prohibition against repeating Čtob(y) Pron bol’še ne VP- Past!

‘No more X-ing!’

1:3 (9 constructions) Milder tone

(NP-Dat) ne stoit VP-Inf

‘There’s no point in X- ing’

2:5 (3 constructions) Prohibition and Threat Ja Pron-Dat VP-Fut!

‘You do X and you will regret it!’

2:4 (3 constructions) Stop temporarily Podoždat’-Imper VP- Imp.Inf

‘Stop X-ing for a while’

2:3 (2 constructions) Delimitative

po-VP-Imp.Past i xvatit

‘You’ve done enough X-ing’

2:2 (7 constructions) Quantitative, milder tone Xvatit (Pron.2-Dat) VP- Imp.Inf!

‘Enough X-ing!’

2:1 (4 constructions) Stop unwanted activity Brosit’-Imper VP-Imp.Inf

‘Stop X-ing!’

Cluster 1Cluster 2

overlap with Request overlap with Warning

overlap with Threat overlap with Intensity

imperative

continuative generalization

predicative

generalization option

attenuation

intensification opposition to

resistance opposition to

repetition

attenuation predicative

continuative

aggression

imperative option

continuative

further attenuation

imperative temporary

imperative option, po- prefix option po- prefix

Ne#verk med prohibi/ve

konstruksjoner

Legend:

semantic transitions

weaker relationships syntactic/formal similarities

overlap with other networks of cxns

16

1247

(17)

Hvordan lage et konstruk7kon:

Presentasjon av konstruksjonene

• Lage et grensesni8

• Brukervennlig for lingvister, lærere, studenter

• Søkbart for seman/kk, anker-ord og syntaks

• Åpen kildekode, åpent arkiverte data

(18)

Konklusjoner

U-rykk som består av flere ord og har åpne plasser, er ikke godt representert i lærebøker og gramma>kker

Det finnes mange tusen slike konstruksjoner, og de utgjør en komplekst system

Når man har samlet en kri>sk masse med konstruksjoner, kommer

systema>ske mønstre >l syne som gjør det mulig å samle og klassifisere nye konstruksjoner på en mer effek>v måte.

Tilgang >l en database med gramma>ske konstruksjoner er nyFg både for lingvister og studenter

Klassifikasjonen gjør tverrspråklig sammenligning mulig – >l glede for

typologer og andre lingvister.

(19)

Et brukervennlig grensesniC:

hCps://construc7con.github.io/russian/

(20)

Go to Browse, type these words in the search window and press the button.

(21)

På siden "About" kan man finne generell informasjon om ressursen.

(22)

Bla gjennom en liste med over 2200 konstruksjoner.

Velg hvilken som helst konstruksjon, klikk på den og beskrivelsen vises nederst på samme side.

(23)

For hver konstruksjon har vi et ID-nummer, et navn (en generell morfosyntaktisk formel) og en kort gjenkjennelig illustrasjon.

ID-nummeret Navnet Illustrasjonen

(24)

Trykk på "Vis tilleggsinformasjon", og mer informasjon vises.

(25)
(26)
(27)

På Browse-siden kan brukeren søke eVer en streng som er en del av navnet eller illustrasjonen på en konstruksjon og få konstruksjonen(e) som samsvarer med strengen.

(28)

Resultatene vises i vinduet +l høyre.

(29)

Her kan brukeren velge et ferdighetsnivå fra en meny.

(30)

Trykk på knappen og få 5

+lfeldig utvalgte konstruksjoner som samsvarer med nivået diE.

(31)

Brukeren kan kombinere flere filtre på samme søk.

(32)
(33)

Seman7sk klassifisering av konstruksjoner

(34)

Fra en liste 7l et neCverk

• Hvordan kan vi gjøre den opprinnelige listen av innsamlede konstruksjoner til et strukturert nettverk?

• Dette er en praktisk utfordring som alle eksisterende konstruktikon-ressurser står overfor.

• Andre konstrukGkoner er nært knyHet Gl de Glsvarende FrameNet-ressursene og fokuserer på verb-argument-konstruksjoner

o Se Fillmore and Atkins 1992; Fillmore et al. 2012

• I andre konstrukGkoner er konstruksjoner klassifisert semanGsk eHer relevante

«rammer» med utgangspunkt i «rammesemanGkk» (frame semanGcs):

o Ohara 2014, 2018; Boas et al. 2016; Torrent et al. 2014, Lee-Goldman & Petruck 2018

34

(35)

Hvorfor rammeseman,kk er ikke nok

Morphological construction; 7

Discourse «Echo» construction; 24 Clause and Modifier; 76

Matrix and Sentential Complement; 87 Connection construction; 124

Biclausal construction; 137

Predicate Argument Construction; 8%

Cl/XP with parentheticals;

203

Copula Construction; 236 Clause; 352

Head and Modifier; 858

• Russisk mangler en fullt utviklet FrameNet-ressurs

• Det finnes en rekke syntaktiske

mønstre i det russiske konstruktikonet

• Predikat-argument-konstruksjoner utgjør bare 8% (184 konstruksjoner) av hele databasen.

• Hvordan kan vi analysere semantikken til alle konstruksjonene i vår

database?

35

(36)

Tilnærming nedenfra

Målet

• analysere samlende russiske konstruksjoner på deres egne premisser, slik at mønstre kan komme Gl syne fra dataene uten å bli påvirket av andre modeller eller språk.

Metodologien

• Vi tagget individuelle konstruksjoner manuelt ved å Glordne semanGske tagger som fanger opp relevante aspekter av deres betydning;

• SemanGsk tagging ble gjennomført av en gruppe av tre språkvitere med russisk som morsmål;

• Taggerne ble enige om taggingen av hver eneste konstruksjon;

• Resultatene verifiseres mot typologiske studier av grammaGske kategorier.

36

(37)

Vi klassifiserer de 2258

konstruksjonene i 55 store

semantiske typer som inneholder 182 undertyper (her markert med

"+");

Comparison o Equality o Inequality o Similarity o Imita+on o Contrast

Seman,ske typer av konstruksjoner gruppert i klasser og underklasser

37

(38)

Alle semanGske typer og

undertyper av konstruksjoner defineres og illustreres på

neHsiden Gl ressursen.

38

(39)

Oppsummering

• Det russiske konstrukGkonet er en allment Glgjengelig ressurs på neH som

inneholder en søkbar elektronisk database med over 2200 russiske konstruksjoner.

• Brukere: både språkforskere og andrespråkstudenter

• Vi idenGfiserer semanGske typer av konstruksjoner som potensielt kan brukes =l å sammenligne dataene fra forskjellige språk med utgangspunkt i

konstruksjonsgrammaGkk.

• SemanGske typer strukturerer databasen og hjelper med å iden=fisere

konstruksjonsfamilier (grupper av konstruksjoner som har like semanGske og syntakGske egenskaper).

• Konstruksjonsfamilier brukes Gl å utvide databasen, forstå forskjellene mellom like konstruksjoner og beskrive betydningen Gl hver konstruksjon.

• Programmeringskoden og de språklige dataene Gl ressursen er Glgjengelige på neHet og kan brukes =l å bygge lignende ressurser =l flere språk.

(40)

https://constructicon.github.io/russian/

(41)

Ekstra lysark

(42)

Generell informasjon om ressursen

Det russiske konstruk=konet er en allment Glgjengelig ressurs på neH som inneholder en søkbar elektronisk database med

o 2258 russiske grammaNske konstruksjoner o detaljerte beskrivelser av deres betydninger o eksempler fra Det russiske nasjonalkorpuset

Brukere:

o andrespråkstudenter, o språkforskere og

o naturlig språkbehandling (NLP, et felt dedikert Nl å gjøre det mulig for datamaskiner å arbeide med menneskelig språk)

Tiden brukt =l å bygge det: 5 år, 2016 – 2020 (2021)

Et brukervennlig grensesni(: hHps://construcGcon.github.io/russian/

(43)

Over 40% av våre konstruksjoner hører Gl flere enn kun en semanGsk type og har derfor to eller flere semanGske tagger.

Eksempel:

Cl, i privet 'Cl, og hei'

On uže davno vzjal u menja ètu knigu, i privet! Uexal v otpusk.

'Han lånte boka mi for lenge siden og forsvant plutselig [bokstavelig: og hei].

Han reiste på ferie.'

• type "Non-Existense": undertype "Disappear" -> klass "Qualia";

• type "MiraGve" -> klass "SubjecGvity"

Konstruksjoner med flere mo7vasjoner

SemanGske typer og klasser overlapper oke på nivået Gl individuelle konstruksjoner.

Vi har undersøkt hvilke typer overlappinger som forekommer okere enn andre.

43

(44)

Fordeling av 2258 konstruksjoner over 5 klasser

Alle sema+ske klasser har konstruksjoner som

sam+dig hører +l en annen klass (eller klasser).

De klassene "Subjec+vity"

and "Parameters" har den største mengden av slike konstruksjoner.

337 357

485 301

1419

0 500 1000 1500

Parameters Discourse Subjectivity Modality and its…

Qualia

N of constructions (raw numbers)

75 183

206 195

1010

262 174

279 106

409

0 500 1000 1500

Parameters Discourse Subjectivity Modality and its…

Qualia

N only this class N of overlap with other classes

% av

overlapping:

29%

35%

58%

49%

78%

44

(45)

For eksempel hvis dere vil finne biklausale konstruksjoner som uVrykker kontrast, velg

"Biclausal" som SyntakNsk typen, velg "Contrast"

innen semanNsk typen "Sammenligning".

Resultatet inneholder de konstruksjonene som bærer begge taggene: Biclausal og Contrast.

(46)

Her kan man åpne et elekstronisk skjema hvor man kan foreslå en manglende

konstruksjon for vår databasen.

(47)

Referanser

RELATERTE DOKUMENTER

Education and Science of the Russian Federation, National Research Centre Kurchatov Institute, Russian Science Foundation and Russian Foundation for Basic Research, Russia;

Joint Institute for Nuclear Research, Ministry of Education and Science of the Russian Federation, National Research Centre Kurchatov Institute, Russian Science Foundation,

Nuclear Research (JINR), Ministry of Education and Science of the Russian Federation, National Research Centre Kurchatov Institute, Russian Science Foundation and Russian

the Joint Institute for Nuclear Research (JINR), the Ministry of Education and Science of the Russian Federation, the National Research Centre Kurchatov Institute, the

64 Health Management and Economics Research Center, Iran University of Medical Sciences, Tehran, Iran.. 65 Health Economics Department, Iran University of Medical Sciences,

Health Management and Economics Research Center, Iran University of Medical Sciences, Tehran,

Robert Stojanov is a research fellow at Department of Adaptation Strategies Research at the Global Change Research Centre, Academy of Sciences of the Czech Republic

Hsien-Ho Lin (National Taiwan University, Taiwan)*; Xu Lin (University of Chinese Academy of Sciences, China)*; Allan Linneberg (Research Centre for Prevention and Health,