Det russiske konstruk,konet:
Hvordan vi bygger en database med syntak,ske konstruksjoner
Laura Janda Anna Endresen Tore Nesset
NORKOGs Sommerseminar 2020/2021 10-11. juni 2021
Prosjektmedarbeidere
Laura A. Janda (UiT The Arc2c University of Norway): Background research, Concept, Design, Data mining, Edi2ng of content, Dissemina2on of findings and results
Tore Nesset (UiT The Arc2c University of Norway): Background research, Concept, Design, Edi2ng of content, Dissemina2on of findings and results
Ekaterina Rakhilina (Na2onal Research University Higher School of Economics in Moscow, Vinogradov Ins2tute of Russian Language at Russian Academy of Sciences): Background research, Concept, Design, Content, Data mining, Seman2c annota2on, Edi2ng, Dissemina2on of findings and results
Olga Lyashevskaya (Na2onal Research University Higher School of Economics in Moscow, Vinogradov Ins2tute of Russian Language at Russian Academy of Sciences): Concept, Design, Data mining, UD analysis, Syntac2c annota2on, Dissemina2on of findings and results
Francis M. Tyers (Indiana University; earlier affiliated with UiT The Arc2c University of Norway and Na2onal Research University Higher School of Economics): Concept, Design, UD for Russian
Radovan Bast (UiT The Arc2c University of Norway, Department of informa2on technology): New user interface, design and programming
Marianne Lund: Transla2on of defini2ons to Norwegian
Valen2na Zhukova (Na2onal Research University Higher School of Economics in Moscow): Content, Design, Data mining, Seman2c and syntac2c annota2on, Dissemina2on of findings and results
Daria Mordashova (Lomonosov Moscow State University, Ins2tute of Linguis2cs of the Russian Academy of Sciences):
Content, Design, Data mining, Seman2c and syntac2c annota2on, Dissemina2on of findings and results
Anna Endresen (UiT The Arc2c University of Norway): Content, Design, Data mining, Edi2ng, Seman2c and syntac2c annota2on, Usage labels, Dissemina2on of findings and results, Coordina2on of teamwork
Oversikt
• Hva er en konstruksjon?
• Hva er et konstruk/kon?
• Hvorfor lage et konstruk/kon?
• Hvordan lage et konstruk/kon:
• Samle konstruksjoner
• Klassifisere konstruksjoner
• Presentere konstruksjoner
Hva er en konstruksjon?
• En konstruksjon kan defineres slik:
• et hvert konvensjonalisert form-innhold-par i et språk, på hvilket som helst nivå fra morfem via leksem til frase og diskurs (Goldberg 2006, 5)
• den grunnleggende enheten som strukturerer språk (men ikke nødvendigvis språkets minste bestanddel)
• Konstruksjoner kan være komposisjonelle og ikke-komposisjonelle.
• Alle betydningsbærende enheter i språket er konstruksjoner.
• Hele språket kan beskrives vha. konstruksjoner.
“It’s constructions all the way down”
(Goldberg 2006: 18)
Russiske konstruksjoner:
Eksempler
• morfemer
-t’ = INF
• leksemer
tancevat’ ‘danse’
• Idiomer som består av flere ord, og som ikke har åpne plasser
tancevat’ ot Adama ‘starte helt fra begynnelsen’
(bokstavelig: ‘danse fra Adam’
• Faste u(rykk med åpne plasser
VP pod NP-Akk
Ona tancevala pod muzyku ‘Hun danset Nl (bokst. inn under) musikken’
• Større diskursenheter
Vårt prosjekt
fokuserer på denne
typen
Hva er et konstruk7kon?
• Et konstruktikon er:
• et strukturert inventar av konstruksjoner i et gitt språk
• Konstruktika finnes for:
• Engelsk
• Tysk
• Svensk
• Japansk
• Brasiliansk portugisisk
Det russiske
konstruk,konet er det klart største med over 2200
konstruksjoner
Hvorfor lage et konstruk7kon?
• For lingvister
• for å legge til rette for bedre beskrivelser av språk
• for å videreutvikle teorien om konstruksjoner (konstruksjonsgrammatikk)
• for å gjøre typologiske sammenligninger på tvers av språk mulig
• For annetspråkstudenter
• for å forbedre praktiske språkferdigheter
• for å forstå hvorfor visse bøyningsformer er spesielt mye brukt
• for å fylle hull i eksisterende læremidler
Fyll hullene!
• Ordbøker, grammaLkker og lærebøker fokuserer på
leksemer, leksikaliserte
idiomer, bøyningsparadigmer og grammaLske mønstre
• UArykk som består av flere ord og har åpne plasser, er ikke så godt representert i eksisterende læremidler
REFERENCE GRAMMAR
DICTIONAR Y
TEXTBOOK
PHRASE
BOOK GLOS
SARY
It seems that a few things just fall through the cracks
Hvordan lage et konstruk7kon:
Samle konstruksjoner
Manuell innsamling fra lærebøker, vitenskapelig liVeratur,
crowdsourcing
Ekstrahering fra dialoger, talespråk, og korpus-kollokasjoner.
Klassifikasjon av syntak2ske og seman2ske typer.
Søk eVer synonymer, antonymer og anker-ord med utgangspunkt i den
seman2ske klassifikasjonen.
Hvordan lage et konstruktikon:
Klassifikasjon av konstruksjoner
•
Familier
• En familie er en rela+vt homogen gruppe på ca. 2-9 konstruksjoner som har seman+ske, syntak+ske og/eller strukturelle fellestrekk.
• Konstruksjonene i en familie deler undergrupper av disse trekkene.
• Seman+ske og syntak+ske trekk gjør det mulig å iden+fisere familier.
• Annotering foretaE av et panel på tre morsmålsbrukere.
•
Klynger
• En klynge er en gruppe familier som er forbundet gjennom seman+ske og/eller syntak+ske likheter
• Strukturert rundt prototyper
• Klyngene svarer oGe +l undergrupper i annotasjonssystemet
•
Ne-verk
• Et neEverk er en gruppe klynger som har et seman+sk trekk felles.
Konstruksjonalisering er gramma7kalisering
• Konvensjonalisering av form-innhold-par kan analyseres som en tidlig fase i en grammatikaliseringsprosess.
• De semantiske trekkene er kvasigrammatiske betydninger som er
relevant for både konstruksjonen som helhet og for (de ofte blekede) anker-ordene
• Klassifikasjonen tar utgangspunkt i leksikalske funksjoner (jf. Mel’čuk, Apresjan) som kan danne grunnlag for tverrspråklige
sammenligninger
Distribusjonen /l konstruksjoner
mhp. de vanligste seman/ske
trekkene
La oss se nærmere på et mindre neEverk:
Prohibi/ve
konstruksjoner
Et eksempel på en prohibi/ve konstruksjon
anker åpen plass
1:1 (4 constructions) Prevention of intended activity
Ne smej VP-Imp.Inf
‘Don’t you dare X’
1:2 (7 constructions) General rules
Ne VP-Inf!
‘No X-ing!’
1:4 (7 constructions) Prohibition of smallest portion
Nikakix NP-Gen!
‘No X-es!’
1:5 (3 constructions) Anticipation of resistance Ne VP-Fut.2!
‘You’re not going to do X!’
1:6 (2 constructions)
Prohibition against repeating Čtob(y) Pron bol’še ne VP- Past!
‘No more X-ing!’
1:3 (9 constructions) Milder tone
(NP-Dat) ne stoit VP-Inf
‘There’s no point in X- ing’
2:5 (3 constructions) Prohibition and Threat Ja Pron-Dat VP-Fut!
‘You do X and you will regret it!’
2:4 (3 constructions) Stop temporarily Podoždat’-Imper VP- Imp.Inf
‘Stop X-ing for a while’
2:3 (2 constructions) Delimitative
po-VP-Imp.Past i xvatit
‘You’ve done enough X-ing’
2:2 (7 constructions) Quantitative, milder tone Xvatit (Pron.2-Dat) VP- Imp.Inf!
‘Enough X-ing!’
2:1 (4 constructions) Stop unwanted activity Brosit’-Imper VP-Imp.Inf
‘Stop X-ing!’
Cluster 1Cluster 2
overlap with Request overlap with Warning
overlap with Threat overlap with Intensity
imperative
continuative generalization
predicative
generalization option
attenuation
intensification opposition to
resistance opposition to
repetition
attenuation predicative
continuative
aggression
imperative option
continuative
further attenuation
imperative temporary
imperative option, po- prefix option po- prefix
Ne#verk med prohibi/ve
konstruksjoner
Legend:
semantic transitions
weaker relationships syntactic/formal similarities
overlap with other networks of cxns
16
1247
Hvordan lage et konstruk7kon:
Presentasjon av konstruksjonene
• Lage et grensesni8
• Brukervennlig for lingvister, lærere, studenter
• Søkbart for seman/kk, anker-ord og syntaks
• Åpen kildekode, åpent arkiverte data
Konklusjoner
•
U-rykk som består av flere ord og har åpne plasser, er ikke godt representert i lærebøker og gramma>kker
•
Det finnes mange tusen slike konstruksjoner, og de utgjør en komplekst system
•
Når man har samlet en kri>sk masse med konstruksjoner, kommer
systema>ske mønstre >l syne som gjør det mulig å samle og klassifisere nye konstruksjoner på en mer effek>v måte.
•
Tilgang >l en database med gramma>ske konstruksjoner er nyFg både for lingvister og studenter
•
Klassifikasjonen gjør tverrspråklig sammenligning mulig – >l glede for
typologer og andre lingvister.
Et brukervennlig grensesniC:
hCps://construc7con.github.io/russian/
Go to Browse, type these words in the search window and press the button.
På siden "About" kan man finne generell informasjon om ressursen.
Bla gjennom en liste med over 2200 konstruksjoner.
Velg hvilken som helst konstruksjon, klikk på den og beskrivelsen vises nederst på samme side.
For hver konstruksjon har vi et ID-nummer, et navn (en generell morfosyntaktisk formel) og en kort gjenkjennelig illustrasjon.
ID-nummeret Navnet Illustrasjonen
Trykk på "Vis tilleggsinformasjon", og mer informasjon vises.
På Browse-siden kan brukeren søke eVer en streng som er en del av navnet eller illustrasjonen på en konstruksjon og få konstruksjonen(e) som samsvarer med strengen.
Resultatene vises i vinduet +l høyre.
Her kan brukeren velge et ferdighetsnivå fra en meny.
Trykk på knappen og få 5
+lfeldig utvalgte konstruksjoner som samsvarer med nivået diE.
Brukeren kan kombinere flere filtre på samme søk.
Seman7sk klassifisering av konstruksjoner
Fra en liste 7l et neCverk
• Hvordan kan vi gjøre den opprinnelige listen av innsamlede konstruksjoner til et strukturert nettverk?
• Dette er en praktisk utfordring som alle eksisterende konstruktikon-ressurser står overfor.
• Andre konstrukGkoner er nært knyHet Gl de Glsvarende FrameNet-ressursene og fokuserer på verb-argument-konstruksjoner
o Se Fillmore and Atkins 1992; Fillmore et al. 2012
• I andre konstrukGkoner er konstruksjoner klassifisert semanGsk eHer relevante
«rammer» med utgangspunkt i «rammesemanGkk» (frame semanGcs):
o Ohara 2014, 2018; Boas et al. 2016; Torrent et al. 2014, Lee-Goldman & Petruck 2018
34
Hvorfor rammeseman,kk er ikke nok
Morphological construction; 7
Discourse «Echo» construction; 24 Clause and Modifier; 76
Matrix and Sentential Complement; 87 Connection construction; 124
Biclausal construction; 137
Predicate Argument Construction; 8%
Cl/XP with parentheticals;
203
Copula Construction; 236 Clause; 352
Head and Modifier; 858
• Russisk mangler en fullt utviklet FrameNet-ressurs
• Det finnes en rekke syntaktiske
mønstre i det russiske konstruktikonet
• Predikat-argument-konstruksjoner utgjør bare 8% (184 konstruksjoner) av hele databasen.
• Hvordan kan vi analysere semantikken til alle konstruksjonene i vår
database?
35
Tilnærming nedenfra
Målet
• analysere samlende russiske konstruksjoner på deres egne premisser, slik at mønstre kan komme Gl syne fra dataene uten å bli påvirket av andre modeller eller språk.
Metodologien
• Vi tagget individuelle konstruksjoner manuelt ved å Glordne semanGske tagger som fanger opp relevante aspekter av deres betydning;
• SemanGsk tagging ble gjennomført av en gruppe av tre språkvitere med russisk som morsmål;
• Taggerne ble enige om taggingen av hver eneste konstruksjon;
• Resultatene verifiseres mot typologiske studier av grammaGske kategorier.
36
Vi klassifiserer de 2258
konstruksjonene i 55 store
semantiske typer som inneholder 182 undertyper (her markert med
"+");
• Comparison o Equality o Inequality o Similarity o Imita+on o Contrast
Seman,ske typer av konstruksjoner gruppert i klasser og underklasser
37
Alle semanGske typer og
undertyper av konstruksjoner defineres og illustreres på
neHsiden Gl ressursen.
38
Oppsummering
• Det russiske konstrukGkonet er en allment Glgjengelig ressurs på neH som
inneholder en søkbar elektronisk database med over 2200 russiske konstruksjoner.
• Brukere: både språkforskere og andrespråkstudenter
• Vi idenGfiserer semanGske typer av konstruksjoner som potensielt kan brukes =l å sammenligne dataene fra forskjellige språk med utgangspunkt i
konstruksjonsgrammaGkk.
• SemanGske typer strukturerer databasen og hjelper med å iden=fisere
konstruksjonsfamilier (grupper av konstruksjoner som har like semanGske og syntakGske egenskaper).
• Konstruksjonsfamilier brukes Gl å utvide databasen, forstå forskjellene mellom like konstruksjoner og beskrive betydningen Gl hver konstruksjon.
• Programmeringskoden og de språklige dataene Gl ressursen er Glgjengelige på neHet og kan brukes =l å bygge lignende ressurser =l flere språk.
https://constructicon.github.io/russian/
Ekstra lysark
Generell informasjon om ressursen
• Det russiske konstruk=konet er en allment Glgjengelig ressurs på neH som inneholder en søkbar elektronisk database med
o 2258 russiske grammaNske konstruksjoner o detaljerte beskrivelser av deres betydninger o eksempler fra Det russiske nasjonalkorpuset
• Brukere:
o andrespråkstudenter, o språkforskere og
o naturlig språkbehandling (NLP, et felt dedikert Nl å gjøre det mulig for datamaskiner å arbeide med menneskelig språk)
• Tiden brukt =l å bygge det: 5 år, 2016 – 2020 (2021)
• Et brukervennlig grensesni(: hHps://construcGcon.github.io/russian/
Over 40% av våre konstruksjoner hører Gl flere enn kun en semanGsk type og har derfor to eller flere semanGske tagger.
Eksempel:
Cl, i privet 'Cl, og hei'
On uže davno vzjal u menja ètu knigu, i privet! Uexal v otpusk.
'Han lånte boka mi for lenge siden og forsvant plutselig [bokstavelig: og hei].
Han reiste på ferie.'
• type "Non-Existense": undertype "Disappear" -> klass "Qualia";
• type "MiraGve" -> klass "SubjecGvity"
Konstruksjoner med flere mo7vasjoner
SemanGske typer og klasser overlapper oke på nivået Gl individuelle konstruksjoner.
Vi har undersøkt hvilke typer overlappinger som forekommer okere enn andre.
43
Fordeling av 2258 konstruksjoner over 5 klasser
• Alle sema+ske klasser har konstruksjoner som
sam+dig hører +l en annen klass (eller klasser).
• De klassene "Subjec+vity"
and "Parameters" har den største mengden av slike konstruksjoner.
337 357
485 301
1419
0 500 1000 1500
Parameters Discourse Subjectivity Modality and its…
Qualia
N of constructions (raw numbers)
75 183
206 195
1010
262 174
279 106
409
0 500 1000 1500
Parameters Discourse Subjectivity Modality and its…
Qualia
N only this class N of overlap with other classes
% av
overlapping:
29%
35%
58%
49%
78%
44
For eksempel hvis dere vil finne biklausale konstruksjoner som uVrykker kontrast, velg
"Biclausal" som SyntakNsk typen, velg "Contrast"
innen semanNsk typen "Sammenligning".
Resultatet inneholder de konstruksjonene som bærer begge taggene: Biclausal og Contrast.
Her kan man åpne et elekstronisk skjema hvor man kan foreslå en manglende
konstruksjon for vår databasen.