Automatisk ekstrahering av verk
Veien til et verksregister. Seminar 14. oktober 2016
Asbjørn Risan (BIBSYS)
Asbjørn Risan Tjenesteansvarlig, BIBSYS Autoritetsregister Tjenester og leveranser
• Masterutdannet bibliotekar ved Høgskolen i Oslo med spesialisering innen
kunnskapsorganisasjon og gjenfinning
• Er nå tjenesteansvarlig i seksjonen for
Tjenester og leveranser, med hovedansvar for BIBSYS Autoritetsregister
• Vært med i prosjektet «Bibliotekbasen i Semantisk Web» og sitter i en
arbeidsgruppe for verk
Agenda
Verksregister
– Kan man generere et verksregister basert på eksisterende bibliografiske data?
Use-case: Helge Ingstad
– Kan man bruke metoder for å forbedre den automatiske ekstraheringen av verk?
Ekstrahering av verk: Datakildene
BIBSYS Autoritetsregister Bibliotekbasen
BIBSYS Autoritetsregister
Består av ca 1.8 millioner personautoriteter
Danner grunnlag for det nasjonale autoritetsregisteret som er en delmengde av BIBSYS Autoritetsregister (ca 102.000)
Nasjonalbiblioteket bruker og vedlikeholder BIBSYS
Autoritetsregister ved at de i sitt bibliografiske arbeid oppgraderer autoriteter som blir del av det nasjonale autoritetsregisteret
Autoritetsregisteret er ryggraden i autoriseringen av bibliografiske poster i biblioteksystemet
BIBSYS Autoritetsregister
I tillegg til personautoriteter inneholder registeret autoriteter for:
– Konferanser, korporasjoner og organisasjoner (ca 285.000) – Standardtitler (ca 20.000)
De nasjonale personautoritetene blir eksportert til VIAF:
The Virtual International Authority File:
– Det er tilrettelagt for at autoritetene i autoritetsregisteret skal oppdateres med VIAF-ID, ISNI (International Standard Name Identifier) og ORCID
Tilgjengelig for søk maskin til maskin (spørsmål inn, XML tilbake)
– Format: Dublin Core eller MARC
BIBSYS Autoritetsregister
BIBSYS arbeider med å etablere emneord som en delmengde av autoritetsregisteret
– Starter de emneordene som ble vedlikeholdt i det forrige biblioteksystemet (Humord og Tekord)
– Vil bli mulig å legge inn andre lokale emneordssystemer også Er i dialog med Nasjonalbiblioteket om etablering av et
verksregister
Bibliotekbasen
Bibliotekbasen oppdateres og vedlikeholdes i Alma og består av i overkant av 7 millioner bibliografiske poster
Verksregisteret er basert på de data som ble migrert fra det forrige biblioteksystemet (ca 5.5 millioner poster) og inkluderer ikke elektroniske tidsskrift/e-bøker
Inkrementell oppdatering fra Alma planlagt i 2017
Verksregister
Bakgrunn: BIBSYS gjennomførte i 2015-2016 et prosjekt om semantisk teknologi sammen med NTNU, UiB, UiO og UiT med finansiering av Nasjonalbiblioteket.
Som en del av tildelingen lå det en føring om å se på «behov knyttet til utvikling av et verksregister»
For å bygge erfaringer ble det besluttet å se om vi kunne generere et verksregister som en del av prosjektet
Definisjon av verk (i prosjektet)
Underliggende ønske: samle bibliografiske poster som representerer den samme intellektuelle entiteten
Pragmatisk definisjon: to bibliografiske poster med samme forfatter og samme tittelinformasjon tilhører det samme verket – Hver bibliografisk post ble tildelt en nøkkel basert på
bibliografiske data. Poster som deler samme nøkkel er knyttet til samme verk
Verksnøkkel 1
*100 1 # $aIngstad, Helge $d1899-2001 $0(NO-TrBIB)90106700
*245 1 0 $aPelsjegerliv blant Nord-Canadas indianere $cHelge Ingstad
= Pelsjegerliv blant Nord-Canadas indianere 90106700
= b9303c1d6c4186d33852f403c810fb4a (verksnøkkelen)
Verksnøkkel 2
*100 1 # $aIngstad, Helge $d1899-2001 $0(NO-TrBIB)90106700
*245 1 0 $aMein Leben in der Wildnis $cübertragung aus dem Norwegischen von Helen Uhlschmid
*246 1 # $aPelsjegerliv blant Nord-Canadas indianere $iOriginaltittel
= Pelsjegerliv blant Nord-Canadas indianere 90106700
= b9303c1d6c4186d33852f403c810fb4a (verksnøkkelen)
Regler for verksdefinisjon
Regelsett 1:
– Originaltittel + autid for hovedordningsord (1XX) – Originaltittel + hovedordningsord (1XX)
– Originaltittel + tittel (245 a og b) – Originaltittel
– Tittel (245 a og b) + standardtittel (240 alle felt) + autid for hovedordningsord (1XX)
– Tittel (245 a og b) + standardtittel (240 alle felt) + hovedordningsord (1XX)
– Tittel (245 a og b) + autid for hovedordningsord (1XX) – Tittel (245 a og b) + hovedordningsord (1XX)
– Standardtittel (130 alle felt) – Tittel (245 a og b)
Regler for verksdefinisjon
Ved første kjøring i mai ble det generert 3 571 053
verkskandidater* basert på 4 352 391 bibliografiske poster – 1,22 bibliografisk post pr verk
Ved andre kjøring i september ble det generert 4 646 613 verkskandidater* basert på 5 530 899 bibliografiske poster – 1,19 bibliografisk post pr verk
*Basert på regelsett 1
Regler for verksdefinisjon
Fordeling regelsett 1 i %
3,15
0,31 0,31 0,00 1,44 0,18 55,77
11,55
1,56
26,24
2,56
0,25 0,29 0,00 1,95 0,47
57,23
12,14 1,35
23,76
0,00 10,00 20,00 30,00 40,00 50,00 60,00
A B C D E F G H I J
Ma1 2016 September 2016
A = Originaltittel + autid
B = Originaltittel + hovedordningsord C = Originaltittel + tittel
D = Originaltittel
E = Tittel + standardtittel + autid F = Tittel + standardtittel + hovedordn.
G = Tittel + autid
H = Tittel + hovedordningsord I = Standardtittel
J = Tittel*
* Første kjøring tok ikke med 110, 111 eller 130 som autid eller
hovedordningsord
Regler for verksdefinisjon
Hensikt med regelsett 2 og 3
– Fange opp verk som ikke ble dekket av regelsett 1 – Koble bibliografiske poster til andre verk
Regler for verksdefinisjon
Regelsett 2 (repeterbart*):
– Standardtittel (730 alle felt) + autid for hovedordningsord (1XX) – Standardtittel (730 alle felt) + hovedordningsord (1XX)
– Standardtittel (730 alle felt)
Regelsett 3 (repeterbart*):
– Bi-inførsel på tittel (740 a) + autid for hovedordningsord (1XX) – Bi-inførsel på tittel (740 a) + hovedordningsord (1XX)
– Bi-inførsel på tittel (740 a)
*Repeterbarhet ikke realisert
Regler for verksdefinisjon
4795 2527 8110
459671
71932
283137
0 50000 100000 150000 200000 250000 300000 350000 400000 450000 500000
P Q R U V W
Regelsett 2 og 3
Regelsett 2 og 3
P = Standardtittel (730) + autid Q = Standardtittel (730) + hovedordn.
R = Standardtittel (730) + tittel U = Bi-innførsel (740) + autid V = Bi-innførsel (740) + hovedordn.
W = BI-innførsel (740)
Regler for verksdefinisjon
54,8 % 44,3 %
0,9 %
Regelsett 2 og 3 - grad av kobling til andre verkskandidater
Nye verksnøkler Koblet til en annen verksnøkkel Koblet til to eller flere verksnøkler
N = 837.795
Eksempel på verk
På vei mot et verksregister
Bevisst generert «for mange» verk
– Enklere å slå sammen verk enn å opprette et nytt – Ikke tatt hensyn til informasjon i noter
Kan vi maskinelt gjøre forbedringer?
Case:
Helge Ingstad
Case: Helge Ingstad
Det er generert 54 verkskandidater for Helge Ingstad (43 i mai)
Det «korrekte» antallet er 29 verk (21 i mai)
– Avhengig av verksdefinisjon, spesielt med tanke på sammensatte verk
Helge Ingstad har autoritets-ID: 90106700
Utfordringer vi ser
Poster som ikke er autorisert Varianter i skrivemåte
Forkortede titler / bruk av undertitler Titler uten originaltittel
Sammensatte verk
Poster som ikke er autorisert
Pelsjegerliv blandt Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere Ingstad, Helge
Pelsjegerliv blant Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv http://livedata.bibsys.no/authority/90106700
Poster som ikke er autorisert
Det var 429 933 verkskandidater (mai 2016) basert på
kombinasjoner som inkluderer hovedordningsord og som ikke er autorisert
Ved å gjøre oppslag mot autoritetsregisteret på hovedordningsord kan vi prøve å finne en autoritets-ID
Antall vellykkede erstatninger
178903 42 %
Antall multiple treff 23965
6 % Antall ingen
treff 222441
52 %
Poster som ikke er autorisert
Ved å erstatte hovedordningsord med autoritets-ID i
verkskandidatene kan vi redusere antall verk med ca 20.000 ved at vi da fikk match på allerede eksisterende verkskandidater
Poster som ikke er autorisert
Det var 15 verksnøkler med Helge Ingstad som ikke var autorisert
Helge Ingstad var en av de vi fikk match på og antall verk kunne reduseres med 7
Antall verksnøkler er da 47 for Helge Ingstad
5 av de 8 resterende verksnøklene er reelle verk, mens resten skulle vært koblet til
andre verk
Varianter i skrivemåte
Pelsjegerliv blandt Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere Ingstad, Helge
Pelsjegerliv blant Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv http://livedata.bibsys.no/authority/90106700
Nunamiut : blant Alaskas indlandseskimoer http://livedata.bibsys.no/authority/90106700 Nunamiut : blant Alaskas innlandseskimoer http://livedata.bibsys.no/authority/90106700 Nunamiut : Blant Alaskas innlands-eskimoer http://livedata.bibsys.no/authority/90106700
Varianter i skrivemåte
Ved å sammenligne verksnøklene ved hjelp av ulike
sammenligningsalgoritmer kan vi definere om to verksnøkler er like nok til at de representerer det samme verket
– Forutsetning at de er knyttet til den samme autoriteten
Testet ved hjelp av Levenshtein-metoden (ser på hvor mange endringer som må gjøres for å få to tekster til å bli like)
– Kunne også brukt andre metoder som N-Gram
Varianter i skrivemåte
Eksempel: Sammenligner:
Nunamiut : blant Alaskas indlandseskimoer Nunamiut : blant Alaskas innlands-eskimoer – Levenshtein-faktor: 2.0
– Prosentvis: 95.2381
– Grensen er satt til: 75.0%
– Titlene er like
Varianter i skrivemåte
Kjører vi denne sammenligningen på verksnøklene for Helge Ingstad så ville vi kunne fjerne 5 verksnøkler
Antall verksnøkler for Helge Ingstad er da nede i 42
Forkortede titler / undertitler
Pelsjegerliv blandt Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere Ingstad, Helge
Pelsjegerliv blant Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv http://livedata.bibsys.no/authority/90106700
Klondyke Bill : roman http://livedata.bibsys.no/authority/90106700 Klondyke Bill : roman Ingstad, Helge
Klondyke Bill http://livedata.bibsys.no/authority/90106700
Forkortede titler / undertitler
Typisk for utenlandske verk med originaltittel at norsk undertittel ikke er tatt med som en del av originaltittel
Hvis vi hadde kjørt en sammenligning kun på første ledd av tittel for verkskandidatene kunne vi redusert antall verk med 8
– Dette er en litt mer upresis sammenligning og øker risikoen for falske positiver
Antall verksnøkler er da 34
Utenlandske titler uten originaltittel
Apacheindianerne : jakten på den tapte stamme http://livedata.bibsys.no/authority/90106700 ; Apache-indianerne : jakten på den tapte stamme http://livedata.bibsys.no/authority/90106700 ; Apache-indianerne http://livedata.bibsys.no/authority/90106700 ;
Die Letzten apachen http://livedata.bibsys.no/authority/90106700 ;
Utenlandske titler uten originaltittel
En del poster mangler originaltittel
En mulighet er å sjekke andre databaser om du får match på kombinasjon av forfatter og tittel og se om denne posten har en originaltittel som matcher med en eksisterende verkskandidat
Bruk av VIAF og/eller ISNI på autoriteten vil sikre at man søker på samme person
Utenlandske titler uten originaltittel
Die Letzten apachen http://livedata.bibsys.no/authority/90106700
Utenlandske titler uten originaltittel
Ett slikt oppslag vil redusere antall resterende verkskandidater med 2
Resterende antall verksnøkler er da 32
Sammenligne poster basert på digitaliseringer fra Nasjonalbiblioteket
Nasjonalbiblioteket har gitt oss tilgang til termfrekvens og assosiasjon for de digitaliserte postene i Bokhylla
Assosiasjonsmålet sier noe om hvor pregnant en term er for et dokument
Ved å sammenligne de X antall termene med høyest assosiasjonsmål kan man finne ut om innholdet
i to verk sammenfaller med hverandre
Tittel: Pelsjegerliv
Forfatter: Ingstad, Helge Publisert: [Stabekk] : Den norske bokklubben, 1977 Omfang: 235 s., pl. ill.
Språk: Norsk (Bokmål) ISBN: 8252505082
Tittel: Pelsjegerliv blant Nord- Canadas indianere
Forfatter: Ingstad, Helge
Publisert: Oslo : Gyldendal, 1957 Omfang:234 s., pl.(noen fold.) ill.
Språk: Norsk (Bokmål)
Deler 52 av 60 termer med
høyest
assosiasjonsmål
Tittel: Klondyke Bill Forfatter: Ingstad, Helge
Publisert: Oslo : Storskriftforl., 1995 Omfang: 325 s.
Språk: Norsk (Bokmål) ISBN: 8277900309
Tittel: Klondyke Bill : roman Forfatter: Ingstad, Helge
Publisert: Oslo : Gyldendal, 1941 Omfang: 308 s.
Språk: Norsk (Bokmål)
Deler 51 av 60 termer med
høyest
assosiasjonsmål
Sammensatte verk
Sammensatte verk
Problem: De viktigste ordene i det sammensatte verket stammer fra en annen tekst enn den det sammenlignes med.
Løsning: Det sammensatte verket representeres med de viktigste ordene fra kildeteksten.
De viktigste ordene
Klondyke Bill Siste båt Sammensatt verk med begge
{ 'Athabaska-sjøen': 2, 'Mackenzie-flodens': 2, 'Nome-karen': 4,
'Twelve-': 3, 'beverdal': 3, 'morénehaug': 2 }
{ 'sommerbåtene':3, 'Polarlandets': 3, 'taubana': 2,
'finansgruppen': 2, 'SJØHOLMEN': 34, 'skru-is': 2
}
{ 'OPPTAS': 7,
'Athabaska-sjøen': 2, 'sommerbåtene': 3, 'Mackenzie-flodens': 2, 'beverdal': 3,
'morénehaug': 2 }
Det sammensatte verkets topp 6 sammenfaller med Klondyke Bill for 4 ord.
Siste båt er representert med bare ett ord.
Sammensatte verk
Ta de ordene fra det sammensatte verket som du finner i enkeltverket og se på sammenfall av ordene med høyest assosiasjonsmål
Finner da at det sammensatte verket representerer verket
”Klondyke Bill” og ”Siste båt”
Kuriositet: Under testing var det en utgave av ”Klondyke Bill” som ikke ga match. Viste seg at det var feil metadata
knyttet til den digitaliserte teksten og at teksten var et annet verk av Helge Ingstad
Andre mulige metoder
Sjekke andre lands nasjonalbibliografier
Sjekke om andre verk kan ha alternative titler som korresponderer med andre verksnøkler
Oppsummering: Case Helge Ingstad
Antall reelle verk = 29
Rekkefølgen har betydning for effekten på metoden
Metode Antall verksnøkler
redusert Gjenstående verk
Verksnøkkelgenerering 54
Ikke autoriserte poster 7 47
Tekstanalyse på nøkler 5 42
Tekstanalyse kun på første ledd
for poster basert på originaltittel 8 34
Oppslag i andre kataloger 2 32
Sammenligning basert på
digitaliseringer 1 31
Sammenligning digitaliseringer
for sammensatte verk 1 30
Oppsummering
Å autorisere bibliografiske poster som ikke er autorisert har en begrenset effekt (ca 5% totalt), men vil ha større effekt på
forfattere med stor produksjon
– Bidrar også positivt til å samle verk knyttet til en person Tekstanalyse av verksnøkler har god effekt
Sammenligning av verk basert på innholdsanalyse av digitaliserte poster kan redusere antall verk ytterligere. Har primært effekt på:
– norske utgivelser med store variasjoner i tittelinformasjon – sammensatte verk
Innhenting av informasjon fra eksterne kilder/kataloger kan også ha positiv effekt
Konklusjon
Vi kan komme et godt stykke på vei mot et utgangspunkt for et verksregister basert på eksisterende metadata
– Denne fremgangsmåten bevarer koblingen mellom
verksautoriteten og alle de bibliografiske postene som inngår i genereringen
Metodene bør kombineres og verk som blir samlet gjennom flere metoder er «tryggere» enn andre
Det må allikevel gjøres en intellektuell jobb med å kvalitetssikre og forbedre verksregisteret
(både på selve autoritetene og algoritmene)
E-post: [email protected] Semantisk web: livedata.bibsys.no Autoritetsregister: authority.bibsys.no