• No results found

Automatisk ekstrahering av verk - Bibliotekutvikling

N/A
N/A
Protected

Academic year: 2023

Share "Automatisk ekstrahering av verk - Bibliotekutvikling"

Copied!
50
0
0

Laster.... (Se fulltekst nå)

Fulltekst

(1)

Automatisk ekstrahering av verk

Veien til et verksregister. Seminar 14. oktober 2016

(2)

Asbjørn Risan (BIBSYS)

Asbjørn Risan Tjenesteansvarlig, BIBSYS Autoritetsregister Tjenester og leveranser

• Masterutdannet bibliotekar ved Høgskolen i Oslo med spesialisering innen

kunnskapsorganisasjon og gjenfinning

• Er nå tjenesteansvarlig i seksjonen for

Tjenester og leveranser, med hovedansvar for BIBSYS Autoritetsregister

• Vært med i prosjektet «Bibliotekbasen i Semantisk Web» og sitter i en

arbeidsgruppe for verk

(3)

Agenda

Verksregister

– Kan man generere et verksregister basert på eksisterende bibliografiske data?

Use-case: Helge Ingstad

– Kan man bruke metoder for å forbedre den automatiske ekstraheringen av verk?

(4)

Ekstrahering av verk: Datakildene

BIBSYS Autoritetsregister Bibliotekbasen

(5)

BIBSYS Autoritetsregister

Består av ca 1.8 millioner personautoriteter

Danner grunnlag for det nasjonale autoritetsregisteret som er en delmengde av BIBSYS Autoritetsregister (ca 102.000)

Nasjonalbiblioteket bruker og vedlikeholder BIBSYS

Autoritetsregister ved at de i sitt bibliografiske arbeid oppgraderer autoriteter som blir del av det nasjonale autoritetsregisteret

Autoritetsregisteret er ryggraden i autoriseringen av bibliografiske poster i biblioteksystemet

(6)

BIBSYS Autoritetsregister

I tillegg til personautoriteter inneholder registeret autoriteter for:

– Konferanser, korporasjoner og organisasjoner (ca 285.000) – Standardtitler (ca 20.000)

De nasjonale personautoritetene blir eksportert til VIAF:

The Virtual International Authority File:

– Det er tilrettelagt for at autoritetene i autoritetsregisteret skal oppdateres med VIAF-ID, ISNI (International Standard Name Identifier) og ORCID

Tilgjengelig for søk maskin til maskin (spørsmål inn, XML tilbake)

– Format: Dublin Core eller MARC

(7)

BIBSYS Autoritetsregister

BIBSYS arbeider med å etablere emneord som en delmengde av autoritetsregisteret

– Starter de emneordene som ble vedlikeholdt i det forrige biblioteksystemet (Humord og Tekord)

– Vil bli mulig å legge inn andre lokale emneordssystemer også Er i dialog med Nasjonalbiblioteket om etablering av et

verksregister

(8)

Bibliotekbasen

Bibliotekbasen oppdateres og vedlikeholdes i Alma og består av i overkant av 7 millioner bibliografiske poster

Verksregisteret er basert på de data som ble migrert fra det forrige biblioteksystemet (ca 5.5 millioner poster) og inkluderer ikke elektroniske tidsskrift/e-bøker

Inkrementell oppdatering fra Alma planlagt i 2017

(9)

Verksregister

Bakgrunn: BIBSYS gjennomførte i 2015-2016 et prosjekt om semantisk teknologi sammen med NTNU, UiB, UiO og UiT med finansiering av Nasjonalbiblioteket.

Som en del av tildelingen lå det en føring om å se på «behov knyttet til utvikling av et verksregister»

For å bygge erfaringer ble det besluttet å se om vi kunne generere et verksregister som en del av prosjektet

(10)

Definisjon av verk (i prosjektet)

Underliggende ønske: samle bibliografiske poster som representerer den samme intellektuelle entiteten

Pragmatisk definisjon: to bibliografiske poster med samme forfatter og samme tittelinformasjon tilhører det samme verket – Hver bibliografisk post ble tildelt en nøkkel basert på

bibliografiske data. Poster som deler samme nøkkel er knyttet til samme verk

(11)

Verksnøkkel 1

*100 1 # $aIngstad, Helge $d1899-2001 $0(NO-TrBIB)90106700

*245 1 0 $aPelsjegerliv blant Nord-Canadas indianere $cHelge Ingstad

= Pelsjegerliv blant Nord-Canadas indianere 90106700

= b9303c1d6c4186d33852f403c810fb4a (verksnøkkelen)

(12)

Verksnøkkel 2

*100 1 # $aIngstad, Helge $d1899-2001 $0(NO-TrBIB)90106700

*245 1 0 $aMein Leben in der Wildnis $cübertragung aus dem Norwegischen von Helen Uhlschmid

*246 1 # $aPelsjegerliv blant Nord-Canadas indianere $iOriginaltittel

= Pelsjegerliv blant Nord-Canadas indianere 90106700

= b9303c1d6c4186d33852f403c810fb4a (verksnøkkelen)

(13)

Regler for verksdefinisjon

Regelsett 1:

Originaltittel + autid for hovedordningsord (1XX) Originaltittel + hovedordningsord (1XX)

Originaltittel + tittel (245 a og b) Originaltittel

Tittel (245 a og b) + standardtittel (240 alle felt) + autid for hovedordningsord (1XX)

Tittel (245 a og b) + standardtittel (240 alle felt) + hovedordningsord (1XX)

Tittel (245 a og b) + autid for hovedordningsord (1XX) Tittel (245 a og b) + hovedordningsord (1XX)

Standardtittel (130 alle felt) Tittel (245 a og b)

(14)

Regler for verksdefinisjon

Ved første kjøring i mai ble det generert 3 571 053

verkskandidater* basert på 4 352 391 bibliografiske poster – 1,22 bibliografisk post pr verk

Ved andre kjøring i september ble det generert 4 646 613 verkskandidater* basert på 5 530 899 bibliografiske poster – 1,19 bibliografisk post pr verk

*Basert på regelsett 1

(15)

Regler for verksdefinisjon

Fordeling regelsett 1 i %

3,15

0,31 0,31 0,00 1,44 0,18 55,77

11,55

1,56

26,24

2,56

0,25 0,29 0,00 1,95 0,47

57,23

12,14 1,35

23,76

0,00 10,00 20,00 30,00 40,00 50,00 60,00

A B C D E F G H I J

Ma1 2016 September 2016

A = Originaltittel + autid

B = Originaltittel + hovedordningsord C = Originaltittel + tittel

D = Originaltittel

E = Tittel + standardtittel + autid F = Tittel + standardtittel + hovedordn.

G = Tittel + autid

H = Tittel + hovedordningsord I = Standardtittel

J = Tittel*

* Første kjøring tok ikke med 110, 111 eller 130 som autid eller

hovedordningsord

(16)

Regler for verksdefinisjon

Hensikt med regelsett 2 og 3

– Fange opp verk som ikke ble dekket av regelsett 1 – Koble bibliografiske poster til andre verk

(17)

Regler for verksdefinisjon

Regelsett 2 (repeterbart*):

Standardtittel (730 alle felt) + autid for hovedordningsord (1XX) Standardtittel (730 alle felt) + hovedordningsord (1XX)

Standardtittel (730 alle felt)

Regelsett 3 (repeterbart*):

Bi-inførsel på tittel (740 a) + autid for hovedordningsord (1XX) Bi-inførsel på tittel (740 a) + hovedordningsord (1XX)

Bi-inførsel på tittel (740 a)

*Repeterbarhet ikke realisert

(18)

Regler for verksdefinisjon

4795 2527 8110

459671

71932

283137

0 50000 100000 150000 200000 250000 300000 350000 400000 450000 500000

P Q R U V W

Regelsett 2 og 3

Regelsett 2 og 3

P = Standardtittel (730) + autid Q = Standardtittel (730) + hovedordn.

R = Standardtittel (730) + tittel U = Bi-innførsel (740) + autid V = Bi-innførsel (740) + hovedordn.

W = BI-innførsel (740)

(19)

Regler for verksdefinisjon

54,8 % 44,3 %

0,9 %

Regelsett 2 og 3 - grad av kobling til andre verkskandidater

Nye verksnøkler Koblet til en annen verksnøkkel Koblet til to eller flere verksnøkler

N = 837.795

(20)

Eksempel på verk

(21)

På vei mot et verksregister

Bevisst generert «for mange» verk

– Enklere å slå sammen verk enn å opprette et nytt – Ikke tatt hensyn til informasjon i noter

Kan vi maskinelt gjøre forbedringer?

(22)

Case:

Helge Ingstad

(23)

Case: Helge Ingstad

Det er generert 54 verkskandidater for Helge Ingstad (43 i mai)

Det «korrekte» antallet er 29 verk (21 i mai)

– Avhengig av verksdefinisjon, spesielt med tanke på sammensatte verk

Helge Ingstad har autoritets-ID: 90106700

(24)

Utfordringer vi ser

Poster som ikke er autorisert Varianter i skrivemåte

Forkortede titler / bruk av undertitler Titler uten originaltittel

Sammensatte verk

(25)

Poster som ikke er autorisert

Pelsjegerliv blandt Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere Ingstad, Helge

Pelsjegerliv blant Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv http://livedata.bibsys.no/authority/90106700

(26)

Poster som ikke er autorisert

Det var 429 933 verkskandidater (mai 2016) basert på

kombinasjoner som inkluderer hovedordningsord og som ikke er autorisert

Ved å gjøre oppslag mot autoritetsregisteret på hovedordningsord kan vi prøve å finne en autoritets-ID

Antall vellykkede erstatninger

178903 42 %

Antall multiple treff 23965

6 % Antall ingen

treff 222441

52 %

(27)

Poster som ikke er autorisert

Ved å erstatte hovedordningsord med autoritets-ID i

verkskandidatene kan vi redusere antall verk med ca 20.000 ved at vi da fikk match på allerede eksisterende verkskandidater

(28)

Poster som ikke er autorisert

Det var 15 verksnøkler med Helge Ingstad som ikke var autorisert

Helge Ingstad var en av de vi fikk match på og antall verk kunne reduseres med 7

Antall verksnøkler er da 47 for Helge Ingstad

5 av de 8 resterende verksnøklene er reelle verk, mens resten skulle vært koblet til

andre verk

(29)

Varianter i skrivemåte

Pelsjegerliv blandt Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere Ingstad, Helge

Pelsjegerliv blant Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv http://livedata.bibsys.no/authority/90106700

Nunamiut : blant Alaskas indlandseskimoer http://livedata.bibsys.no/authority/90106700 Nunamiut : blant Alaskas innlandseskimoer http://livedata.bibsys.no/authority/90106700 Nunamiut : Blant Alaskas innlands-eskimoer http://livedata.bibsys.no/authority/90106700

(30)

Varianter i skrivemåte

Ved å sammenligne verksnøklene ved hjelp av ulike

sammenligningsalgoritmer kan vi definere om to verksnøkler er like nok til at de representerer det samme verket

– Forutsetning at de er knyttet til den samme autoriteten

Testet ved hjelp av Levenshtein-metoden (ser på hvor mange endringer som må gjøres for å få to tekster til å bli like)

– Kunne også brukt andre metoder som N-Gram

(31)

Varianter i skrivemåte

Eksempel: Sammenligner:

Nunamiut : blant Alaskas indlandseskimoer Nunamiut : blant Alaskas innlands-eskimoer – Levenshtein-faktor: 2.0

– Prosentvis: 95.2381

– Grensen er satt til: 75.0%

– Titlene er like

(32)

Varianter i skrivemåte

Kjører vi denne sammenligningen på verksnøklene for Helge Ingstad så ville vi kunne fjerne 5 verksnøkler

Antall verksnøkler for Helge Ingstad er da nede i 42

(33)

Forkortede titler / undertitler

Pelsjegerliv blandt Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv blant Nord-Canadas indianere Ingstad, Helge

Pelsjegerliv blant Nord-Kanadas indianere http://livedata.bibsys.no/authority/90106700 Pelsjegerliv http://livedata.bibsys.no/authority/90106700

Klondyke Bill : roman http://livedata.bibsys.no/authority/90106700 Klondyke Bill : roman Ingstad, Helge

Klondyke Bill http://livedata.bibsys.no/authority/90106700

(34)

Forkortede titler / undertitler

Typisk for utenlandske verk med originaltittel at norsk undertittel ikke er tatt med som en del av originaltittel

Hvis vi hadde kjørt en sammenligning kun på første ledd av tittel for verkskandidatene kunne vi redusert antall verk med 8

– Dette er en litt mer upresis sammenligning og øker risikoen for falske positiver

Antall verksnøkler er da 34

(35)

Utenlandske titler uten originaltittel

Apacheindianerne : jakten på den tapte stamme http://livedata.bibsys.no/authority/90106700 ; Apache-indianerne : jakten på den tapte stamme http://livedata.bibsys.no/authority/90106700 ; Apache-indianerne http://livedata.bibsys.no/authority/90106700 ;

Die Letzten apachen http://livedata.bibsys.no/authority/90106700 ;

(36)

Utenlandske titler uten originaltittel

En del poster mangler originaltittel

En mulighet er å sjekke andre databaser om du får match på kombinasjon av forfatter og tittel og se om denne posten har en originaltittel som matcher med en eksisterende verkskandidat

Bruk av VIAF og/eller ISNI på autoriteten vil sikre at man søker på samme person

(37)

Utenlandske titler uten originaltittel

Die Letzten apachen http://livedata.bibsys.no/authority/90106700

(38)

Utenlandske titler uten originaltittel

Ett slikt oppslag vil redusere antall resterende verkskandidater med 2

Resterende antall verksnøkler er da 32

(39)

Sammenligne poster basert på digitaliseringer fra Nasjonalbiblioteket

Nasjonalbiblioteket har gitt oss tilgang til termfrekvens og assosiasjon for de digitaliserte postene i Bokhylla

Assosiasjonsmålet sier noe om hvor pregnant en term er for et dokument

Ved å sammenligne de X antall termene med høyest assosiasjonsmål kan man finne ut om innholdet

i to verk sammenfaller med hverandre

(40)

Tittel: Pelsjegerliv

Forfatter: Ingstad, Helge Publisert: [Stabekk] : Den norske bokklubben, 1977 Omfang: 235 s., pl. ill.

Språk: Norsk (Bokmål) ISBN: 8252505082

Tittel: Pelsjegerliv blant Nord- Canadas indianere

Forfatter: Ingstad, Helge

Publisert: Oslo : Gyldendal, 1957 Omfang:234 s., pl.(noen fold.) ill.

Språk: Norsk (Bokmål)

Deler 52 av 60 termer med

høyest

assosiasjonsmål

(41)

Tittel: Klondyke Bill Forfatter: Ingstad, Helge

Publisert: Oslo : Storskriftforl., 1995 Omfang: 325 s.

Språk: Norsk (Bokmål) ISBN: 8277900309

Tittel: Klondyke Bill : roman Forfatter: Ingstad, Helge

Publisert: Oslo : Gyldendal, 1941 Omfang: 308 s.

Språk: Norsk (Bokmål)

Deler 51 av 60 termer med

høyest

assosiasjonsmål

(42)

Sammensatte verk

(43)

Sammensatte verk

Problem: De viktigste ordene i det sammensatte verket stammer fra en annen tekst enn den det sammenlignes med.

Løsning: Det sammensatte verket representeres med de viktigste ordene fra kildeteksten.

(44)

De viktigste ordene

Klondyke Bill Siste båt Sammensatt verk med begge

{ 'Athabaska-sjøen': 2, 'Mackenzie-flodens': 2, 'Nome-karen': 4,

'Twelve-': 3, 'beverdal': 3, 'morénehaug': 2 }

{ 'sommerbåtene':3, 'Polarlandets': 3, 'taubana': 2,

'finansgruppen': 2, 'SJØHOLMEN': 34, 'skru-is': 2

}

{ 'OPPTAS': 7,

'Athabaska-sjøen': 2, 'sommerbåtene': 3, 'Mackenzie-flodens': 2, 'beverdal': 3,

'morénehaug': 2 }

Det sammensatte verkets topp 6 sammenfaller med Klondyke Bill for 4 ord.

Siste båt er representert med bare ett ord.

(45)

Sammensatte verk

Ta de ordene fra det sammensatte verket som du finner i enkeltverket og se på sammenfall av ordene med høyest assosiasjonsmål

Finner da at det sammensatte verket representerer verket

”Klondyke Bill” og ”Siste båt”

Kuriositet: Under testing var det en utgave av ”Klondyke Bill” som ikke ga match. Viste seg at det var feil metadata

knyttet til den digitaliserte teksten og at teksten var et annet verk av Helge Ingstad

(46)

Andre mulige metoder

Sjekke andre lands nasjonalbibliografier

Sjekke om andre verk kan ha alternative titler som korresponderer med andre verksnøkler

(47)

Oppsummering: Case Helge Ingstad

Antall reelle verk = 29

Rekkefølgen har betydning for effekten på metoden

Metode Antall verksnøkler

redusert Gjenstående verk

Verksnøkkelgenerering 54

Ikke autoriserte poster 7 47

Tekstanalyse på nøkler 5 42

Tekstanalyse kun på første ledd

for poster basert på originaltittel 8 34

Oppslag i andre kataloger 2 32

Sammenligning basert på

digitaliseringer 1 31

Sammenligning digitaliseringer

for sammensatte verk 1 30

(48)

Oppsummering

Å autorisere bibliografiske poster som ikke er autorisert har en begrenset effekt (ca 5% totalt), men vil ha større effekt på

forfattere med stor produksjon

– Bidrar også positivt til å samle verk knyttet til en person Tekstanalyse av verksnøkler har god effekt

Sammenligning av verk basert på innholdsanalyse av digitaliserte poster kan redusere antall verk ytterligere. Har primært effekt på:

– norske utgivelser med store variasjoner i tittelinformasjon – sammensatte verk

Innhenting av informasjon fra eksterne kilder/kataloger kan også ha positiv effekt

(49)

Konklusjon

Vi kan komme et godt stykke på vei mot et utgangspunkt for et verksregister basert på eksisterende metadata

– Denne fremgangsmåten bevarer koblingen mellom

verksautoriteten og alle de bibliografiske postene som inngår i genereringen

Metodene bør kombineres og verk som blir samlet gjennom flere metoder er «tryggere» enn andre

Det må allikevel gjøres en intellektuell jobb med å kvalitetssikre og forbedre verksregisteret

(både på selve autoritetene og algoritmene)

(50)

E-post: [email protected] Semantisk web: livedata.bibsys.no Autoritetsregister: authority.bibsys.no

Takk for

oppmerksomheten!

Referanser

RELATERTE DOKUMENTER

Tabell 2 Anslått endring i skatt for alle personer som er 17 år eller eldre gruppert etter beregnet nettoformue 1 ved en verdsettingsrabatt for aksjer og driftsmidler og