• No results found

Effekten av augmenteringsteknikker i tidligere arbeid

Kapittel 6: Diskusjon

6.2 Effekt av augmenteringsteknikker

6.3.1 Effekten av augmenteringsteknikker i tidligere arbeid

Bruk av augmenteringsteknikker på inputdata har i flere tidligere studier vist å kunne forbedre ytelsen til dyplæringsmodeller [26-29]. Teknikkene brukes blant annet for å forhindre

overtilpasning og for å håndtere ubalanserte klasser, som ofte er en utfordring i medisinske datasett [30]. Ved å utføre forskjellige transformasjoner på treningsdata samtidig som forholdet til den sanne inntegningen holdes konstant, skapes nye varianter av

treningseksempler [29]. Nettverkes evne til å memorere detaljer i treningsdataene reduseres på denne måten, samtidig som treningsdataene og modellens kompleksitet kan utnyttes mer

87 effektivt. Dype nevrale nettverk trent på et variert datasett vil kunne ignorere små

forandringer i inputbilder, som ofte kan forekomme hvis bildene er tatt med forskjellige bildeteknikker eller apparater. Generaliseringsevnen til modellen kan dermed økes og

dyplæringsmodellen kan potensielt benyttes på datasett innsamlet med andre prosedyrer [29].

Augmenteringsteknikkene som er undersøkt i denne masteroppgaven er alle tradisjonelle augmenteringsteknikker. Disse teknikkene har i flere studier vist seg å være effektive og populære teknikker, som i noen klassifiseringsoppgaver har utkonkurrert andre metoder [23, 27]. Ifølge studien til Mikołajczyk og Grochowsk [23] er de tradisjonelle

augmenteringsteknikkene noen av de mest populære teknikkene å bruke, ettersom de både er raske og enkle å implementere sammenlignet med andre nyere teknikker. Dette underbygges videre i studien til Nalepa et al. [56] som undersøkte ulike augmenteringsteknikker benyttet i sammenheng med hjerne-tumorsegmentering i MR-bilder. Studien konkluderte med at tradisjonelle teknikker, som affine transformasjoner, er de mest brukte teknikkene, ettersom de lager anatomisk realistiske hjerne-avbildninger og er enkle å implementere. I tillegg viste studien at augmenteringsteknikkene flipp og rotasjon ga spesielt økt effekt [56]. Dette samsvarer med funn i denne masteroppgaven hvor den beste kombinasjonen av

augmenteringsteknikker bestod av affine transformasjoner, og hvor teknikken flipp hadde størst innvirkning på segmenteringsytelsen.

Tradisjonelle augmenteringsteknikker tilføyer imidlertid ikke mye ny informasjon til datasettet sammenlignet med GANs, som genererer syntetiske treningseksempler med mye variabilitet [23, 28]. I studien til Frid-Adar et al. [28] ble det vist at klassifiseringsytelsen av leverlesjoner til CNN-modeller økte ytterligere ved å kombinere bildene påført tradisjonelle augmenteringsteknikker med bildene generert av GANs. I studien til Perez og Wang [27]

oppnådde imidlertid bruk av GANs lavere klassifiseringsytelse enn bruk av tradisjonelle augmenteringsteknikker. Som nevnt i delkapittel 3.8.4 er GANs både krevende å

implementere og krever mye prosesseringskraft og tid [23]. I tillegg kan teknikken i noen tilfeller generere for like treningseksempler som gjør at modellens generaliseringsevne ikke øker [56]. GANs har dermed ikke blitt benyttet i denne masteroppgaven, men bør være en del av videre arbeid for å undersøke om kombinasjonen av augmenterte inputbilder og kunstig fremstilte inputbilder kan øke ytelsen, som vist i studien til Frid-Adar et al. [28].

En annen augmenteringsteknikk som har vist lovende resultater innenfor biomedisinske segmenteringsoppgaver, men som heller ikke har blitt testet ut i denne masteroppgaven, er elastisk deformasjon. Som tidligere nevnt ble elastisk deformasjon påført bilder tatt med

88 mikroskop i studien til Ronneberger et al. [50] for å skape et større og variert datasett.

Teknikken kan imidlertid skape anatomisk ukorrekte treningseksempler og er i tillegg tidkrevende og vanskelig å implementere sammenlignet med andre augmenteringsteknikker [56]. Teknikken bør likevel være del av videre arbeid for å undersøke om elastisk

deformasjon kan overgå ytelsen oppnådd med augmenteringsmodellen trent på datasett augmentert med de affine transformasjonene.

Ved å kombinere en rekke augmenteringsteknikker kan størrelsen på datasettet øke

betraktelig. Et stort datasett er ikke alltid en fordel og kan i noen tilfeller føre til en forverring av modellens ytelse hvis datasettet ikke inneholder representative treningseksempler. I tillegg øker krav til minne, prosesseringskraft og treningstid [30]. Kvaliteten på treningseksemplene er i mange tilfeller viktigere enn kvantiteten [77]. I studien til Kleppe et al. [29] ble det vist at ved å foreta tilfeldige fargemodifikasjoner på inputdata kan augmentasjon i noen tilfeller kompensere for små og begrensede datasett, men ved å videre øke fargeforandringene gikk relevant informasjon tapt og ytelsen ble forverret [29]. Det er derfor viktig å evaluere om augmenteringsteknikkene skaper representative treningseksempler. Som beskrevet tidligere, så det ut til at augmenteringsteknikkene lysstyrke og kontrast førte til redusert ytelse. Ytelsen ble også redusert når teknikkene støy og uskarphet ble kombinert med de affine

transformasjonene i eksperimentplan 3, vist i Tabell 5.8. Det kan derfor være at teknikkene skapte treningseksempler som ikke var representative for datasettet og som dermed førte til feilklassifiseringer, slik som i studien til Kleppe et al. [29]. Videre arbeid bør av den grunn undersøke andre nivåer av punkt- og filteroperasjonene.

Valg av augmenteringsteknikker avhenger av klassifiseringsoppgaven modellen står ovenfor.

Ut ifra oppgaven, vil det involverte datasettet tolerere ulike mengder av

augmenteringsteknikker før sammenhengen mellom inputbildene og sann inntegning forsvinner [29]. I studien til Hussain et al. [26] ble forskjellige augmenteringsteknikker undersøkt for klassifiseringsoppgaver av medisinske avbildninger. Studien fant blant annet ut at teknikker som bevarte egenskaper fra originalbildet oppnådde høyere ytelse. Fra de testede teknikkene oppnådde augmenteringsteknikken flipp og justering av uskarpheten høyest ytelsesmål, mens teknikken støy hadde negativ innvirkning på ytelsesmålet [26]. Funn fra studien til Hussain et al. [26] samsvarer med funn for augmenteringsteknikkene flipp og støy.

Teknikken uskarphet førte imidlertid ikke til signifikant økt ytelse.

Ifølge Shijie et al. [78] kan valg av augmenteringsstrategier være mer avgjørende enn valg av nettverkets struktur. Det er imidlertid ikke gjort studier, fra forfatterens kunnskap, som har

89 kommet frem til en generell valgstrategi av augmenteringsteknikk. Augmenteringsmetoder som øker ytelsen i ett tilfelle, kan forverre ytelsen i et annet tilfelle. Valg av

augmenteringsteknikker må derfor tilpasses til den individuelle oppgaven og datasett modellen står ovenfor [29].