• No results found

Prinsipalkomponent analyse (PCA)

3 Materialer og metoder

3.5 Prinsipalkomponent analyse (PCA)

I et datasett hvor det finnes flere variabler (målepunkter) enn det finnes målinger, vil en del av målepunktene være en lineærkombinasjon eller nesten lineærkombinasjoner av de andre variablene. Derfor er det mulig å redusere antall variabler uten å miste mye av informasjonen som er lagret i datasettet. En måte å gjøre denne reduksjonen på er ved hjelp av en Prinsipalkomponent analyse (PCA). PCA går ut på å finne de retningene i et flervariabelt datasett, som maksimerer variansen som blir forklart med noen få prinsipalkomponenter (PC) [41].

PCA går ut på at et sentrert datasett (X) deles opp i en matrise av skårene (T) og av ladninger (P) [37]:

( 2 ) X = TPT

For å beskrive fullt ut et datasett av størrelse m x n må rangen til skårene og ladningene være lik den minste av m og n [37]. For eksempel, for et datasett med 19 målinger av 1024 målepunkter vil rangen til skårene og ladningene være 19, for at datasettet fullt ut skal la seg reprodusere av skårene og ladningene ved ligning ( 2 ). I matrisene T og P er kolonnene sortert etter hvor mye av variansen de forklarer. Første kolonne forklarer mest av den totale variansen i datasettet etterfulgt av kolonne to, osv. De siste kolonnene forklarer svært lite av den observerte variansen. Det er derfor mulig å redusere rangen til T og P uten at det går utover hvor mye av variansen T og P forklarer. Ved å redusere rangen i ligning ( 2 ) innføres en residualmatrise E for at modellen skal fullt ut beskriver datasettet X:

( 3 ) X = TPT + E

Skårene T, er relatert til hver enkelt måling. Skårene blir oppgitt som den lineære kombinasjonen av ladningene som skal til for å finne det originale datapunktet i det originale koordinatsystemet. Alle skårene er lineært uavhengige av hverandre [42], mens ladningene er ortonormale lineære kombinasjoner av de originale variablene. Ladningen p1 er direkte knyttet til skåren t1. Ladninger og skårer med samme kolonnenummer knyttets sammen når det gjøres en reduksjon av antallet ladninger og skårer.

Det finnes flere måter å bestemme hvor mange prinsipalkomponenter som må være med for at E i ligning ( 3 ) skal bli så liten som mulig, samtidig som det er ønskelig å ha så få prinsipalkomponenter som mulig med i modellen. En måte vil være å plotte egenverdiene til prinsipalkomponentene og se etter hvor egenverdien gjør et hopp fra et høyt til et lavt tall.

31 Egenverdien til en prinsipalkomponent er det samme som den absolutte variansen som den samme prinsipalkomponenten forklarer [41]. Hvis den kumulative variansen til prinsipalkomponentene blir plottet vil det være mulig å finne ut hvor mange prinsipalkomponenter som må være en del av modellen, for at modellen for eksempel skal forklare 95 % av den observerte variansen. Et annet mål for å finne riktig antall prinsipalkomponenter kan være å se på Root-Mean-Square Error of Cross Validation (RMSECV).

Algoritmen for å finne transformasjonen i et datasett med mange variabler er: Først bestemme den retningen som maksimerer variansen på tvers av alle målingene, denne retningen blir kalt PC1. Deretter blir alle målingene projisert ned på PC1 og residualen mellom det projiserte punktet og originalpunktet blir med videre i analysen. I residualdatasettet som nå ikke inneholder noen informasjon om PC1, blir retningen som har størst varians funnet, denne retningen blir PC2. Informasjonen om PC2 blir så projisert bort fra datasettet på samme måte som for PC1. Denne prosedyren blir gjentatt til alt av varians er blitt forklart. Transformasjonen mellom x-y planet og PC1-PC2 planet er skjematisk fremstilt i figur 3-3.

Figur 3-3, transformasjon for datasett med 6 målepunkter fra x-y planet og over til PC1-PC2 planet.

Ladningsverdiene er vinklene mellom originalsakene og prinsipalkomponentaksene, mens skårene er avstanden fra origo og opp til det punktet som står normalt på prinsipalkomponentaksen [42], se figur 3-4.

For alanin datasettet blir PCA brukt for å finne klynger imellom prøver med like egenskaper og finne ut hvordan de underliggende spektrene ser ut. For Gorilla® Glass datasettet blir PCA brukt til å finne klynger av prøver med like egenskaper og for å benytte prinsipal komponent regresjon (PCR).

32

Figur 3-4, sammenhengen mellom målinger, ladninger, skårer og residualer for en PCA analyse. Residualene blir med videre i analysen og blir brukt til å beregne PC2.

3.5.1 Ulike typer figurer Skårplott

Skårplott viser sammenhengen mellom ulike prøver. Prøver med like egenskaper vil klynge seg sammen [43]. I et skårplott er PCx plottet mot PCy, hvor x og y er et tall imellom 1 og så mange PCer det finnes. Figur 3-5a viser et eksempel på et skårplott. Her er PC1 plottet mot PC2, det kommer fram at prøvene 0 og 1 har mange av de samme egenskapene, siden disse klynger seg sammen. Et annet relevant plot er å plotte skårene for en gitt PC mot prøve nummeret (se figur 3-5b). Dette viser størrelsen de ulike prøvene har i PC-verdi. I eksempelet vist i figur 3-5b har de fleste prøvene svak negativ PC1 verdi.

Ladningsplott

Ladningsplot blir en PCx plottet mot en annen PCy, og viser sammenhenger mellom de ulike variablene [43]. Ladningsplottet er viktig for å tolke skårplottet [43] siden ladningene er blitt skalerte for å passe med verdiene til skårplottet. Et eksempel på et ladningsplott er vist i figur 3-6a, hvor det vises at variablene kalt 342-350 har størst verdier for PC1/PC2. Denne type plott forteller ikke så mye om spektroskopiske data, siden spektroskopiske data har høy grad av korrelasjon mellom variablene. En annen form for ladningsplott er å plotte ladningene mot variabelnummeret, se figur 3-6b. Dette kan være nyttig for å lettere se hvilke variabler som drar PC verdien opp.

33

Figur 3-5, (a) viser et skårplott, her vil prøver med like egenskaper klynge seg sammen og (b) PC1 mot prøvenummer, her er det lett å se hvilke prøver som har negative verdier og hvilke som har positive verdier for PC1.

Figur 3-6, (a) viser et ladningsplott og (b) variabelnummer mot PC1, hvor det er lett å se hvilke variabelnummer som er viktigst for PC1 verdien.

(a) (b)

(a) (b)

Figur 3-7, korrelasjonsplott over variablene i et datasett. Den stiplede sirkelen står for 50 % korrelasjon, mens den heltrukne står for 100 % korrelasjon mellom variablene og skårene. De viktigste variablene ligger langs den heltrukne linjen.

34

Korrelasjonladningsplott

Korrelasjonsplott er et plott der korrelasjonen mellom skårene og variablene blir plottet [44]

normalt PC1 mot PC2, som i figur 3-7. Den stiplede sirkelen står for 50 % forklart varians, mens den heltrukne linjen står for 100% forklart varians. Punktene innenfor den stiplede sirkelen er variabler som ikke er egnet til å finne sammenhenger mellom skårene [44]. Punktene som ligger på den heltrukne linjen er de målepunktene som er de viktigste variablene for å estimere skårene.

3.5.2 Fordeler med prinsipalkomponent analyse

Ved å plotte skårene i et koordinatsystem med prinsipalkomponentene som akser vil egenskaper ved datasettet kunne oppdages [42]. Målinger med lignede egenskaper vil på et skårplott kunne oppdages som små klynger av punkter, mens målinger som er mer forskjellige vil havne langt fra hverandre. På samme måte som skårplottet viser sammenhenger mellom målinger vil et ladningsplott kunne vise sammenhenger mellom variablene [37]. Hvis variablene i ladningsplottet er langt fra hverandre betyr det at variablene tilfører modellen unik informasjon.

Hvis variablene i ladningsplottet er nærme hverandre betyr dette at variablene er høyt korrelerte, noe som betyr at det hadde vært mulig å få de samme resultatene uten å ha så mange variabler.

Siden de første prinsipalkomponentene forklarer mesteparten av den observerte variansen i datasettet, vil det som regel holde å plotte de første prinsipalkomponentene mot hverandre for å finne egenskapene i datasettet. Jo høyere prinsipalkomponent nummer som blir studert, jo mer støy vil prinsipalkomponenten vise og følgelig ikke vil være i stand til å forklare egenskapene som målingene har tilfelles.

Siden PCA vektorene er lineært uavhengig vil ikke disse nødvendigvis beskrive sanne sammenhenger i datasettet [45]. Dette gjør at å forklare hvilke egenskaper de ulike PCene står for ikke er så lett siden de ikke forklarer noe fysisk, men bare forklarer de retningene som har mest varians.

3.5.3 Prinsipalkomponent regresjon (PCR)

Ordinær regresjon fungerer best når det finnes flere prøver enn det finnes variabler [37]. Når det skal gjøres regresjonsanalyser på EPR-spektre er det som regel mange flere variabler enn det er prøver. For å unngå dette problemet er det mulig å bruke regresjon på noen eller alle prinsipalkomponentene, dette blir kalt prinsipalkomponent regresjon (PCR).

35 I PCR bestemmes prinsipalkomponentene ved ordinær PCA og blir deretter brukt videre i en regresjonsanalyse. Først blir skårene og ladningene funnet ved ligning ( 2 ), deretter går disse inn i regresjonsanalysen. Regresjonskoeffisientene 𝐛̂ for PCR blir funnet ved [37]:

( 4 ) 𝐛̂ = 𝐏(𝐓t𝐓)−1𝐓t𝐲

Hvor P er ladningene, T er skårene og y er responsen. Regresjonskoeffisienten kan bli brukt til å estimere responsen 𝐲̂ til nye prøver x, ved:

( 5 ) 𝐲̂ = 𝐱𝐛̂

Hvor x her er skårverdien til den nye prøven.