Modellering av strømproduksjon i Rognsfossen vannkraftverk
Masteroppgave i energi
Torbjørn Kolve
Universitetet i Bergen Geofysisk institutt
1. Juni 2016
1
2
Forord og dedikasjon
Formålet med denne oppgaven har vært å gi Voss Energi et verktøy for å varsle kraftproduksjon opptil halvannet døgn frem i tid for ett av deres vannkraftverk. Et av de viktigste målene med dette verktøyet var at det skulle være så enkelt å bruke at Voss Energi faktisk ville velge å bruke det daglig. Dette har ført til at noen av de statistiske metodene som er valgt under tilvirkningen av modellen ikke alltid har vært de mest avanserte.
Jeg vil gjerne få rette en stor takk til Asgeir Sorteberg ved Geofysisk Institutt, UIB som har vært meget behjelpelig i alle aspekter av både oppgaven og prosessene bak den. Voss Energi ved Nils Fatland har vært behjelpelig med å gi tilgang til datasett fra målestasjoner og vannkraftverket og har i tillegg kommet med ideen bak oppgaven, og jeg ønsker da å få takket de for det. Takk til Jørgen Ohnstad ved Bergen Energi for møtet hvor vi diskuterte energimarkedet.
3
Sammendrag
I denne rapporten har vi forsøkt å finne en modell som kan varsle fremtidig produksjon i Rognsfossen kraftverk lokalisert på Voss. Rognsfossen er et elvekraftverk i Vossavassdraget med en installert effekt på 6,15 MW og en årlig produksjon på ca. 25 GWh [1]. Som forklaringsvariabler har vi brukt
produksjonen fra kraftverket og avrenning fra to elver i vassdraget, en målestasjon som ligger oppstrøms fra kraftverket og en målestasjon som ligger nærmere kraftverket, men hvor vannet fra målestasjonen ikke går gjennom kraftverket. Målestasjonene dataene er hentet fra heter henholdsvis Myrkdalen og Kinne.
Vi har undersøkt fire forskjellige regresjonsmodeller. Den første modellen var en trinnvis regresjon, den andre en multippel lineær regresjon hvor man brukte tidsseriene med høyest korrelasjon til
produksjonen som forklaringsvariabler. Den tredje modellen var en multippel lineær regresjon som brukte et korrelasjonsvektet gjennomsnitt av avrenningen for alle tidsseriene som hadde korrelasjon over en viss grense som forklaringsvariabler. Den fjerde modellen brukte en kvantilregresjon av de samme dataene som ble brukt i modell 2.
Vi testet om alle forklaringsvariablene var like viktige for regresjonen. Det viste seg at dersom man fjernet produksjonen som forklaringsvariabel ble resultatene mye dårligere enn om man fjernet Kinne som forklaringsvariabel. Vi valgte da å bruke alle tre forklaringsparameterne videre.
Av de ulike modellene vi testet var det modell 1 som endte opp med å få de beste resultatene når vi brukte alle tilgjengelige data til å produsere modellen. Da vi senere kryssvaliderte ble derimot modell 1 den dårligste, noe som tyder på at den var overtilpasset. Vi undersøkte også sesongvariasjonen for alle de ulike modellene hvor den største forskjellen viste seg å være en mye større systematisk
underestimering av produksjonen om våren og vinteren enn om sommeren og høsten.
De tre andre modellene hadde stort sett relativt like resultat for kryssvalideringen, og bedre resultat enn modell 1, så vi valgte å forkaste modell 1 da vi skulle kryssvalidere modellene for 2014 og sammenligne de med Voss Energi sine innmeldte produksjonsverdier.
I den siste kryssvalideringen kom vi frem til at den beste modellen var modell 2 der vi brukte multippel lineær regresjon med tidsseriene med høyest korrelasjon til produksjonen som forklaringsvariabler.
Denne hadde den minste gjennomsnittlige absolutte feilen og en relativt lav systematisk feil. I
sammenligningen med Voss Energi sine innmeldte produksjonsverdier så vi at alle tre modellene fikk en bedre gjennomsnittlig absolutt feil, men en noe dårligere systematisk feil.
4
Innholdsliste
FORORD OG DEDIKASJON ... 2
SAMMENDRAG ... 3
INNHOLDSLISTE ... 4
1 INTRODUKSJON ... 6
2 STATISTISKE METODER ... 7
2.1 REGRESJON ... 7
2.1.1 Multippel regresjon ... 7
2.1.2 Trinnvis regresjon ... 7
2.1.3 Kvantilregresjon ... 8
2.2 AVVIKSMÅL ... 8
2.2.1 Korrelasjon ... 8
2.2.2 Gjennomsnittlig absolutt feil (MAE) ... 9
2.2.3 RMSE ... 9
2.2.4 Bias ... 9
2.2.5 Skill scores ... 10
2.2.6 Kategorisk validering ... 10
2.2.7 Kryssvalidering ... 11
3 BESKRIVELSE AV ROGNSFOSSEN VANNKRAFTVERK ... 12
3.1 GENERELT OM VANNKRAFT ... 12
3.2 ROGNSFOSSEN VANNKRAFTVERK ... 12
3.3 INNMELDING AV KRAFTPRODUKSJON ... 13
4 BESKRIVELSE AV PRODUKSJONS- OG AVRENNINGSDATA ... 15
4.1.1 Produksjonsdata ... 15
4.1.2 Innmeldte produksjonsdata ... 15
4.1.3 Avrenningsdata ... 16
5 METODER ... 18
5.1 KLARGJØRE RÅDATA ... 18
5.2 PRODUKSJONSMODELLENE ... 19
5.2.1 Modell 1: Trinnvis regresjon ... 20
5.2.2 Modell 2: Multippel lineær regresjon med tidsserier som har maks korrelasjon med produksjonen. ... 21
5.2.3 Modell 3: Multippel lineær regresjon med tidsserier basert på løpende gjennomsnitt rundt maks korrelasjon ... 21
5.2.4 Modell 4: Kvantilregresjon ... 23
5.3 KRYSSVALIDERING AV MODELLENE ... 23
6 RESULTATER ... 24
6.1 BESKRIVELSE AV FORKLARINGSVARIABLER ... 24
6.2 VALIDERING AV MODELLENE FOR FORSKJELLIGE VARSLINGSLENGDER ... 28
6.3 VALIDERING AV MODELLENE FOR REELLE VARSLINGSLENGDER ... 31
6.4 VARIASJON AV FORKLARINGSPARAMETERE... 36
5
6.5 KRYSSVALIDERING AV MODELLENE ... 44
6.6 SAMMENLIGNING MED INNMELDT DATA ... 50
6.6.1 Kryssvalidering for 2014 ... 50
6.7 ALTERNATIVE METODER FOR OPPGAVEN ... 52
7 KONKLUSJON ... 53
REFERANSER ... 55
VEDLEGG ... 57
VEDLEGG 1RESULTATER FOR REELLE VARSLINGSLENGDER ... 57
VEDLEGG 2ULIKE KOMBINASJONER AV FORKLARINGSVARIABLER ... 61
Uten avrenning for Kinne som forklaringsvariabel ... 61
Uten produksjon som forklaringsvariabel ... 64
VEDLEGG 3KRYSSVALIDERTE VERDIER I DET REELLE VARSLINGSTIDSROMMET ... 68
VEDLEGG 4INNGANGSDATA FOR MODELL 1 ... 71
VEDLEGG 5INNMELDINGSKJEMA FOR ROGNSFOSSEN ... 73
VEDLEGG 6KRYSSVALIDERTE MODELLER FOR 2014. ... 74
6
1 Introduksjon
I 2013 var den totale norske elektrisitetsproduksjonen 134 TWh, hvorav 129 TWh kom fra vannkraft.
Norske kraftverk deles inn i regulerbare og uregulerbare vannkraftverk, hvor de regulerbare har reguleringsmagasin, og etter hvor stor installert effekt vannkraftverket har. Rognsfossen vannkraftverk ville blitt definert som et uregulerbart småkraftverk siden det er et elvekraftverk som har en installert effekt mellom 1 og 10 MW. Småkraftverk står for omtrent 6,3 % av den totale vannkraftproduksjonen.
[2]
Formålet med denne masteroppgaven er å bruke måleserier fra to målestasjoner i vassdraget som måler avrenning og en måleserie for total produksjon i kraftverket til å lage et verktøy som gjør det enklere for Voss Energi å melde inn sin fremtidige produksjon for Rognsfossen vannkraftverk til balanseansvarlig.
Balanseansvarlig er den som har det økonomiske ansvaret for å bevare balansen mellom forbruk og produksjon dersom det blir avvik fra det som er meldt inn[3]. For at Voss Energi skal velge å benytte seg av dette verktøyet har de gitt uttrykk for at det må oppfylle kravene til enkelhet og presisjon, altså at det gjør hele prosessen med innmelding enklere for dem og at resultatene er mer nøyaktige enn det de har i dag. Ved hjelp av regresjon vil vi produsere ulike modeller for produksjonen og vurdere disse ut fra forskjellige parametere for å prøve å finne den som passer best for Voss Energi.
Det eksisterer flere rapporter som omhandler ulike forsøk på å varsle avrenning i et vassdrag. Eksempler kan være kompliserte modeller som tar høyde for regn og avrenning sammen med hvordan avrenningen strømmer i vassdraget og beregner hvordan snøen pakker seg og smelter som SEHR-ECHO-modellen [4].
Enklere rapporter som ligner mer på det vi forsøker å gjennomføre her er Veiga et al. [5] som i sin rapport ser på avrenning i et vassdrag ved Calgary i Canada. Her forsøker de å bruke flere typer modeller for å varsle avrenning ved et bestemt punkt i elva ved hjelp av målepunkter lengre oppe i elva, deriblant multippel regresjon. Til forskjell fra denne rapporten ser vi spesifikt på et vannkraftverk som ikke har målinger for vannføring ved selve vannkraftverket, bare målinger for produksjonen. Derfor velger vi å forsøke å lage en modell som direkte forsøker å varsle produksjonen uten å først varsle vannføringen ved vannkraftverket. Dette medfører en del problemer siden kraftverket har to turbiner og dermed må vi innføre noen restriksjoner på regresjonene våre.
7
2 Statistiske metoder
Her vil vi forsøke å forklare noen av de grunnleggende statistiske metodene som vi senere skal benytte oss av. Vi starter med å forklare ulike former for regresjon og deretter ulike typer avviksmål vi skal bruke for å vurdere modellene.
2.1 Regresjon
Målet med en regresjon er å lage en matematisk funksjon ved hjelp av et begrenset sett med
observasjoner for å si noe om sammenhengen mellom disse. Ved å anta at lignende hendelser følger det samme mønsteret kan man ved hjelp av den matematiske funksjonen forutsi hvilke verdier man vil få for nye hendelser. Man kaller ofte de to variablene for forklarings(X)- og responsvariabel(Y) (prediktor). I denne oppgaven bruker vi 3 forskjellige linære regresjonsmetoder: Multippel regresjon med minste kvadraters metode, trinnvis regresjon og kvantilregresjon. Regresjonslikningen er lik for alle, men forklaringsvariabler (X) og regresjonskoeffisienter (a) kan være forskjellig.
𝑌 = 𝑎1∗ 𝑋1+ 𝑎2∗ 𝑋2+. . 𝑏
Ligning 1 Standard lineær regresjonslikning
2.1.1 Multippel regresjon
Den mest vanlige formen for regresjon tar i bruk minste kvadraters metode. Her ønsker man å lage koeffisienter som minimerer feilen mellom observasjonen og det modellen forutsier. Minste kvadraters metode gjør dette ved å finne en linje som gjør at avstanden i vertikal retning fra alle punktene til linjen blir så liten som mulig. For å ta hensyn til at modellen både kan overestimere og underestimere
observasjonen tar man kvadratet av feilen og derav navnet minste kvadraters metode. [6]
2.1.2 Trinnvis regresjon
Trinnvis regresjon finner koeffisientene i en multippel lineær modell ved å først lage en utgangmodell og så teste i hvor stor grad nye ledd som blir lagt til forbedrer modellen. Dersom modellen blir forbedret mer enn en grenseverdi blir leddet lagt til og man tester de resterende leddene til man ikke lenger finner flere ledd som forbedrer modellen. Det samme gjøres for å fjerne ledd, ved å se om modellen blir bedre dersom man fjerner et ledd og dersom forbedringen er såpass signifikant at den overstiger en grenseverdi, blir leddet fjernet.
8
Et problem med denne metoden er overtilpasning siden det er mulig å få veldig mange ledd i
regresjonsligningen. Det betyr at modellen følger dataene man har laget modellen med for godt, slik at når man bruker modellen på nye datasett vil man få en mindre treffsikker modell. [7]
2.1.3 Kvantilregresjon
Dersom man ordner et datasett i stigende rekkefølge kan man dele settet opp i ulike grupper. Disse gruppene kalles kvantiler. Der man i vanlig regresjon forsøker å finne ut hvordan det man prøver å modellere utvikler seg i gjennomsnitt, prøver man i kvantilregresjon å undersøke om de ulike kvantilene av datasettet utvikler seg forskjellig. Dette gjør man ved at man undersøker hver kvantil for seg selv og finner regresjonskoeffisienter som beskriver hver enkel kvantil. I stedet for å gjøre dette ved hjelp av minste kvadraters metode gjør man det ved å minimere summen av de vektede absolutte feilene.
Dermed får ekstremverdier mindre å si for koeffisientene.
Ved så å undersøke alle kvantilregresjonene man har gjort over alle kvantilene kan man forsøke å forklare hvordan datasettet utvikler seg ulikt for høye verdier og lave verdier. [8]
2.2 Avviksmål
I denne delen vil vi forklare de forskjellige parametere vi vil benytte for å vurdere de forskjellige modellene opp mot hverandre.
2.2.1 Korrelasjon
Korrelasjon er et mål på hvor sterk den lineære avhengigheten mellom to variabler (x,y) er. Det kalles også samvariasjon. Korrelasjonskoeffisienten (r) blir representert av et tall mellom 1 og -1, hvor 1 er positiv korrelasjon, altså at variablene øker og minker samtidig, og -1 er negativ korrelasjon, som betyr at den ene variabelen minker når den andre øker og motsatt. En verdi på 0 indikerer derimot at det ikke er noen lineær avhengighet. Ligningen under er Pearsons formel for korrelasjonskoeffisient hvor x og y er variablene og n er antall observasjoner. [9]
𝑟 = 𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦)
√[𝑛 ∑ 𝑥2− (∑ 𝑥)2][𝑛 ∑ 𝑦2− (∑ 𝑦)2]
Ligning 2 Pearsons korrelasjonskoeffisient [10]
9 2.2.2 Gjennomsnittlig absolutt feil (MAE)
Gjennomsnittlig absolutt feil blir regnet ut som gjennomsnittet av alle feilene(𝑒𝑖). For at ikke negative og positive feil skal kansellere hverandre bruker man absoluttverdiene. MAE gir et mål på typisk feil, men sier ikke noe om modellen systematisk over- eller underestimerer. [11]
𝑀𝐴𝐸 =1 𝑛∑|𝑒𝑖|
𝑛
𝑖=1 Ligning 3 MAE
2.2.3 RMSE
RMSE er kvadratroten av den gjennomsnittlige kvadrerte feilen (𝑒𝑖). Den brukes som et mål på størrelsen til feilene, hvor store feil er vektet mer enn mindre feil. RMSE vil alltid være minst like stor som MAE. Dersom de er like betyr det at alle feilene er like store, dersom det er en stor forskjell på de betyr det at variansen i størrelsen på feilene er stor, altså er RMSE mer følsom for ekstremalverdier enn MAE. [11]
𝑅𝑀𝑆𝐸 =1 𝑛∑ 𝑒𝑖2
𝑛
𝑖=1 Ligning 4 RMSE
2.2.4 Bias
Bias blir regnet ut som den gjennomsnittlige feilen (𝑒𝑖) mellom modellen og observasjonene i prosent av observasjonene (𝑧𝑖). I motsetning til MAE tar man ikke absoluttverdien av feilen og dermed blir bias et mål på om modellen systematisk over- eller underestimere observasjonene. Bias sier derimot ingenting om typisk størrelse på feilene for en gitt time eller dag. [12]
10 𝐵𝑖𝑎𝑠 =
1 𝑛∑𝑛𝑖=1𝑒𝑖 1 𝑛∑𝑛𝑖=1𝑧𝑖
Ligning 5 Bias
2.2.5 Skill scores
Skill scores beskriver hvor godt en modell klarer å forutsi hendelser i forhold til en allerede eksisterende modell. De er dermed et godt verktøy når man skal teste en ny modell og kvantitativt si hvor mye bedre eller dårligere modellen er. Det vanlige formatet for å regne ut skill score er:
𝑆𝑘𝑖𝑙𝑙 𝑠𝑐𝑜𝑟𝑒 =𝑝𝑜𝑒𝑛𝑔𝑠𝑢𝑚 𝑓𝑜𝑟 𝑝𝑟𝑜𝑔𝑛𝑜𝑠𝑒 − 𝑝𝑜𝑒𝑛𝑔𝑠𝑢𝑚 𝑓𝑜𝑟 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑝𝑟𝑜𝑔𝑛𝑜𝑠𝑒
𝑝𝑒𝑟𝑓𝑒𝑘𝑡 𝑝𝑜𝑒𝑛𝑔𝑠𝑢𝑚 − 𝑝𝑜𝑒𝑛𝑔𝑠𝑢𝑚 𝑓𝑜𝑟 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑝𝑟𝑜𝑔𝑛𝑜𝑠𝑒 ∗ 100%
Ligning 6 Skill score [13]
Skill score blir ved denne utregningen den prosentvise forbedringen til den nye prognosen over den gamle prognosen. Parametere man kan måle skill score til er korrelasjon mellom modell og
observasjoner, MAE og RMSE, men også kategoriske parametere som hvor ofte man melder falsk alarm eller sannsynlighet for oppdagelse. Ut fra denne ligningen kan skill score ha verdier fra negativ uendelig til 100%. En positiv verdi betyr at den nye prognosen er bedre enn standardprognosen og en negativ verdi betyr at standardprognosen er bedre enn den nye. [13]
2.2.6 Kategorisk validering
En måte å validere modeller på er å dele resultatene inn i kategorier og se hvor ofte modellen treffer i samme kategori som observasjonen. Det er vanlig å bruke denne valideringen i situasjoner hvor man skal måle om en klart definert hendelse skjer eller ikke, som for eksempel en tornado, men også for modeller som måler en hendelse som skjer i ulik grad. Man kan for eksempel dele opp nedbør i ulike kategorier som kraftig nedbør, middels nedbør, lite nedbør og ingen nedbør, og så lenge man klart definerer grensene mellom disse er det mulig å bruke kategorisk validering for en slik modell også. Ved bruk av denne type validering blir det mulig å avdekke frekvens-bias, som forteller om modellen varsler hendelsen for ofte eller for sjelden.
Om man bruker kategorisk validering kan man gå videre og finne Heidke skill score for å sammenligne to modeller, hvor Heidke skill score er en form for skill score hvor man spesifikt ser på hendelser som enten skjer eller ikke skjer, som tornadoer eller ras. [14]
11 2.2.7 Kryssvalidering
Kryssvalidering beskriver en valideringsmetode hvor man deler opp datasettet i to deler, en del man bruker til å lage koeffisientene til modellen og en del som man bruker for å teste hvor god modellen virker på nye data. Istedenfor å ta i bruk modellen og vente til man har et stort nok datagrunnlag for å si noe om hvor godt den fungerer med virkelige og ukjente verdier, kan man ved hjelp av kryssvalidering med en gang få en indikasjon på hvor godt modellen takler data den ikke har sett før. [15]
12
3 Beskrivelse av Rognsfossen vannkraftverk
Vi starter dette kapittelet med en veldig kort forklaring av noen hovedprinsipp ved utnyttelse av vannkraft, for så å kort beskrive Rognsfossen vannkraftverk. Til slutt kommer en beskrivelse av hvordan Voss Energi melder inn varslet kraftproduksjon og hvilke faktorer som spiller inn i prissettingen av denne kraften.
3.1 Generelt om vannkraft
Produksjon av elektrisk energi ved vannkraft skjer i enten i et regulert eller et uregulert vannkraftverk.
Hvor stor effekt man produserer er avhengig av vannføringen, netto høydeforskjell for kraftverket og den samlede virkningsgraden for anleggets turbin, generator og transformator, samt konstanter som gravitasjonskonstanten og tettheten til vann. Forskjellen på de to ulike typene kraftverk er at regulerte vannkraftverk har et lager av vannmasser som kan reguleres ved å tappe vannet, mens et uregulert vannkraftverk har ingen reguleringsmekanismer for å styre når man produserer elektrisitet. I et uregulert elvekraftverk som Rognsfossen har man sluser og ledeskovler som fører vannet inn til
turbinen. Turbinen er designet slik at vannet som treffer den får turbinen til å rotere og ved en aksling vil rotasjonen videreføres til en generator. Typisk for elvekraftverk er at man har en veldig lav fallhøyde, men man har stor vannføring. I slike situasjoner er det vanlig å benytte seg av en Kaplan-turbin som designmessig kan beskrives som en propell. Ved større fallhøyder og mindre vannføringer benyttes ofte Francis-turbiner som kan beskrives som et løpehjul nedsenket i vann hvor vannet ledes inn i turbinen radialt. [16]
3.2 Rognsfossen vannkraftverk
Rognsfossen kraftverk er et elvekraftverk lokalisert nordøst i Voss sentrum som er driftet av Voss Energi og avbildet i Figur 1. Kraftverket har to turbiner på henholdsvis 5,5 og 0,65 MW og produserer rundt 25 GWh pr. år. Den største turbinen er en Kaplan-turbin og den minste er en Francis-turbin. [17]
Kraftverket ble bygd i 1989 for å erstatte et eldre kraftverk fra 1918. [1]
13
Figur 1 Rognsfossen kraftverk [1]
3.3 Innmelding av kraftproduksjon
I henhold til Forskrift om måling, avregning, fakturering av nettjenester og elektrisk energi,
nettselskapets nøytralitet mv. [18] er produsenter av elektrisk kraft (kraftleverandører) forpliktet til å rapportere inn fremtidig produksjon til balanseansvarlig. For Voss Energi gjøres dette i praksis ved at man fyller ut et skjema, eksemplifisert i vedlegg 5, som fredagen klokken 11 før hver uke sendes inn til deres balanseansvarlig, som er Statkraft. I avtalen Voss Energi har gjort med Statnett, som er
systemansvarlig for hele det norske kraftsystemet, er det i tillegg mulighet til å justere de innmeldte tallene før klokken 11 en dag i forveien. Dette gjøres i dag basert på de målinger man har av avrenning lenger oppe i vassdraget og varsel fra NVE på sider som varsom.no og sildre.nve.no. Sammen med den nåværende produksjonen beregner man hos Voss Energi hvor mye man tror man vil produsere og sender dette inn til Statnett.
Prisen Voss Energi får for strømmen de produserer er avhengig av både hvordan de traff med varselet sitt og om det er et kraftoverskudd eller –underskudd i markedet. Det norske elektrisitetsmarkedet består av tre deler: Elspot, Elbas og regulermarkedet. Elspot er et dagen-før-marked hvor produsenter og konsumenter melder inn bud til Nord Pool på hvor mye de er villige til å produsere eller konsumere
14
til hvilke priser. Spot-prisene blir satt ut fra dette. Elbas er et intra-dag-marked hvor man kan justere budene sine ved å kjøpe eller selge innmeldt produksjon eller konsumpsjon inntil en time før
produksjonstimen. Regulermarkedet er til for å opprettholde spenningen i systemet, ved å sørge for at det er balanse mellom produsert og konsumert kraft. Dette gjøres ved at Statnett har avtaler med kraftprodusenter slik at de har tilgjengelig kraft å tilføre nettet eller fjerne fra nettet.
Det er tre forskjellige priser Voss Energi får for strømmen sin: spotpris, oppreguleringspris og
nedreguleringspris. Dersom Voss Energi produserer mer enn de har meldt inn vil de få spotpris for det de har meldt inn. Det overstigende vil de enten få spotpris eller nedreguleringspris for. Dersom markedet har et kraftunderskudd vil de få spotpris for all strømmen, men dersom markedet har et kraftoverskudd vil de få nedreguleringspris for den overstigende produksjonen.
I motsatt tilfelle hvor Voss Energi produserer mindre enn de har meldt inn vil de få spotpris på all produksjonen dersom markedet er nedregulert. Dersom markedet er oppregulert vil Voss Energi få en inntekt tilsvarende spotpris på det de meldte inn og en utgift tilsvarende differansen mellom det de meldte inn og det de produserte multiplisert med oppreguleringsprisen.
Oppreguleringsprisen vil være større enn spotprisen og nedreguleringsprisen vil være mindre enn spotprisen, så Voss Energi vil bli påført et tap de gangene de melder feil og det de produserer for mye eller for lite ikke hjelper å balansere markedet. Det vil altså være viktig for oss at modellene våre klarer å redusere størrelsen på feilene siden de er proporsjonale med størrelsen på tapet Voss Energi har i forbindelse med varsling av produksjon.[19]
Vi har også vært i kontakt med Bergen Energi, som er et selskap som megler kraft, for å diskutere hvordan de varsler kraftproduksjon. De har i tillegg til en kraftmegling-avdelingen også en avdeling som tar seg av balanseavregning for ulike produsenter av elektrisk energi. I kraft av dette kan de operere med en innmeldingstid på bare 45 minutter [20]. I praksis gjøres dette for noen kunder ved å installere målere på kraftverkene som automatisk melder inn produksjonen for forrige time, som man melder videre som antatt produksjon for neste time.
15
4 Beskrivelse av produksjons- og avrenningsdata
Her vil vi beskrive hvilke data vi har brukt i denne oppgaven, hvilke tidsrom vi har data fra og hvor mye av dataene som manglet.
4.1.1 Produksjonsdata
Ved Rognsfossen vannkraftverk er det to turbiner som vi har fått tilgang til produksjonsdata fra Voss Energi for hver time i tidsrommet 29.07.2002 01:00 til 31.12.2014 23:00. Vi har også fått tilgang til kjøreplanen og virkningsgradskurven. Kjøreplanen kan oppsummeres ved at den minste turbinen startes opp når vannføringen overstiger en nedre grense, den store turbinen overtar når vannføringen øker over et visst nivå og når vannføringen nærmer seg slukeevnen til kraftverket kjøres begge turbinene frem til slukeevnen er nådd og en eventuell økning i vannføringen går i overløpet. Den minste turbinen har en effekt på 650 kW og vanligvis trenger den største turbinen nok vann til å kjøre på rundt 1000 kW for at den skal starte. Dette datasettet er nesten komplett og mangler bare 0,076 % av dataene i denne perioden.
4.1.2 Innmeldte produksjonsdata
Fra Voss energi har vi fått totalt 325 excel-ark som er meldt inn mellom 02.12.2014 og 30.03.2016.
Utenom to perioder mellom 30.06.2014 og 20.07.2014 og mellom 27.07.2015 og 16.08.2015 har vi et komplett sett med innmeldte data.
16 4.1.3 Avrenningsdata
Figur 2 Kart over målestasjoner og kraftverk. Gul bakgrunn viser at tallene er høyde over havet, grønn bakgrunn betyr at tallet er avstanden fra målestasjonen til kraftverket.
Vi har avrenningsdata fra NVE for målestasjonen lokalisert på Kinne i tidsrommet 30.10.2002 15:00 til 31.12.2014 23:30. Avrenningsdataene starter som timesverdier, men fra 19.05.2006 10:30 skjer målingen hver halvtime. Det er en del data som mangler og dersom vi bare ser på målingene som er gjort hver hele time mangler 10,18% av dataene. En viktig ting å merke seg er at avrenningen fra Kinne
17
ikke går gjennom turbinene i kraftverket i Rognsfossen. Elven som målestasjonen ved Kinne måler avrenning fra heter Raundalselva og går sammen med Strondaelvi rundt hundre meter under Rognsfossen kraftverk.
Vi har avrenningsdata fra NVE for målestasjonen lokalisert i Myrkdalen i tidsrommet 03.11.2000 18:00 til 31.12.2014. Avrenningsdataene starter som timesverdier, men fra 20.10.2011 16:30 skjer målingen hver halvtime. For alle målingene som er gjort hver hele time ser vi at det mangler 5,34% av dataene.
Stasjonen ligger like under Myrkdalsvatnet og vannet herfra renner gjennom kraftverket i Rognsfossen.
18
5 Metoder
I dette kapittelet vil vi beskrive de ulike metodene vi har benyttet oss av. Vi starter med å forklare hvordan vi behandlet rådataene, deretter hvordan de ulike modellene ble satt opp og til slutt hvordan vi kryssvaliderer modellene.
5.1 Klargjøre rådata
En viktig forutsetning for å få modellene så gode som mulig er at rådataene er godt gjennomarbeidet.
Det største problemet var at flere av måleseriene for avrenning hadde store og små hull hvor data var fjernet fra måleserien. Det eneste som viste at det manglet data var at måleserien plutselig hoppet over flere timer med data, uten at det fantes noen indikator på at det her burde vært satt inn «not a
number» eller en vanlig brukt verdi for å vise at det ikke fantes en observasjon, som for eksempel -9999.
Derfor valgte vi å sortere alle måleseriene i en ny matrise som først bestod av bare NaN, men der vi hadde verdier satte disse inn. Dermed ville vi se hvor det manglet data og hvor vi hadde data fra alle måleseriene. For å gjennomføre dette brukte vi matlab-funksjonen intersect, som sammenligner to matriser og lagrer indeksene der matrisene er like. I dette tilfellet ville matrisene vi sammenlignet bestå av datoene og tidsrommene som hørte til de ulike måleserieverdiene.
For at matlab skulle klare å se at datoene var like var det viktig at datoene var lagt inn i samme format.
Dessverre hadde vi allerede flere forskjellige formater på måleseriene. Avrenningsdataene brukte excel sitt eget datosystem, produksjonsdataene hadde datoene som ren tekst lagt inn i excel og den nye matrisen vi ville sette alt inn i brukte matlab sitt datosystem. For å få dette i orden valgte vi å
transformere alt over til matlab sitt datosystem. Avrenningsdataene sine tilhørende datoer kunne enkelt konverteres ved hjelp av matlab-funksjonen x2mdate. Produksjonsdataene måtte først leses inn som tekst, tall og rådata ved hjelp av xlsread, hvorpå teksten måtte konverteres til tegn og så manuelt defineres som dato, måned, årstall og time før de kunne konverteres til matlab sitt datosystem ved matlab-funksjonen datenum.
Da alle verdiene var konvertert til riktig format ble de kjørt gjennom et script som skulle sortere de i den nye matrisen. Ved nærmere undersøkelser av matrisen viste det seg at bare annenhver av dataene for avrenning var satt inn i den. Det viste seg at ved konverteringen fra tegn til datonummer hadde det skjedd en avrundingsfeil som gjorde at tidspunktet ble rundet opp og ned annenhver gang.
Avrundingsfeilen var på en brøkdel av et sekund, men det var nok til at intersect ikke godtok datoene som like og dermed ikke satt dataene inn i matrisen. Dette fikset vi ved å runde av datoene til den niende desimalen. Da satt vi igjen med en matrise hvor alle måleseriene våre var sortert på riktig tidspunkt og alle hull var merket med NaN.
19
5.2 Produksjonsmodellene
Fire forskjellige regresjonsmodeller ble laget basert på timesvise produksjonsdata mellom 1000 og 5000 kWh. Grunnen til at vi ikke ønsker å se på data under 1000 kWh er at kraftverket har to turbiner som ikke perfekt overlapper produksjonsmessig. Den minste produserer maks 650 kW og den største starter produksjonen på rundt 1000 kW. Det samme gjelder for produksjonsdata over 5000 kWh, hvor kjøring på to turbiner skaper problemer for regresjonen. Det ble definert en maksimal produksjon på 5800 og alle regresjonsverdier over dette ble justert ned. Dette gjør vi fordi alle modellene er lineært avhengige av avrenningsdataene og når avrenningen overstiger slukeevnen til kraftverket vil ikke produksjonen stige noe mer. Vi valgte 5800 etter å ha studert produksjonsdataene hvor det i svært få tilfeller ble produsert mer enn dette.
Pga. størrelsen på de to turbinene ble regresjonsverdier mellom 650 og 1000 kWh satt til 650 kWh siden den andre turbinen ikke startes opp før 1000 kW. Inngangsdataene til regresjonen er timesvise
avrenningsdata fra Kinne og Myrkdalen samt produksjonsdata. Alle inngangsdataene er tilbake i tid. For eksempel hvis det er et 24 timers varsel kan kun inngangsdataene lenger tilbake i tid enn 24 timer benyttes som inngangsdata. Alle regresjonsmodellene er på formen:
𝑃𝑟𝑜𝑑𝑣𝑎𝑟𝑠𝑒𝑙 =
{
∑ 𝑎𝑘𝑥𝑘
𝑙
𝑘=1
650
𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙< 650 650 < 𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙 < 1000
∑ 𝑎𝑘𝑥𝑘
𝑙
𝑘=1
1000 < 𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙 < 6000 5800 𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙> 5800
Ligning 7 Oversikt over hvordan regresjonsmodellene ser ut. Siden Rognsfossen kraftverk har to turbiner, hvor den minste har en installert effekt på 650 kW og den største starter å produsere rundt 1000 kW. Derfor må vi gjøre noen justeringer på de
varslingene modellen gjør for produksjonsverdier mellom 650 og 1000 kWh som er vist i ligningen
Der xk er forklaringsvariablene (avrenningsdata fra Kinne og Myrkdalen samt produksjonsdata) og ak
regresjonskoeffisientene. 𝑃𝑟𝑜𝑑𝑣𝑎𝑟𝑠𝑒𝑙 er den varslede produksjonen og 𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙 er det modellen regner ut. 𝑘 er benevningen på de ulike forklaringsvariablene og tilhørende regresjonskoeffisientene og går fra 1 til 𝑙, som er antallet forklaringsvariabler som er brukt i summeringen.
Tabell 1 viser hva som blir brukt som forklaringsvariabler i de ulike modellene.
20
Modell Metode Forklaringsvariabel
Modell 1 Trinnvis regresjon Avrenning Kinne og Myrkdalen utvalgt fra tidsserier som er opptil 240 timer forsinket og produksjonsdata Modell 2 Multippel Lineær
Regresjon
Avrenning Kinne og Myrkdalen og produksjonsdata ved det tidspunktet som har høyest korrelasjon med produksjonen.
Modell 3 Multippel Lineær Regresjon
Et korrelasjonsvektet gjennomsnitt av avrenning Kinne og Myrkdalen i tillegg til produksjonsdata
Modell 4 Kvantilregresjon Avrenning Kinne og Myrkdalen og produksjonsdata ved det tidspunktet som har høyest korrelasjon med produksjonen.
Tabell 1 Oversikt over hvilke forklaringsvariabler som blir brukt i de forskjellige modellene og hvordan man har valgt de.
5.2.1 Modell 1: Trinnvis regresjon
Den første regresjonsmetoden vi forsøkte var trinnvis regresjon. Vi brukte matlab-funksjonen stepwisefit som vi matet med produksjonen som responsvariabel og alle forsinkede tidsserier av avrenningen fra n timers forsinkelse til 10 dagers forsinkelse med en ny tidsserie for hver time som forklaringsvariabler i tillegg til produksjonsdata. Her er n lengden på varselet. For eksempel hvis det er et 24 timers varsel er n=24. Det vil si at bare tidsserier lenger tilbake i tid enn 24 timer fra varselet kan benyttes som inngangsdata.
Den trinnvise regresjonen tester om man kan forbedre regresjonen ved å legge til eller fjerne en tidsserie. Dette gjør man ved å utføre såkalte F-tester der man tester modellen med og uten den spesifikke tidsserien. Man har en null-hypotese om at koeffisienten til tidsserien er null dersom man legger den til i modellen og dersom man ved en F-test finner nok bevis til å forkaste null-hypotesen, legger man til den tidsserien. På samme måte kan man forsøke å fjerne en tidsserie ved å ha en null- hypotese om at koeffisienten til tidsserien er null. Dersom F-testen ikke finner nok bevis til å forkaste null-hypotesen fjerner man den tidsserien. Man velger vanligvis en terskelverdi for å legge til nye tidsserier og en ulik terskelverdi for å fjerne en tidsserie. Intervallet mellom de to tidsseriene
bestemmer hvor mange tidsserier som blir tatt med. Vi har valgt en terskelverdi på 0,05 for å legge til tidsserier og en terskelverdi på 0,10 for å fjerne dem.[21]
Ut fra dette fikk vi en matrise med koeffisienter og en matrise med enere og nuller som fortalte hvilke koeffisienter og tidsserier som var valgt. Ved hjelp av den andre matrisen hentet vi ut de aktuelle koeffisientene og multipliserte de med de tilhørende tidsseriene av forklaringsvariablene for å lage den første modellen.
𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙= ∑ 𝑎𝑘𝑥𝑘
𝑙
𝑘=1 Ligning 8 Modell 1
21
5.2.2 Modell 2: Multippel lineær regresjon med tidsserier som har maks korrelasjon med produksjonen.
Den andre modellen vi valgte å undersøke ble produsert ved å gjennomføre en vanlig lineær regresjon og bruke tidsseriene av avrenningen og produksjon som hadde høyest korrelasjon med produksjonen innenfor tidsintervallet fra n timers forsinkelse til 10 dagers forsinkelse, der n er lengden på varselet.
𝑥 = {
𝑄𝑀𝑦𝑟𝑘 𝑡𝑚 = 𝑡𝑚𝑎𝑥,𝑚
𝑄𝐾𝑖𝑛𝑛 𝑡𝑘 = 𝑡𝑚𝑎𝑥,𝑘 𝑃𝑟𝑜𝑑 𝑡𝑝= 𝑡𝑚𝑎𝑥,𝑝
Ligning 9 Forklaringsvariabler i modell 2
Der tmax,i er det tidspunktet hvor vi fant tidsserien som hadde den høyeste korrelasjonen innenfor tidsintervallet, 𝑄𝑀𝑦𝑟𝑘er avrenning i Myrkdalen, 𝑄𝐾𝑖𝑛𝑛 er avrenning i Kinne og 𝑃𝑟𝑜𝑑 er produksjonen i Rognsfossen.
I matlab brukte vi funksjonen regress som ble matet med produksjonen og de forsinkede tidsseriene fra det tidspunktet med høyest korrelasjon fra henholdsvis Kinne, Myrkdalen og produksjonen.
𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙= 𝑎1𝑄𝑀𝑦𝑟𝑘+ 𝑎2𝑄𝐾𝑖𝑛𝑛+ 𝑎3𝑃𝑟𝑜𝑑
Ligning 10 Modell 2
Der 𝑎𝑖 er koeffisienter.
5.2.3 Modell 3: Multippel lineær regresjon med tidsserier basert på løpende gjennomsnitt rundt maks korrelasjon
I den tredje modellen er tidsseriene som i modell 2 var de som hadde høyest korrelasjon med produksjonen byttet ut med tidsserier basert på korrelasjonsvektede midler. Disse tidsseriene fant vi ved å bruke alle tidsseriene som hadde korrelasjon over en viss grense og bruke korrelasjonen til å vekte gjennomsnittet av disse som tidsserie inn i regresjonsanalysen. Vi valgte grensen til å være 0,02 mindre enn den maksimale korrelasjonen innenfor tidsintervallet fra n timers forsinkelse til 10 dagers
forsinkelse for hver av tidsseriene og at tidsseriene maksimalt kunne ha 25% manglende verdier for at vi skulle ta de med i vektingen. Vektingen av de ulike tidsseriene ble gjort ved kvadratet av korrelasjonen til den enkelte tidsserien.
22 𝑤𝑘 = 𝑟𝑘2
∑𝑙𝑘=1𝑟𝑘2
Ligning 11 Vekting av tidsserier for modell 3
Hvor rk er korrelasjonskoeffisienten ved tiden k og wk er vektingen basert på korrelasjonen.
𝑄̅𝑖 = ∑ 𝑄𝑘∗ 𝑤𝑘
𝑙
𝑘=1
Ligning 12 Vektet vannføring som forklaringsvariabel
Hvor Qk er vannføringen ved tidspunktet k som har korrelasjon som er innenfor grensen på 0,02 under den maksimale korrelasjonen og wk er vektingen basert på korrelasjonen. 𝑄̅𝑖 er den korrelasjonsvektede vannføringen.
De to vektede tidsseriene vi satt igjen med fra henholdsvis Kinne og Myrkdalen ble brukt i en vanlig lineær regresjon sammen med den nyeste tidsserien for produksjon man ville hatt tilgang til når man gjennomfører varselet. Egentlig vil man bruke tidsserien for produksjon som har høyest korrelasjon med produksjonen, men siden autokorrelasjonen, altså hvor mye produksjonen korrelerer med seg selv, minker ved større tidsforskyvninger er det tilstrekkelig å bare benytte seg av den nyeste tidsserien man har tilgang til.
𝑥 = {
𝑄̅𝑀𝑦𝑟𝑘 𝑡 = [𝑡ℎø𝑦 𝑛𝑜𝑘 𝑘𝑜𝑟𝑟𝑒𝑙𝑎𝑠𝑗𝑜𝑛,𝑚] 𝑄̅𝐾𝑖𝑛𝑛 𝑡 = [𝑡ℎø𝑦 𝑛𝑜𝑘 𝑘𝑜𝑟𝑟𝑒𝑙𝑎𝑠𝑗𝑜𝑛,𝑘]
𝑃𝑟𝑜𝑑 𝑡 = 𝑡𝑠𝑖𝑠𝑡𝑒 𝑡𝑖𝑙𝑔𝑗𝑒𝑛𝑔𝑒𝑙𝑖𝑔𝑒 Ligning 13 Forklaringsvariabler for modell 3
𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙= 𝑎1𝑄̅𝑀𝑦𝑟𝑘+ 𝑎2𝑄̅𝐾𝑖𝑛𝑛+ 𝑎3𝑃𝑟𝑜𝑑
Ligning 14 Modell 3
23 5.2.4 Modell 4: Kvantilregresjon
Den fjerde modellen vi valgte å se på bygde vi opp ved hjelp av kvantilregresjon og de samme tre tidsseriene som ble brukt i modell 2. Vi delte datasettet inn i fem kvantiler basert på produksjonen, som i praksis blir å dele datasettet inn i seks ulike intervaller etter at man har ordnet de i stigende rekkefølge.
Man får altså disse seks intervallene 0-22.5 %, 22.5 %-37.5 %, 37.5 %-52.5 %, 52.5 %-67.5 %, 67.5 %-82.5
% og 82.5 %-100 % hvor de høyeste 17.5 % av målingene vil befinne seg i det siste intervallet. Etter å ha delt de opp utførte vi en kvantilregresjon på hver kvantil. Vi fikk da et sett med regresjonskoeffisienter for hver kvantil. Hvert sett med regresjonskoeffisienter ble så multiplisert med de
forklaringsparameterne som tilhørte kvantilet for å produsere modell 4.
𝑃𝑟𝑜𝑑𝑚𝑜𝑑𝑒𝑙𝑙=
{
∑ 𝑎1,𝑞𝑄𝑀𝑦𝑟𝑘,𝑞1+ 𝑎2,𝑞1𝑄𝐾𝑖𝑛𝑛,𝑞+𝑎3,𝑞1𝑃𝑟𝑜𝑑𝑞1
𝑙
𝑘=1
0 − 22.5 %
⋮ ⋮
∑ 𝑎1,𝑞6𝑄𝑀𝑦𝑟𝑘,𝑞6+ 𝑎2,𝑞6𝑄𝐾𝑖𝑛𝑛,𝑞6+𝑎3,𝑞6𝑃𝑟𝑜𝑑𝑞6
𝑙
𝑘=1
82.5 % − 100 %
Ligning 15 Modell 4
5.3 Kryssvalidering av modellene
For å vurdere de ulike modellene opp mot hverandre vil vi benytte oss av kryssvalidering. Vi deler da datasettet opp i to deler hvor vi benytter oss av de første 70 000 observasjonene til å produsere de ulike koeffisientene, før vi bruker koeffisientene til å produsere en modell som vi sammenligner med de resterende 35945 observasjonene. Parameterne vi valgte å bruke for sammenligningen var
korrelasjonskoeffisienten, MAE, RMSE, Bias og den prosentvise MAE.
I tillegg benytter vi oss av de tidligere innmeldte produksjonsdataene vi fikk fra Voss Energi til å regne ut de samme parameterne i forhold til produksjonen de også sendte oss. Dette gir oss en mulighet til å vurdere modellene opp mot det allerede eksisterende varslingssystemet til Voss Energi.
24
6 Resultater
I dette kapittelet vil vi beskrive resultatene av de undersøkelsene vi har gjennomført av modellene. Vi starter med å beskrive forklaringsvariablene vi har benyttet. Så ser vi på hvordan modellene utvikler seg for forskjellige varslingslengder for deretter å spesifikt undersøke de varslingslengdene Voss Energi må benytte seg av. Vi tester så modellene for ulike kombinasjoner av forklaringsparametere og så
kryssvaliderer vi modellene. Til slutt sammenligner vi modellene med varslingene til Voss Energi for 2014 og diskuterer deretter alternative metoder for oppgaven.
6.1 Beskrivelse av forklaringsvariabler
De tre forklaringsvariablene vi har brukt er avrenning for Myrkdalen, avrenning for Kinne og
kraftproduksjonen fra Rognsfossen kraftverk. I Tabell 2 kan man se noen beskrivende parametere for rådataene til disse tidsseriene som har en timevis tidsoppløsning. Vi ser at produksjonsdataene våre er nesten uten manglende data, men både avrenning ved Kinne og avrenning ved Myrkdalen mangler henholdsvis 10,18 % og 5,34 % av dataene. Avrenningen ved Kinne er i gjennomsnitt tre ganger så stor som avrenningen ved Myrkdalen. Om vinteren ser vi at kraftproduksjonen er halvparten av hva den er resten av året. Avrenningen om vinteren er nede i rundt en tredjedel eller en fjerdedel av hva den er i gjennomsnitt resten av året. Vi ser altså at avrenningen minker mer om vinteren enn hva produksjonen gjør. Om sommeren er vannføringen høyere enn gjennomsnittet, noe kraftproduksjonen også er, men økningen i vannføring er prosentvis høyere enn økningen i kraftproduksjonen.
Vi ser at maksimalverdien til avrenningene er mange ganger høyere enn gjennomsnittet, noe som sannsynligvis kommer av at dette vassdraget har opplevd flom i tidsperioden vi har undersøkt. Vi ser også at standardavviket til avrenningene er høyere enn gjennomsnittet, noe som tyder på at vi har noen store ekstremalverdier i datasettet. Dette skulle få oss til å tro at kanskje en modell som er basert på kvantilregresjon (modell 4) vil håndtere disse ekstremalverdiene bedre enn de andre modellene, men siden vi har en maksimalproduksjon i modellene våre som er begrenset av den installerte effekten til kraftverket er det ikke sikkert at disse ekstremalverdiene vil få et betydelig utslag.
I korrelasjonene mellom de ulike forklaringsparameterne ser vi at avrenningen ved Myrkdalen har en høyere korrelasjon til produksjonen enn avrenningen ved Kinne. Dette er sannsynligvis fordi
avrenningen som måles ved Kinne ikke går gjennom kraftverket, selv om målestasjonen ved Kinne er mye nærmere Rognsfossen kraftverk enn målestasjonen i Myrkdalen.
25
Avrenning Kinne Avrenning Myrkdalen Produksjon
Total lenge på tidsserien 105945 105945 105945
Manglende verdier 10789 5657 8
Manglende verdier [%] 10,18 5,34 0,007
Gjennomsnitt [m3/s]
[kWh]
38,7 12,1 2828,8
Gjennomsnitt vinter [m3/s] [kWh]
14,9 3,6 1438,2
Gjennomsnitt vår [m3/s]
[kWh]
37,9 12,1 3090,8
Gjennomsnitt sommer [m3/s] [kWh]
58,1 19,1 3737,6
Gjennomsnitt høst [m3/s]
[kWh]
39,8 12,8 3063,7
Maksimum [m3/s] [kWh] 761,8 137,1 6287,5
Minimum [m3/s] [kWh] 0,40 0 0
Median [m3/s] [kWh] 23,51 6,86 2490
Standardavvik [m3/s]
[kWh]
42,5 13,4 2176,6
Maksimal korrelasjon til avrenning Myrkdalen
- 0,932 0,747
Maksimal korrelasjon til avrenning Kinne
0,932 - 0,702
Maksimal korrelasjon til kraftproduksjon
0,702 0,747 -
Tabell 2 Oversikt over parametere for de ulike forklaringsvariablene. Verdiene gjelder for timesdata fra 2002 til 2015. Typetall er den enkeltverdien som forekommer flest ganger i tidsserien.
I Figur 3 til Figur 5 ser vi hvordan korrelasjonen mellom henholdsvis Kinne og Myrkdalen og
produksjonen utvikler seg når tidsforskyvningen øker fra null til 10 dager. Grafene er basert på tidsserier på timesbasis mellom 2002 og 2015. Vi ser her tydelig at avrenningen ved Myrkdalen har et høyere toppunkt i korrelasjonen enn avrenningen ved Kinne. Vi ser også at grafen for korrelasjon mellom kraftproduksjon og avrenning ved Myrkdalen når toppunktet ved en lavere tidsforskyvning enn grafen for avrenning ved Kinne. Dette er litt uventet med tanke på at avstanden mellom målestasjonen ved Kinne og kraftverket er mye mindre enn avstanden fra kraftverket til målestasjonen ved Myrkdalen.
Maksimumsverdien for korrelasjon med Kinne er derimot omtrent like stor som korrelasjonen til Myrkdalen med rundt 50 timers tidsforskyving, så man bør vurdere hvor mye vekt man skal legge på akkurat det faktum at toppen ligger såpass mye senere for Kinne enn Myrkdalen.
26
Figur 3 Korrelasjon mellom avrenningene og produksjon basert på timesverdier for produksjon og avrenning fra 2002 til 2015.
I Figur 4 viser vi korrelasjonen mellom avrenningene ved Myrkdalen og Kinne. Legg spesielt merke til y- aksen og hvor lite variasjon det er i korrelasjonen over et såpass stort tidsrom i forhold til grafen over.
Når vi i denne oppgaven i all hovedsak skal se på korte varslingslengder på 13 til 37 timer kan man si at korrelasjonen mellom Kinne og Myrkdalen er tilnærmet konstant. I Figur 5 viser vi autokorrelasjonen til produksjonen. Som vi ser faller denne ganske raskt, men for de varslingslengdene vi skal undersøke holder korrelasjonen seg høy. Dersom vi sammenligner denne grafen med Figur 3 ser vi at
autokorrelasjonen til produksjonen er høyere enn korrelasjonen mellom avrenningene og produksjonen for alle varslingslengdene vi skal undersøke.
Figur 4 Korrelasjon mellom avrenning på Kinne og Myrkdalen basert på timesverdier for avrenning fra 2002 til 2015.
Figur 5 Autokorrelasjonen til kraftproduksjonen ved Rognsfossen kraftverk. Basert på timesverdier fra 2002 til
2015.
27
Figur 6 til Figur 8 viser hvordan forklaringsparameterne utvikler seg over et år i 2002 og 2003. Vi ser at både for Myrkdalen og Kinne er det en topp rundt september når høstregnet kommer, og en økning fra april frem til juni hvor snøsmeltingen skjer. Vi ser også at kraftproduksjonen ligger rundt
maksimalproduksjonen i disse periodene, men er ganske lav i perioden januar til april.
Figur 6 Avrenning for 2002 og 2003 på Kinne på timesbasis Figur 7 Avrenning for 2002 og 2003 i Myrkdalen på timebasis
Figur 8 Produksjon i Rognsfossen mellom 2002 og 2003 basert på timesverdier.
28
6.2 Validering av modellene for forskjellige varslingslengder
Tabell 3 viser hvor mye forsinket de ulike tidsserier av forklaringsparameterne som er brukt for de ulike varslingslengdene er. Se vedlegg 4 for Modell 1. Tallene i tabellen viser hvor mange timer fra varselet forklaringsparameteren er hentet fra. For eksempel vil tallet -16 på et varsel 12 timer frem i tid bety at man bruker tidsserien som er fire timer gammel fra det tidspunktet man varsler fra.
Modell +1 +6 +12 +18 +24 +30 +36
Modell 1 Se vedlegg 4 Modell2
Produksjon t=-2 t=-7 t=-13 t=-19 t=-25 t=-31 t=-37
Myrkdalen t=-16 t=-16 t=-16 t=-19 t=-25 t=-31 t=-37
Kinne t=-36 t=-36 t=-36 t=-36 t=-36 t=-36 t=-37
Modell 3
Produksjon t=-2 t=-7 t=-13 t=-19 t=-25 t=-31 t=-37
Myrkdalen t=-[5-30] t=-[7-30] t=-[13-30] t=-[19-30] t=-[25-33] t=-[31-38] t=-[37-43]
Kinne t=-[23-46] t=-[23-46] t=-[23-46] t=-[23-46] t=-[25-46] t=-[31-46] t=-[37-47]
Modell 4
Produksjon t=-2 t=-7 t=-13 t=-19 t=-25 t=-31 t=-37
Myrkdalen t=-16 t=-16 t=-16 t=-19 t=-25 t=-31 t=-37
Kinne t=-36 t=-36 t=-36 t=-36 t=-36 t=-36 t=-37
Tabell 3 Oversikt over hvilke tidsserier av forklaringsparameterne som er brukt i de ulike modellene. Benevningen for tidspunktet tidsserien er hentet fra er antall timer tidsserien ligger foran varselet. Med andre ord betyr t=-16 at tidsserien man har hentet forklaringsvariabelen fra ligger 16 timer før tidspunktet man varsler for. Om man skal varsle 6 timer frem i tid, bruker man altså
tidsserien som er 10 timer gammel. Se vedlegg 4 for modell 1. Basert på timesverdier fra 2002 til 2015.
Tabell 4 viser hvordan modellene utvikler seg når vi øker varslingslengden. Her har man brukt alle tilgjengelige data for å lage modellene. Vi ser av tabellen at alle parameterne blir dårligere for lengre varslingslengder noe som er forventet siden korrelasjonen synker for større tidsforskyvninger. Unntaket er bias for modell 4 som ikke konsekvent blir dårligere for hver nye varsling.
Varsel- lengde
Korrelasjon MAE RMSE Bias MAE [%]
Modell 1 +1 0,99 43,0 148,0 -0,1 1,4
+6 0,96 157,7 303,9 -0,4 5,1
+12 0,92 265,9 425,6 -0,9 8,6
+18 0,89 352,4 514,4 -1,1 11,5
+24 0,85 420,1 587,2 -1,5 13,7
+30 0,81 474,6 646,1 -1,5 15,5
+36 0,76 544,5 720,7 -1,5 17,9
Modell 2 +1 0,99 43,6 160,0 -0,3 1,5
29
+6 0,95 183,9 376,6 -1,3 6,3
+12 0,90 305,4 539,6 -2,8 10,4
+18 0,85 411,0 666,6 -4,2 14,0
+24 0,79 518,1 791,0 -5,6 17,7
+30 0,74 603,2 887,5 -6,7 20,6
+36 0,71 656,7 942,5 -7,3 22,5
Modell 3 +1 0,99 43,6 162,0 -0,3 1,5
+6 0,95 185,6 375,2 -1,3 6,3
+12 0,89 323,2 554,7 -2,7 10,9
+18 0,83 439,6 698,0 -4,2 14,8
+24 0,78 535,4 806,0 -5,5 18,1
+30 0,73 612,9 893,1 -6,4 20,7
+36 0,69 676,1 963,6 -7,4 22,9
Modell 4 +1 0,99 53,4 163,2 0,1 1,8
+6 0,96 229,7 405,3 0,5 7,8
+12 0,92 383,5 594,1 0,6 13,1
+18 0,90 499,0 724,5 0,4 17,1
+24 0,87 603,6 839,0 -0,4 20,6
+30 0,85 677,1 918,6 -1,3 23,2
+36 0,84 715,8 949,3 -1,6 24,5
Tabell 4 Oversikt over alle modellene ved økende varslingslengde når alle forklaringsvariablene er brukt. Basert på timesverdier fra 2002 til 2015.
Tabell 5 viser hvordan modellene utvikler seg når vi bare bruker produksjon og avrenning fra Myrkdalen som forklaringsparametere. En mer detaljert tabell som viser utviklingen time for time mellom
varslingslengder på 13 og 37 timer finnes i vedlegg 2. Også her er alle tilgjengelige data brukt for å lage modellene. Som i tabellen over ser vi at parameterne blir dårligere og dårligere når varslingslengden øker. Også her er unntaket bias som for modell 1 og 4 ikke konsekvent blir dårligere for hver nye varslingslengde.
Varsel- lengde
Korrelasjon MAE RMSE Bias MAE [%]
Modell 1 +1 0,99 39,8 153,0 0,0 1,3
+6 0,96 146,1 301,1 -0,1 4,9
+12 0,93 260,7 426,2 -0,3 8,7
+18 0,88 364,8 533,4 -0,3 12,3
+24 0,84 439,7 609,2 -0,2 14,9
+30 0,80 503,9 675,1 0,1 17,1
+36 0,76 569,5 736,1 0,3 19,3
Modell 2 +1 0,99 45,0 161,9 -0,3 1,6
+6 0,95 193,1 387,9 -1,4 6,7
+12 0,89 323,0 561,7 -2,9 11,1
+18 0,84 424,9 685,4 -4,4 14,7
+24 0,79 520,5 797,7 -5,8 18,0
+30 0,74 607,8 898,1 -7,1 21,0
30
+36 0,69 689,9 988,4 -8,5 23,8
Modell 3 +1 0,99 45,0 161,8 -0,3 1,6
+6 0,94 193,6 387,8 -1,4 6,7
+12 0,89 331,3 570,3 -2,9 11,4
+18 0,83 440,8 706,0 -4,5 15,2
+24 0,78 535,2 816,5 -5,9 18,4
+30 0,73 621,3 914,7 -7,2 21,3
+36 0,68 701,2 1001,4 -8,5 24,1
Modell 4 +1 0,99 54,7 165,2 0,1 1,9
+6 0,95 239,9 419,7 0,4 8,3
+12 0,92 400,7 619,2 0,4 13,8
+18 0,89 512,8 744,0 0,0 17,7
+24 0,87 605,0 844,5 -0,9 20,9
+30 0,84 684,5 929,2 -1,8 23,6
+36 0,82 753,3 1000,8 -2,7 26,0
Tabell 5 Oversikt over alle modellene ved økende varslingslengde når avrenning ved Myrkdalen og produksjonen er brukt som forklaringsparametere. Basert på timesverdier fra 2002 til 2015.
Tabell 6 viser hvordan modellen utvikler seg med avrenning fra Myrkdalen og Kinne som forklaringsparametere. En mer detaljert tabell som viser utviklingen time for time mellom
varslingslengder på 13 og 37 timer finnes i vedlegg 2. Også her er alle tilgjengelige data brukt for å lage modellene. Til forskjell fra de to ovenstående tabellene ser vi her at det ikke er en så konsekvent nedgang fra korte til lange varslingslengder. Som vi ser av Tabell 3 er dette fordi noen av modellene har samme inngangsdata for ulike varslingslengder og dermed får de samme resultatene. Modell 1 bruker derimot ulike inngangsdata (eksemplifisert i vedlegg 4 som viser hvilke tidsserier som er valgt ut for modell 1 når alle tre forklaringsvariablene er tilgjengelige) og vi ser at variasjonen er inkonsekvent siden den ikke blir ubetinget bedre eller dårligere. For modell 2 til modell 4 ser vi at resultatene starter å bli dårligere for varslingslengder lengre enn 18 timer fremover. Dette henger sammen med at man da starter å bruke andre inngangsdata som er dårligere korrelert med kraftproduksjonen.
Varsel- lengde
Korrelasjon MAE RMSE Bias MAE [%]
Modell 1 +1 0,64 700,0 874,5 -5,6 23,0
+6 0,64 698,1 871,1 -5,4 23,0
+12 0,64 692,9 867,3 -5,2 22,7
+18 0,64 695,2 868,3 -4,8 23,0
+24 0,65 688,7 858,6 -4,4 22,7
+30 0,64 697,2 866,9 -4,0 23,1
+36 0,64 704,0 871,8 -3,6 23,4
Modell 2 +1 0,69 897,5 1135,4 -18,1 30,7
+6 0,69 897,5 1135,4 -18,1 30,7
+12 0,69 897,5 1135,4 -18,1 30,7
+18 0,69 901,3 1146,3 -18,3 30,8
+24 0,68 912,2 1173,4 -18,7 31,2
+30 0,66 934,3 1207,8 -19,3 32,0
31
+36 0,64 958,3 1236,0 -19,5 32,8
Modell 3 +1 0,69 886,3 1120,3 -17,2 30,0
+6 0,69 888,6 1124,8 -17,3 30,0
+12 0,68 897,5 1141,9 -17,6 30,4
+18 0,67 909,7 1161,9 -17,9 30,7
+24 0,66 926,1 1186,5 -18,2 31,4
+30 0,64 948,4 1221,9 -18,7 32,0
+36 0,63 973,8 1256,0 -19,6 33,0
Modell 4 +1 0,86 899,1 1075,8 -3,2 30,7
+6 0,86 899,1 1075,8 -3,2 30,7
+12 0,86 899,1 1075,8 -3,2 30,7
+18 0,85 903,0 1084,1 -3,7 30,9
+24 0,84 916,9 1107,7 -4,8 31,3
+30 0,83 935,0 1132,2 -5,8 32,0
+36 0,83 954,3 1149,9 -6,3 32,6
Tabell 6 Oversikt over alle modellene ved økende varslingslengde når avrenning ved Kinne og Myrkdalen er brukt som forklaringsparametere. Basert på timesverdier fra 2002 til 2015.
6.3 Validering av modellene for reelle varslingslengder
Figur 9 til Figur 13 viser utviklingen av de forskjellige parameterne når man øker varslingslengden.
Figurene baserer seg på tabellene i vedlegg 1, hvor vi har modellene for hver time i det reelle
varslingstidsrommet som er 13 til 37 timer frem i tid. Med det reelle varslingstidsrommet mener vi de varslingslengdene som vil bli brukt av Voss Energi i den reelle situasjonen hvor de skal melde inn
produksjonen for neste dag. Som beskrevet i kapittel 3.3 melder Voss Energi inn sine varslinger for neste dags kraftproduksjon og siden de melder for hele neste døgn og dette må leveres innen klokken 11, blir varslingene 13 til 37 timer frem i tid.
Vi ser av Figur 9 at modell 1 har en veldig stabil bias på rundt -1 %, modell 2 og modell 3 har en stadig synkende bias som går fra ca. -3 % til -7 % og modell 4 har en positiv bias på rundt 1 % for de korteste varslingslengdene og en negativ bias på rundt -1 % for de lengste. Korrelasjonen mellom modellene og kraftproduksjonen vises i Figur 10. Vi ser at korrelasjonen for alle modellene er synkende for lengre varslingslengder. Vi ser at modell 4 har den høyeste korrelasjonen for alle varslingslengder og modell 3 har den laveste. Modell 2 er nesten like dårlig som modell 3, og modell 1 er nesten like god som modell 4 for korte varslingslengder, men avviket øker for lengre varslingslengder.
32
Figur 9 Figuren viser hvordan bias mellom modellene og den virkelige produksjonen utvikler seg for alle modellene ved ulike varslingslengder. Basert på timesverdier fra 2002 til
2015.
Figur 10 Figuren viser hvordan korrelasjonen mellom modellene og den virkelige produksjonen utvikler seg for alle modellene ved ulike varslingslengder. Basert på timesverdier
fra 2002 til 2015.
Figur 11 viser hvordan MAE utvikler seg for de ulike modellene for ulike varslingslengder. Vi ser at modell 1 er modellen med lavest MAE for alle varslingslengder. Modell 4 har den høyeste MAE for alle varslingslengder og modell 2 og modell 3 har en MAE som ligger omtrent likt mellom de to andre
modellene. Vi ser av Figur 12 at RMSE oppfører seg omtrent på samme måte som MAE, eneste ulikheten er at her er forskjellen mellom modell 1 og de tre andre, som er omtrent like gode, mye større.
Figur 11 Figuren viser hvordan MAE mellom modellene og den virkelige produksjonen utvikler seg for alle modellene ved ulike varslingslengder. Basert på timesverdier fra 2002 til
2015.
Figur 12 Figuren viser hvordan RMSE mellom modellene og den virkelige produksjonen utvikler seg for alle modellene ved ulike varslingslengder. Basert på timesverdier fra 2002 til
2015.
33
I Figur 13 vises den kategoriske treffsikkerheten til modellene. Den forteller hvor ofte modellen traff i det samme intervallet som den virkelige produksjonen. Vi brukte tre intervaller, lav produksjon 0-1000 kWh, middels produksjon 1000-5000 kWh og høy produksjon 5000-5800 kWh. Vi ser av grafen under at modell 1 hadde den klart høyeste treffsikkerhet og den mest stabile i tillegg. Modell 2 og modell 3 har omtrent like god treffsikkerhet og den holder seg relativt stabil i hele det reelle varslingstidsrommet.
Modell 4 har derimot den laveste treffsikkerheten og vi ser at den fortsetter å synke for lengre varslingslengder.
Figur 13 Figuren over viser hvordan den kategoriske treffsikkerheten mellom modellene og den virkelige produksjonen utvikler seg for alle modellene ved ulike varslingslengder. Den kategoriske treffsikkerheten forteller hvor ofte modellen varslet en produksjon som havnet i samme kategori som den virkelige produksjonen. Vi har delt produksjonen inn i tre kategorier: høy,
middels og lav produksjon. Basert på timesverdier fra 2002 til 2015.
Figur 14 til Figur 18 viser sesongvariasjonene av de ulike parameterne for de ulike modellene når man varsler 37 timer frem i tid.
34
Figur 14 viser hvordan bias sesongvarierer for de ulike modellene. Vi ser at det er både store forskjeller mellom de ulike sesongene og mellom de ulike modellene. Alle modellene har en tendens til å
underestimere produksjonen om vinteren og våren, i hvert fall i forhold til hvor mye de underestimerer kraftproduksjonen om sommeren og høsten. Det er et par unntak og det er modell 1 som i liten grad underestimerer kraftproduksjonen om vinteren og som underestimerer mye mindre enn de andre modellene om våren. Modell 4 skiller seg ut ved at den overestimerer kraftproduksjonen om sommeren, svakt overestimerer kraftproduksjonen om høsten og underestimerer for de andre årstidene. Dette kan være et problem om man ser på bias for hele året siden det vil føre til at disse feilestimeringene delvis vil jevne hverandre ut og resultatet for hele året kan derfor virke bedre enn det er i virkeligheten.
Figur 14 Stolpediagrammet viser hvordan bias varierer for de ulike sesongene for de ulike modellene. Figuren gjelder et varsel 37 timer frem i tid og er basert på timesverdier fra 2002 til 2015.
Figur 15 viser hvordan MAE i prosent sesongvarierer for de ulike modellene. Vi ser her at det er mye mindre variasjon, både mellom de ulike sesongene og mellom modellene, enn det var i figuren for bias.
Det som skiller seg mest ut er modell 4 som for sommer og vinter har en lavere MAE enn de andre modellene.
Figur 15 Stolpediagrammet viser hvordan MAE i prosent varierer for de ulike sesongene for de ulike modellene. Figuren gjelder et varsel 37 timer frem i tid og er basert på timesverdier fra 2002 til 2015.
35
Vi ser av Figur 16 i forhold til Figur 15 at det er en forskjell på om man ser på selve verdien av MAE eller om man ser på den som en andel av kraftproduksjonen. Den største forskjellen er for modell 1 som i figuren over har en MAE i prosent som stort sett ligger på samme nivå som de andre modellene, men i figuren under har modell 1 konsekvent en lavere MAE for alle sesongene. Dette skjer sannsynligvis fordi modell 1 henter data fra mange forskjellige tidsserier (se vedlegg 4). Dersom en av disse tidsseriene mangler data vil også modellen mangle data. Dersom dette i større grad skjer for tidspunkt hvor vi har en liten kraftproduksjon vil MAE i prosent kunne være like stor for modell 1 som de andre modellene, selv om MAE er mindre.
Sesongvariasjonen er ikke altfor stor, men vi kan se at MAE om sommeren er mindre enn de andre sesongene uavhengig av hvilken modell du ser på.
Figur 16 Stolpediagrammet viser hvordan MAE varierer for de ulike sesongene for de ulike modellene. Figuren gjelder et varsel 37 timer frem i tid og er basert på timesverdier fra 2002 til 2015.
Av Figur 17 ser vi at modell 1 har den laveste RMSE for alle sesonger. Den største sesongvariasjonen ser vi mellom sommeren og de andre sesongene, hvor RMSE er lavest for alle modellene om sommeren.
Figur 17 Stolpediagrammet viser hvordan RMSE varierer for de ulike sesongene for de ulike modellene. Figuren gjelder et varsel 37 timer frem i tid og er basert på timesverdier fra 2002 til 2015.
36
Korrelasjonen mellom kraftproduksjonen og de ulike modellene ser ut til å være minst om høsten for alle modellene. Vi ser av Figur 18 at modell 4 har den høyeste korrelasjonen for alle sesongene og modell 3 har den laveste.
Figur 18 Stolpediagrammet viser hvordan korrelasjonen mellom modellen og kraftproduksjonen varierer for de ulike sesongene for de ulike modellene. Figuren gjelder et varsel 37 timer frem i tid og er basert på timesverdier fra 2002 til 2015.
6.4 Variasjon av forklaringsparametere
Figur 19 til Figur 38 viser hvilken forskjell valg av forklaringsvariabler utgjør for modellene. Figurene er basert på verdiene i Tabell 4 til Tabell 6. Fullstendige tabeller for de ulike kombinasjonene av
forklaringsparametere i det reelle varslingstidsrommet finnes i vedlegg 2.
37 Modell 1
Vi ser av Figur 19 til Figur 23 at hovedtendensen for modell 1 er at dersom man ikke bruker
produksjonen som en forklaringsvariabel får man en ganske stabil modell for ulike varslingslengder, men modellen blir mye dårligere for alle varslingslengder. Vi ser ikke så stor forskjell på modellene med og uten Kinne som forklaringsvariabel, bortsett fra at for lange varslingslengder ser modellen med alle tre forklaringsvariablene ut til å være den beste. Unntaket er bias hvor modellen som bare bruker avrenning ved Myrkdalen og produksjonen ser ut til å være den som ligger nærmest null.
Figur 19 MAE for ulike valg av forklaringsvariabler i modell 1.
Basert på timesverdier fra 2002 til 2015.
Figur 20 MAE [%] for ulike valg av forklaringsvariabler i modell 1. Basert på timesverdier fra 2002 til 2015.
Figur 21 Bias for ulike valg av forklaringsvariabler i modell 1.
Basert på timesverdier fra 2002 til 2015. Figur 22 Korrelasjon for ulike valg av forklaringsvariabler i modell 1. Basert på timesverdier fra 2002 til 2015.