• No results found

Hva oppnår en med ny modell for boligpriser?

N/A
N/A
Protected

Academic year: 2022

Share "Hva oppnår en med ny modell for boligpriser?"

Copied!
60
0
0

Laster.... (Se fulltekst nå)

Fulltekst

(1)

Hva oppnår en med ny modell for boligpriser?

Thomas Vinje

Masteroppgave Economics 30 studiepoeng Økonomisk insitutt

Det samfunnsvitenskapelige fakultet UNIVERSITETET I OSLO

Juni 2020

(2)

© Thomas Vinje 2020

Hva oppnår en med ny modell for boligpriser?

Thomas Vinje

http://www.duo.uio.no/

Trykk: Reprosentralen, Universitetet i Oslo

(3)

Forord

Jeg ønsker å rette en stor takk til Thor Olav Thoresen som har vært hovedveileder for oppgaven og til Ragnhild Camilla Schreiner som har vært biveileder.

Takk til Kommunal- og moderniseringsdepartementet for tildeling av stipend.

Denne oppgaven ville ikke vært mulig å skrive uten tilgang på relevant data. Takk til FINN.no som har bidratt med relevant annonsedata og til Ambita som har levert salgspriser fra grunnboken. Statens Kartverk har vært svært behjelpelige med å avklare spørsmål i prosessen. En takk går også til Suncurves for tillatelse til å innhente data fra tjenestene deres.

Oslo, Juni 2020.

Thomas Vinje

(4)

Sammendrag

SSB har laget en boligprismodell som beregner markedsverdier for boliger i Norge. Modellen anvendes i dag blant annet av Skatteetaten til å fastsette formuesverdi på boliger. I tillegg til dette så benyttes beregningene av over 70 kommuner til eiendomsskattetaksering av boliger.

Markedsverdiene beregnes ved hjelp av lineær regresjon og modellen har høstet svært mye kritikk for å være unøyaktig.

I denne oppgaven så undersøkes det om forklaringskraften til SSB sin boligprismodell kan forbedres ved hjelp av maskinlæringsalgoritmen random forest i kombinasjon med

geografiske variabler. Det undersøkes deretter hvilke konsekvenser en forbedret boligprismodell vil ha for utlignet eiendomsskatt i Oslo kommune.

Det innhentes historiske boligomsetninger for Oslo kommune for årene 2018 og 2019 fra markedsplassen FINN.no. Dataene kombineres med salgspriser fra grunnboken, og en rekke geografiske variabler innhentet fra åpne datakilder.

Resultatene viser at det er mulig å forbedre SSB sin boligprismodell betraktelig uten å kreve at brukerne av modellen må innhente mer informasjon om boligene enn i dag. Dette oppnås gjennom å kombinere random forest modellen med interessepunkter rundt boligene, som avstand til nærmeste dagligvarebutikk, bussholdeplass og barneskole. Fleksibiliteten i modellen gjør også at det er mulig å ta i bruk en mer detaljert soneinndeling. Modellen som foreslås oppnår en forklart varians på 91.06 % og en gjennomsnittlig absolutt feilmargin på 426.626 kr tilsvarende 7,8 %. Til sammenligning så rapporterer SSB forklart varians på 80 % for leiligheter i Oslo (Statistisk sentralbyrå, 2020). Ved sammenligning av observerte data for selveierleiligheter i Oslo så oppnår random forest modellen en feilmargin på 8,36 %

tilsvarende en absolutt feilmargin på 484.979 kr mot SSB sin modell med 11,68 % tilsvarende en absolutt feilmargin på 691.878 kr.

Det vises videre til at gjennomsnittlig utlignet eiendomsskatt for selveierleiligheter i Oslo kommune vil øke dersom den foreslåtte boligprismodellen tas i bruk. Økningen i

eiendomsskatten skyldes at dagens boligprismodell undervurderer markedsprisen for selveierleilighetene som betraktes.

(5)

Innholdsfortegnelse

Forord ... iii

Sammendrag ...iv

Innholdsfortegnelse ... v

Tabelliste ... vii

Figurliste ... viii

1 Introduksjon ... 1

2 Metodisk tilnærming ... 5

2.1 Hedonisk regresjon ... 5

2.2 Random forest regresjon ... 7

2.3 Evaluering av modeller ... 8

2.3.1 Utregning av forklaringskraft ... 8

2.3.2 Validering av modeller ... 8

3 Datagrunnlag og datasammenstilling ... 10

3.1 Behovet for data ... 10

3.2 Boligomsetninger fra eiendomsannonser ... 11

3.2.1 Boligidentifikasjon ... 13

3.2.2 Transaksjon ... 13

3.2.3 Angitte boligegenskaper ... 14

3.2.4 Avledede boligegenskaper ... 15

3.3 Offentlig eiendomsinformasjon ... 16

3.4 Geografiske attributter ... 18

3.4.1 Topografisk informasjon ... 19

3.4.2 Geografiske kretser ... 20

3.4.3 Kollektivtransport og reisetider ... 20

3.4.4 Skoler og skolekvalitet ... 21

3.4.5 Dagligvare, kafeer og restauranter ... 21

3.4.6 Solforhold ... 22

3.5 Informasjon om utlignet eiendomsskatt ... 22

4 Boligprismodell ... 24

4.1 Filtrering ... 24

4.2 Lineær regresjon ... 26

4.3 Random forest regresjon ... 29

4.3.1 Modell 1: Enkel modell ... 29

4.3.2 Modell 2: Kompleks modell ... 30

4.3.3 Modell 3: Enkel modell med geografiske variabler ... 31

(6)

4.3.4 Usikkerhet i modellen... 33

4.3.5 Sammenligning av usikkerhet med SSB sin boligprismodell ... 41

5 Implikasjoner for eiendomsskatt ... 46

Litteraturliste ... 50

(7)

Tabelliste

Tabell 1: Oversikt over variabler som identifiserer boligene ... 13

Tabell 2: Oversikt over variabler som beskriver boligtransaksjonen ... 14

Tabell 3: Oversikt over variabler som er angitt i boligannonsene... 15

Tabell 4: Oversikt over variabler som er avledet fra boligannonsene ... 16

Tabell 5: Oversikt over geografiske variabler ... 19

Tabell 6: Oversikt over antall observasjoner i datasettet gruppert etter boligtype ... 25

Tabell 7: Resultater fra lineær modell ... 28

Tabell 8: Resultater fra modell 1: enkel modell ... 29

Tabell 9: Variabler som inngår i modell 2: kompleks modell... 30

Tabell 10: Resultater fra modell 2: kompleks modell ... 30

Tabell 11: Variabler som inngår i modell 3: enkel modell med geografiske variabler ... 31

Tabell 12: Resultater fra modell 3: enkel modell med geografiske variabler ... 32

Tabell 13: Oversikt over usikkerhet i modellen ... 33

Tabell 14: Usikkerhet, alle boliger i Oslo ... 34

Tabell 15: Usikkerhet, leiligheter i Oslo ... 37

Tabell 16: Usikkerhet, eneboliger i Oslo ... 38

Tabell 17: Usikkerhet, tomannsboliger i Oslo ... 39

Tabell 18: Usikkerhet, rekkehus i Oslo... 41

Tabell 19: Sammenligninger av feilmarginer for observerte data ... 43

Tabell 20: Gjennomsnittlig eiendomsskatt avledet med ulike fremgangsmåter ... 47

Tabell 21: Endringer i eiendomsskatt med random forest ... 48

Tabell 22: Endringer i eiendomsskatt med grunnboken ... 48

(8)

Figurliste

Figur 1: Usikkerhet, alle boliger i Oslo ... 34

Figur 2: Usikkerhet som forholdstall av markedsverdi ... 35

Figur 3: Usikkerhet, leiligheter i Oslo ... 36

Figur 4: Usikkerhet, eneboliger i Oslo ... 38

Figur 5: Usikkerhet, tomannsboliger i Oslo ... 39

Figur 6: Usikkerhet, rekkehus i Oslo ... 40

Figur 7: Sammenligning av usikkerhet for eneboliger i Oslo ... 42

Figur 8: Sammenligning av feilmarginer for leiligheter i Oslo... 44

Figur 9: Usikkerhet, leiligheter i Oslo, SSB ... 45

(9)

1 Introduksjon

SSB har laget en boligprismodell som beregner markedsverdier for boliger i Norge. Modellen anvendes i dag blant annet av Skatteetaten til å fastsette formuesverdi på boliger.

Formuesverdien inngår i formuesskattegrunnlaget og utgjør en fastsatt prosentandel av den antatte markedsverdien som SSB beregner. Prosentandelen utgjør for tiden 25 % av den antatte markedsverdien for primærboliger og 90 % for sekundærboliger (Skatteloven, 1999,

§4-10). I tillegg til dette så har kommunene i Norge siden 2014 hatt muligheten til å bruke boligverdiene fra SSB til eiendomsskattetaksering av bolig, som et valgfritt alternativ til å utarbeide egne takseringsmetoder (Finansdepartementet, 2013). I 2019 så var det 72

kommuner som valgte å ta i bruk boligverdiene fra SSB til eiendomsskattetaksering, derunder Oslo kommune (Statistisk sentralbyrå, n.d., "Eiendomsskatt. Omfang, bruk og inntekter 2007 - 2019"). Modellen anvendes for øvrig til forsknings- og statistikkformål og inngår i SSB sin mikrosimuleringsmodell LOTTE hvor det simuleres inntektsfordelinger knyttet til endringer i inntektsskatt og formuesskatt for personer (Statistisk sentralbyrå, 2020).

Boligprismodellen beregner markedsverdiene ved hjelp av regresjonsanalyser og tar

utgangspunkt i boligtype, boligens størrelse, boligens alder og område. Datagrunnlaget består av historiske boligomsetninger som innhentes fra markedsplassen FINN.no. SSB rapporterer selv at 75 prosent av de estimerte markedsverdiene ligger mellom +/- 20 prosent av de observerte prisene for landet som helhet. Samtidig så opplyser de om at enkelte boliger har prisberegninger som kun utgjør 40 prosent eller mindre av markedsverdien (Statistisk sentralbyrå, 2020).

Modellen har vært gjenstand for mye kritikk de siste årene etter at det ble åpnet opp for bruk av modellen til eiendomsskattetaksering. Oppmerksomheten rundt modellen toppet seg høsten 2019 i forbindelse med en NRK-reportasje hvor det ble konkludert med at de dyreste boligene i landet får rabatt på eiendomsskatt. NRK undersøkte modellen sin feilmargin for 75 av de dyreste eneboligene fordelt på fem norske byer som benytter boligverdier fra SSB til

eiendomsskattetaksering. Undersøkelsene til NRK viste at 15 av de dyreste eneboligene i hver av de fem undersøkte byene ble verdsatt for rundt halvparten av verdien de ble solgt for. Den dyreste boligen i datamaterialet til NRK ble kun verdsatt til 15 % av salgsverdien (NRK, 2019).

Reportasjen tydeliggjorde at de dyreste boligene de undersøkte mottok en systematisk lav

(10)

eiendomsskatteloven ikke blir etterfulgt slik eiendomsskattetakseringen er innrettet i dag.

Eiendomsskatteloven fastslår at eiendommer skal takseres med utgangspunkt i antatt

omsetningsverdi ved et fritt salg, hensyntatt eiendommen sin innretning, bruksegenskaper og lokalisering (Eiendomsskatteloven, 1975, §8). Systematiske skjevheter utfordrer tilliten til et rettferdig skattesystem, og det ble derfor mye offentlig oppmerksomhet knyttet til at SSB sin boligprismodell tilsynelatende bidrar til at husstander med svært dyre eneboliger, og

formodentlig et høyere inntektsgrunnlag, slipper relativt sett billigere unna eiendomsskatten enn folk flest.

Daværende finansminister Siv Jensen uttalte i en kommentar til NRK at hun ønsket å

gjennomgå modellen for å se om det var mulig å forbedre den, men var samtidig tydelig på at en eventuell justering av modellen ikke skulle føre til at vanlige folk måtte betale mer i eiendomsskatt. Jensen gjentok behovet for revidering i et innlegg i Dagens Næringsliv og tok samtidig til ordet for å avvikle eiendomsskatten (DN, 2019). SSB på sin side svarte på den forelagte kritikken fra NRK med at modellen aldri ble utviklet for å beregne eiendomsskatt, men at den opprinnelig ble laget som en enkel modell for å beregne boligformue, samt at usikkerheten i modellen var tydelig beskrevet og tidligere forelagt for Skatteetaten (NRK, 2019). I notatene om modellen som publiseres årlig av SSB så fremkommer det at

usikkerheten har vært svært tydelig beskrevet fra starten av. Modellen ble opprinnelig laget i 2007 som svar på et behov for å fastsette formuesverdi på boliger. Brukerbehovet var den gangen hovedsakelig knyttet til forsknings- og statistikkformål (Statistisk sentralbyrå, 2009).

Modellen ble revidert i 2010 og fikk da ny funksjonsform som følge av at modellen ga lite plausible estimater for enkelte boliger (Statistisk sentralbyrå, 2010). Siden den gang så har modellen bestått med sin gjeldende funksjonsform, men modellen gjennomgikk endringer i 2016 knyttet til inndeling av prissoner og avgrensninger av tettsteder (Statistisk sentralbyrå, 2020). Datagrunnlaget som modellen bygger på har blitt oppdatert årlig underveis, og det samme har de rapporterte feilmarginene.

SSB uttalte til Skattebetalerforeningen i slutten av 2019 at modellen i sin tid ble laget enkel og med få forklaringsvariabler av hensyn til å unngå innhenting av mange datapunkter fra den enkelte skattebetaler. SSB uttalte videre at det er sannsynlig å komme nærmere

markedsverdien enn i dag med en modell som inkluderer flere forklaringsvariabler, derunder geografiske data, men at det ikke er mulig å fastslå hvor mye bedre modellen vil fungere før en har gjort et omfattende utviklings- og testarbeid (Skatt, 2019). Samtidig så ble det påpekt

(11)

at en modell med flere forklaringsvariabler vil bli langt mer kompleks og mindre anvendelig for brukerne. SSB gjorde det for øvrig klart at en eventuell omlegging til en mer finmasket modell ikke vil skje på eget initiativ, men at dette er et bestilleransvar som i praksis betyr at det må komme fra Skatteetaten.

Slik dette fremstår så er man kommet i en situasjon hvor SSB ikke kan gi et klart svar på hvilket forbedringspotensial som finnes for modellen før en gjennomgang bestilles.

Regjeringen kan gjennom sin instruksjonsmyndighet sørge for nødvendige gjennomganger og bestillinger, men disse har foreløpig uteblitt. Det er fullt forståelig at man i det politiske landskapet ser seg bedre tjent med å adressere de utfordringene som bruk av modellen bringer med seg gjennom andre virkemidler. Det ble for eksempel i 2020 innført en obligatorisk reduksjonsfaktor i eiendomsskattetakstene på 30 % for bolig- og fritidsbolig, og den maksimale eiendomsskattesatsen ble redusert til fem promille (Finansdepartementet, 2018- 2019).

SSB sin boligprismodell benyttes likevel i like stor utstrekning nå som tidligere til

eiendomsskattetaksering og fastsetting av formuesverdi. Dette til tross for den systematiske skjevheten som NRK har avdekket, og den iboende usikkerheten i modellen som er kjent fra tidligere. Det har så langt ikke blitt fremsatt noen initiativ for å undersøke hvilket

forbedringspotensial som måtte finnes ved en eventuell omlegging av modellen.

Denne masteroppgaven forsøker å dekke det dagsaktuelle behovet for å forstå hvordan boligprismodellen til SSB kan forbedres, både metodisk og gjennom bruk av nye datakilder og forklaringsvariabler. Samtidig så er det en klar målsetting i oppgaven å undersøke om det er mulig å redusere feilmarginen vesentlig uten å komplisere bruken. SSB har fastslått at en modell med flere forklaringsvariabler vil bli mindre anvendelig for brukerne, men denne påstanden utfordres i oppgaven ved hjelp av geografiske forklaringsvariabler og en

maskinlæringsmodell av typen random forest. Det undersøkes også hvilke implikasjoner en forbedret og mer presis boligprismodell vil ha for utlignet eiendomsskatt for

selveierleiligheter i Oslo. Datagrunnlaget i oppgaven avgrenser seg til Oslo kommune for årene 2018 og 2019. Det innhentes annonsedata fra markedsplassen FINN.no for historiske boligomsetninger, og mange forklaringsvariabler avledes fra informasjon som finnes i

annonseoverskriften og annonseteksten. Salgspriser fra grunnboken leveres av Ambita, og det innhentes for øvrig en rekke geografiske variabler fra åpne datakilder. Programmeringsspråket

(12)

PostgreSQL database har vært nødvendig å sette opp for å sammenstille datamaterialet og for å utregne geografiske avstander.

Resten av oppgaven er organisert som følger; i kapittel 2 gjennomgås den metodiske tilnærmingen, kapittel 3 beskriver datagrunnlaget, kapittel 4 beskriver ulike

modellspesifikasjoner og usikkerhet i modellene, kapittel 5 diskuterer implikasjoner for eiendomsskatt og kapittel 6 inneholder en oppsummering.

(13)

2 Metodisk tilnærming

2.1 Hedonisk regresjon

Dette avsnittet beskriver det teoretiske rammeverket som ligger bak SSB sin boligprismodell.

Det drøftes deretter noen svakheter med rammeverket som fremtvinger behovet for å vurdere alternative statistiske metoder som er bedre egnet til å lage presise boligprisestimater.

SSB sin boligprismodell er laget med utgangspunkt i den hedoniske metode og er inspirert av modellbeskrivelsene til Sherwin Rosen (Statistisk sentralbyrå, 2009). Rosen argumenterte for at heterogene goder kan beskrives med en vektor bestående av objektive målbare

karakteristikker, som hver for seg kan assosieres med en såkalt hedonisk pris. Sammen utgjør de hedoniske prisene den samlede produktprisen. Disse prisene kan derfor avledes

økonometrisk ved hjelp av regresjonsanalyser hvor produktprisen er utfallsvariabelen (Rosen, 1974. s 34). Hensikten med denne fremgangsmåten er å avlede priser for karakteristikker som ikke er omsettelige alene. Overført til boligmarkedet så innebærer dette at man forsøker å finne frem til en pris for de ulike karakteristikkene ved en bolig, som for eksempel den marginale prisen av en kvadratmeter eller prisforskjellen som følge av at en bolig ligger i en bydel fremfor en annen. En regresjonsmodell som er spesifisert med utvalgte karakteristikker ved boligene kan senere anvendes til å beregne priser for boliger hvor man kun kjenner til karakteristikkene. Boligprismodellen til SSB tar utgangspunkt i historiske boligomsetninger, og er spesifisert med utvalgte karakteristikker ved boligene som inngår som

forklaringsvariabler. Regresjonskoeffisientene utgjør de hedoniske prisene som avledes i modellen, og disse prisene tas i bruk for å beregne en antatt markedspris for en bolig med utgangspunkt i oppgitte karakteristikker.

Bruk av hedonisk regresjon er en velkjent fremgangsmåte for å utarbeide boligprisindekser, og det er en metodikk som er anbefalt av Eurostat, Den europeiske unions statistikkmyndighet (Statistical Office of the European Communities & European Union. Publications Office, 2013, s 13). SSB har vektlagt disse anbefalingene i utformingen av sin egen boligprisindeks (SSB, 2012). Utformingen av boligprismodellen må forstås i lys av den generelle tradisjonen i SSB med å bruke hedonisk regresjon for prisindekser og arbeidene som er gjort med

boligprisindeksen.

(14)

SSB har spesifisert sin boligprismodell som en log-lineær modell i tråd med Eurostat sine anbefalinger for hedoniske boligprisindekser. I tillegg til dette så har SSB i sin modell en logaritmisk transformasjon av primærrom i kvadratmeter, og har inkludert ulike omsetningsår som kategoriske variabler. Modellen består for øvrig av totalt 43 separate lineære

regresjonsmodeller, ettersom modellen deler boligtypene inn i enebolig, småhus og leilighet.

For hver av boligtypene så deles landet inn i ulike regioner hvorav 21 regioner finnes for eneboliger, 11 regioner for småhus og 11 regioner for leiligheter. For en detaljert spesifisering av modellen så henvises det til SSB sine interne notater.

Hedonisk regresjon har tradisjonelt sett fokusert på statistisk inferens for å finne frem til prisen for de ulike karakteristikkene. Det antas som regel en lineær sammenheng mellom forklaringsvariablene og utfallsvariabelen, eller en log-lineær spesifikasjon som antas å være lineær i formen. Utover dette så eksperimenteres det gjerne med transformasjoner av

forklaringsvariablene for å forbedre tilpasningen av modellen. Eurostat har for eksempel anbefalinger til transformasjoner som avhenger av hvilke forklaringsvariabler man har tilgjengelig i datasettet. Den underliggende antagelsen er at slike transformasjoner er tilstrekkelige for å ta høyde for ikke-lineære sammenhenger som måtte finnes i dataene.

Utfordringen med disse antagelsene er likevel at de ikke nødvendigvis er tilpasset

virkeligheten. Boligmarkedet er et eksempel på et komplekst marked hvor det kan finnes stratifiserte undermarkeder. For eksempel så kan det finnes prissammenhenger mellom en gitt boligtype og alderskategori innenfor en konkret bydel som er svært forskjellig fra en annen, se (Shimizu, Karato, & Nishimura, 2014) for en gjennomgang. SSB foreslo å inkludere interaksjonseffekter mellom omsetningsår og region, samt boligareal og region som et mulig forbedringspotensial i det første notatet til boligprismodellen (SSB, 2009). Slik modellen er spesifisert i dag så er det ikke inkludert noen variabler som tar høyde for komplekse

interaksjoner.

En annen utfordring med hedonisk regresjon er at modellene ofte spesifiseres med hensikt om å oppnå stabile parametere med forutsigbare standardfeil ettersom de skal brukes i

boligprisindekser. Dette medfører gjerne at forklaringsvariabler som er korrelerte tas ut av modellen, ettersom dette kan føre til høye og uforutsigbare standardfeil. Utelatte

forklaringsvariabler er et problem dersom formålet er å skape høyest mulig forklaringskraft i modellen. I boligprismodellen til SSB så er det derimot gjort bevisste valg rundt hvilke

(15)

forklaringsvariabler som skal inngå, av hensyn til å minimere informasjonsinnhentingen fra brukerne av modellen.

For dagens bruksbehov med blant annet eiendomsskattetaksering hvor det er ønskelig at modellen skal beregne boligpriser så presist som mulig så er hensynet til inferens i liten grad relevant. Samtidig så er det mindre relevant om modellen er parametrisert og generelt sett hvordan den er utformet. Hensyn som ellers gjør seg gjeldende innenfor tradisjonell hedonisk regresjon blir dermed i mindre grad relevante. Det er med andre ord uinteressant om modellen er i stand til å si noe om den marginale prisen av en kvadratmeter, så lenge modellen er i stand til å produsere presise boligprisestimater. Det er likevel viktig å ta høyde for at modellen er ment å være enkel i bruk, og at den ikke bør kreve at brukerne av modellen må innhente informasjon om en rekke egenskaper ved boligene.

I den offentlige diskusjonen rundt boligprismodellen så er det stort sett inkludering av flere forklaringsvariabler eller en mer detaljert soneinndeling som nevnes som mulige

modellforbedringer. Alternative modelltyper nevnes sjelden som en potensiell løsning for å forbedre forklaringskraften. Dette til tross for at det ikke finnes noen gode holdepunkter for å tviholde på rammeverket rundt tradisjonell hedonisk regresjon.

2.2 Random forest regresjon

Som et alternativ til tradisjonell hedonisk regresjon så introduseres random forest regresjon som et moderne forslag. Fordelene med økt forklaringskraft ved å bruke random forest fremfor tradisjonelle hedoniske modeller er dokumentert i blant annet (Čeh, Kilibarda, Lisec,

& Bajat, 2018, p. 168) og (Hong, Choi, & Kim, 2020, p. 142). I den sistnevnte studien så oppnådde man en gjennomsnittlig feilmargin på 5.5 % for et utvalg leiligheter i Seoul, sammenlignet med over 20 % ved bruk av tradisjonelle hedoniske modeller.

Random forest er en ikke-parametrisk maskinlæringsmodell som tar i bruk en kombinasjon av en rekke beslutningstrær som hver for seg kan oppnå ulike estimater, men som samlet brukes for å danner gjennomsnittsberegninger. Tanken bak modellen er at individuelle

beslutningstrær er unøyaktige i seg selv, men dersom de kombineres så kan det resultere i en modell som er svært nøyaktig. Random forest bruker blant annet såkalt bootstrap aggregering som innebærer at hvert beslutningstre spesifiseres med utgangspunkt i et utvalg tilfeldig valgte data med tilbakelegging. I tillegg til dette så brukes det kun et tilfeldig utvalg av de

(16)

tilgjengelige forklaringsvariablene for hvert steg i prosessen med å bygge beslutningstrærne.

Antall beslutningstrær og antall variabler kan velges i modellen, og det er i praksis nyttig å prøve seg frem med ulike verdier. Random forest modellen har i tillegg en innebygget validering, ettersom en del av observasjonene utelates ved den tilfeldige trekkingen av observasjoner. De observasjonene som er utelatt benyttes til slutt til å validere modellen, slik at det også rapporteres en feilmargin som kalles "out-of-bag error". Denne feilmarginen er teoretisk lik feilmarginen som oppnås ved bruk av kryssvalidering (Trevor Hastie, Tibshirani,

& Friedman, 2009b, p. 593).

2.3 Evaluering av modeller

2.3.1 Utregning av forklaringskraft

Her følger en kort beskrivelse av ord og uttrykk som brukes i forbindelse med evalueringen av modellene.

R2: Forklaringsgrad

Uttrykket forklarer den prosentvise andelen av variansen som er forklart i modellen.

MAE: Mean Absolute Error

Uttrykket beskriver den absolutte gjennomsnittlige feilmarginen i modellen.

MAPE: Mean Absolute Percentage Error

Uttrykket beskriver den absolutte feilmarginen i modellen målt i gjennomsnittlig prosent.

2.3.2 Validering av modeller

(17)

Her følger en kort beskrivelse av ord og uttrykk som brukes i forbindelse med validering av modellene.

Splitting av datasett

Uttrykket beskriver en fremgangsmåte som er vanlig å bruke for å validere

maskinlæringsmodeller. Enkelte av disse modellene er såpass fleksible at de har evnen til å lære seg alle sammenhenger som finnes i datasettet, til tross for at sammenhengene ikke nødvendigvis er generaliserbare. Ved å splitte datasettet så kan man reservere en del av datasettet som deretter brukes for å validere modellen. Dette kan da brukes for å regne ut eksempelvis R2.

Kryssvalidering

Dette er en fremgangsmåte for å validere modeller hvor modellen spesifiseres flere ganger på ulike deler av det underliggende datasettet. Typisk så gjøres dette ti ganger, og man reserverer hver gang en tiendedel av datasettet til validering. Dette gjøres sekvensielt slik at modellen alltid valideres med en del av datasettet som ikke tidligere har blitt brukt til validering. Snittet av feilmarginene som regnes ut presenteres til slutt.

Out-of-bag (OOB) error

Random forest benytter en fremgangsmåte hvor det velges tilfeldige observasjoner fra det underliggende datasettet med tilbakelegging. Observasjonene som utelates benyttes av modellen som et valideringsgrunnlag, og rapporteres i det som kalles "out-of-bag error".

Denne valideringsmetoden gir en feilmargin som er svært lik den man oppnår med kryssvalidering.

(18)

3 Datagrunnlag og datasammenstilling

3.1 Behovet for data

En forutsetning for å kunne lage en treffsikker beregningsmodell for boligpriser er tilgang på detaljrik og presis data om historiske eiendomsomsetninger. I praksis så er det likevel kun et lite utvalg av den totale boligmassen som omsettes i løpet av et kalenderår. En statistisk modell må derfor spesifiseres med utgangspunkt i et utvalg omsetninger av den totale boligmassen innenfor en gitt tidsperiode. Dette betyr samtidig at det må finnes tilgjengelig data om boligegenskapene til den resterende boligmassen dersom modellen skal kunne benyttes til å beregne en estimert boligverdi for alle boliger. Det foreligger en klar avveining mellom hvor kompleks man kan tillate seg å være i valg av forklaringsvariabler som skal inngå i modellen, og hvor praktisk anvendelig modellen vil være av hensyn til tilgangen på tilsvarende data for den totale boligmassen.

For det følgende så er det innhentet et svært detaljrikt datagrunnlag som dekker informasjon om boligegenskaper langt utover det som vil være fornuftig å bruke i praktisk anvendelse. Det endelige modellforslaget som senere presenteres benytter kun et utvalg av variablene,

ettersom det der tas høyde for tilgjengeligheten av data for den totale boligmassen. Grunnen til at det likevel innhentes informasjon om svært detaljerte boligegenskaper er for å evaluere om forklaringskraften øker betraktelig ved å anvende slike data. Dette gjøres i et forsøk på å adressere noen av de innvendingene som har fremkommet i den offentlige debatten hvor dagens boligprismodell har vært gjenstand for kritikk. Blant fagpersoner og eksperter som har uttalt seg så innvendes det gjerne at modellen er for grov, samt at den ikke tar høyde for prisdrivende detaljerte egenskaper ved boligene slik som solforhold, hage, svømmebasseng, båtplass og lignende (E24, 2019). Kritikken og forbedringsforslagene som fremkommer er velmenende, men det er praktiske utfordringer knyttet til innhenting og administrering av datakildene som inneholder detaljrikdommen som det siktes til. Videre så er det et åpent spørsmål om svært detaljerte boligegenskaper omfatter mange nok boliger, eller har stor nok forklaringskraft til at de er utslagsgivende innenfor rammeverket av de statistiske modellene som er aktuelle å anvende.

Det innhentes også supplerende informasjon om boligene fra en rekke utradisjonelle datakilder slik som offentlige eller andre åpne programmeringsgrensesnitt. Dette er

(19)

forklarende variabler knyttet til topografiske, geografiske og sosioøkonomiske forhold.

Bruken av denne typen datakilder er utradisjonell i form av at eiendomsinformasjon

tradisjonelt sett innhentes fra matrikkelen, som er det offentlige eiendomsregisteret, eller fra historiske eiendomsannonser.

Tanken er at denne typen supplerende informasjon kan tenkes å være avgjørende i forbindelse med en boligomsetning, både ved prisfastsettelsen og for boligkjøper sin betalingsvillighet.

Uavhengig av om det foreligger kausale sammenhenger så kan det likevel tenkes at det eksisterer forklaringskraft i slike variabler. Fordelen er likevel at denne typen informasjon enkelt kan innhentes for alle boliger, og det vil derfor være svært attraktivt dersom det viser seg at det er mulig å forbedre presisjonen til en boligprismodell ved å innhente

forklaringskraft fra åpne datakilder. SSB har ved flere anledninger nevnt at de betrakter geografisk data som en interessant datakilde for å forbedre modellen, se (E24, 2019) og (Skatt, 2019).

Videre følger forklaringer av de ulike datakildene som er innhentet, og begrunnelse for hvorfor de anses å være relevante.

3.2 Boligomsetninger fra eiendomsannonser

Datagrunnlaget som dekker boligomsetninger er innhentet fra FINN.no og avgrenser seg til annonserte bruktboliger solgt i Oslo kommune i årene 2018 og 2019. FINN er en velkjent norsk markedsplass på internett og tilbyr blant annet rubrikkannonsering i forbindelse med eiendomssalg. FINN har en svært høy markedsandel i Norge og SSB har beregnet at om lag 73,6 % av alle eiendomsomsetninger annonseres på markedsplassen. Andelen er høyest i Oslo og Bærum hvor opp mot 96,2 % av alle boligsalg annonseres på FINN (SSB, 2020).

Fordelen med å bruke annonsedata fra FINN er at annonseinformasjonen inneholder oppdatert informasjon om boligene ved salgstidspunktet. Eiendomsmeglingsloven stiller strenge krav til eiendomsmeglerne sin opplysningsplikt, og avhendingsloven gir boligkjøper et sterkt vern dersom det foreligger mangelfulle opplysninger i forbindelse med salget. En konsekvens av dette er at annonseinformasjonen og de tilhørende variablene som beskriver boligene er svært presise. I tillegg til presise variabler så inneholder annonseinformasjonen også informasjon og variabler som ikke nødvendig lar seg gjenfinne i matrikkelen. Dette kan være inngående informasjon om boligens beskaffenhet, som for eksempel at boligen har peis, balkong,

(20)

balansert ventilasjon og lignende. Videre så inneholder annonseinformasjonen fritekst i form av en annonseoverskrift og en lengre beskrivende tekst. Dette danner et godt utgangspunkt for å avlede variabler som ikke er eksplisitt angitt i annonsen. Eksempler på dette kan være om det medfølger garasjeplass til boligen, om boligen er å betegne som et oppussingsobjekt eller om boligen har havutsikt. Andre eksempler er informasjon om det finnes tilknyttede

utleieenheter, eller at boligen er klausulert som seniorbolig.

Mange av variablene fra eiendomsannonsene som beskriver boligene eksplisitt kan gjenfinnes i matrikkelen, slik som størrelse eller etasje. I praksis så er det likevel knyttet usikkerhet til dekningen i matrikkelen ettersom det er de individuelle kommunene sin jobb å holde

eiendomsinformasjonen i matrikkelen oppdatert. For det følgende så har det vært viktig med tilgang til presis informasjon for å kunne evaluere ulike boligprismodeller. En naturlig innvending er nok at det finnes boligomsetninger utenfor markedsplassen FINN som kan tilføre forklaringskraft, kanskje spesielt for dyre eneboliger som omsettes gjennom lukkede visninger. Denne informasjonen kan innhentes gjennom grunnboken og matrikkelen, i den utstrekning det finnes oppdaterte forklarende variabler der for boligene. En vesentlig svakhet ved å benytte boligomsetninger utenom FINN er likevel at det ikke finnes informasjon om tilhørende fellesgjeld eller fellesformue enkelt tilgjengelig for boliger hvor dette er relevant.

Dette gjør det svært utfordrende å skulle avlede boligenes markedsverdi på

omsetningstidspunktet. Denne informasjonen er nødvendig å innhente fordi fellesgjeld må tillegges salgsprisene som innhentes fra grunnboken for å komme frem til boligens

markedsverdi. Det er derimot ikke nødvendig å innhente informasjon om fellesgjeld og fellesformue for å applisere boligprismodellen på ukjente boliger senere, siden

markedsverdien er den ukjente størrelsen som skal beregnes.

Datasettet fra FINN inneholder 45 variabler og de presenteres i detalj under.

(21)

3.2.1 Boligidentifikasjon

Datasettet fra FINN inneholder tolv variabler relatert til boligidentifikasjon.

Tabell 1: Oversikt over variabler som identifiserer boligene

Variabel Beskrivelse

finn_matrikkel_kommunenr Boligens kommunenummer

finn_matrikkel_bruksnr Boligens bruksnummer

finn_matrikkel_gaardsnr Boligens gårdsnummer

finn_matrikkel_festenr Boligens festenummer

finn_matrikkel_seksjonsnr Boligens seksjonsnummer

finn_matrikkel_bolignummer Boligens bolignummer

finn_matrikkel_leilighetsnr Boligens leilighetsnummer

finn_matrikkel_breddegrad Boligens breddegrad

finn_matrikkel_lengdegrad Boligens lengdegrad

finn_borettslag_org_nr Borrettslagets organisasjonsnummer

finn_borettslag_navn Borrettslagets navn

finn_borettslag_andelsnummer Boligens andelsnummer i borettslaget Variablene beskriver hovedsakelig boligens matrikkeladresse, geografiske koordinater

tilhørende matrikkeladressen og eventuell informasjon om tilknyttet borrettslag.

Matrikkeladressen benyttes til å knytte datasettet fra FINN opp mot salgspriser fra

grunnboken og Oslo kommune sin oversikt over utlignet eiendomsskatt. I tillegg til dette så benyttes matrikkeladressen til å innhente informasjon om bydel, delbydel og grunnkrets. De geografiske koordinatene tilhørende matrikkeladressen benyttes i stor utstrekning til å innhente geografiske attributter fra eksterne datakilder.

3.2.2 Transaksjon

Det er tre variabler i datasettet som inneholder relevant informasjon om boligtransaksjonen.

Dette er informasjon om eventuell fellesgjeld eller fellesformue som følger boligen ved salgstidspunktet. I tillegg til dette så er det laget en variabel som avleder datoen for

salgstidspunktet. Datoen avledes ved å ta utgangspunkt i tidspunktet da boligen ble markert som solgt på markedsplassen, eventuelt tidspunktet da annonsen ble fjernet dersom det

foreligger et salg i grunnboken. Den tinglyste datoen som fremkommer i grunnboken er under normale omstendigheter overtagelsestidspunktet for boligen. Dette finner sted som regel tre måneder etter det faktiske boligsalget, men tidspunktet er åpent for nærmere avtale.

Boligprisene kan endre seg mye over tid, og det foreligger i tillegg til dette en

sesongkomponent som gjør at boligprisene naturlig vil variere i løpet av året. Dette gjør at det

(22)

er nødvendig å etablere det konkrete salgstidspunktet slik at det ikke introduseres observasjoner med tidsetterslep som feilrepresenterer sammenhengen mellom

boligegenskaper og markedsverdi i boligprismodellen. Det er for øvrig nyttig å ha datoen for salget dersom man ønsker å indeksregulere boligprisene i modellen for å utjevne store endringer i boligprisene over tid.

Datasettet fra FINN inneholder ingen informasjon om prisantydning eller innrapportert salgspris. Informasjon om boligens salgspris innhentes fra grunnboken ved å knytte boligens matrikkeladresse opp mot grunnboken.

Sammen med informasjon om fellesgjeld og fellesformue så er det mulig å avlede boligens markedsverdi. Salgsprisen som fremkommer i grunnboken er ikke nødvendigvis representativ for boligkjøper sin oppfattelse av boligens markedsverdi. Det er svært mange boliger som selges med betydelig fellesgjeld som kjøper påtar seg ved overtagelsen av boligen. Uten at det tas hensyn til boligens fellesgjeld og eventuelle fellesformue så vil kjøpesummen som

fremkommer i grunnboken fremstå som kunstig lav i mange tilfeller. Det er boligens markedsverdi som å legges til grunn, det vil si salgsprisen tillagt fellesgjeld og fratrukket fellesformue.

Tabell 2: Oversikt over variabler som beskriver boligtransaksjonen

Variabel Beskrivelse

finn_transaksjon_fellesgjeld Boligens fellesgjeld finn_transaksjon_fellesformue Boligens fellesformue finn_transaksjon_solgt_dato Estimert dato for boligsalget 3.2.3 Angitte boligegenskaper

Disse ti variablene angir eksplisitt informasjon om boligegenskaper som angis i annonsene.

Dette er typiske variabler som kan gjenfinnes i matrikkelen under forutsetning av at informasjonen der er oppdatert.

(23)

Tabell 3: Oversikt over variabler som er angitt i boligannonsene

Variabel Beskrivelse

finn_boligegenskaper_angitt_boligtype Boligtype (leilighet, enebolig o.l.) finn_boligegenskaper_angitt_eieform Eieform (selveier, andel, aksje) finn_boligegenskaper_angitt_byggeaar Byggeår

finn_boligegenskaper_angitt_etasje Etasje finn_boligegenskaper_angitt_antall_rom Antall rom finn_boligegenskaper_angitt_antall_soverom Antall soverom finn_boligegenskaper_angitt_primaerrom Primærrom i kvm finn_boligegenskaper_angitt_bruksareal Bruksareal i kvm finn_boligegenskaper_angitt_tomteareal Tomteareal i kvm finn_boligegenskaper_angitt_eietomt Eietomt eller festetomt

3.2.4 Avledede boligegenskaper

Dette er nitten variabler som er spesiallaget for masteroppgaven gjennom å avlede

informasjon fra annonseoverskrift, annonsetekst og egenskaper ved boligen som er angitt i annonsen. Det finnes eksempelvis ingen faste sjekkpunkter i eiendomsannonsene som angir om en bolig kan karakteriseres som et oppussingsobjekt. I praksis så har det opparbeidet seg visse kutymer for hvordan man beskriver at en bolig er et oppussingsobjekt. Ved å avlede de vanligste skriveformene, som "oppussingsobjekt", "renovasjonsobjekt", eller "oppussing nødvendig" så er det mulig å identifisere hvilke annonser dette gjelder. Samtidig så må det tas høyde for boliger hvor det beskrives at boligen er "nyoppusset", eller "nylig oppusset" og lignende slik at variablene ikke blir misvisende. Et sammenlignbart eksempel er beskrivelser av medfølgende garasjeplass. Dette er gjerne eksplisitt nevnt, men det finnes mange

eiendomsannonser hvor mulighet for kjøp av garasjeplass eller mulighet for garasjeleie markedsføres som "garasjeplass" i annonseoverskriften med en stjerne bak, og en

medfølgende beskrivelse lenger ned i annonseteksten som spesifiserer hva som legges i ordets betydning.

(24)

Tabell 4: Oversikt over variabler som er avledet fra boligannonsene

Variabel Beskrivelse

finn_boligegenskaper_avledet_heis Heis i bygget finn_boligegenskaper_avledet_oppussingsobjekt Oppussingsobjekt finn_boligegenskaper_avledet_garasje Garasje medfølger finn_boligegenskaper_avledet_balkong Balkong

finn_boligegenskaper_avledet_luftebalkong Luftebalkong finn_boligegenskaper_avledet_terrasse Terrasse

finn_boligegenskaper_avledet_felles_takterrasse Felles takterrasse finn_boligegenskaper_avledet_utsikt Utsikt

finn_boligegenskaper_avledet_havutsikt Havutsikt

finn_boligegenskaper_avledet_hage Hage

finn_boligegenskaper_avledet_strandlinje Strandlinje

finn_boligegenskaper_avledet_utleiedel Utleiedel eller hybel finn_boligegenskaper_avledet_energikarakter Energikarakter finn_boligegenskaper_avledet_oppvarmingskarakter Oppvarmingskarakter finn_boligegenskaper_avledet_peis Peis

finn_boligegenskaper_avledet_ventilasjon Balansert ventilasjon finn_boligegenskaper_avledet_barnevennlig Barnevennlig område

finn_boligegenskaper_avledet_ingen_gjenboere Ingen gjenboere (ingen innsyn) finn_boligegenskaper_avledet_lademulighet Lademulighet for el-bil

Formålet med å lage disse variablene har vært å undersøke om de kan tilføre forklaringskraft i modellen, samtidig som det må anses som et bidrag til å adressere noen av innsigelsene som har fremkommet mot dagens boligprismodell. Et viktig poeng å få frem er at disse variablene ikke finnes enkelt tilgjengelige. Det er en svært omfattende jobb å avlede de fra det

underliggende datamaterialet, og definisjonen av variablene beror i stor grad på

skjønnsmessige avgjørelser. Det er vanskelig å se for seg muligheter for å avlede tilsvarende variabler for den totale boligmassen, og det vil derfor i praksis være et begrenset

mulighetsrom for å ta i bruk svært detaljerte variabler.

3.3 Offentlig eiendomsinformasjon

Det finnes to kilder til offentlig eiendomsinformasjon som er av særlig relevans, matrikkelen og grunnboken. Matrikkelen er Norges offisielle eiendomsregister og inneholder svært detaljerte eiendomsopplysninger om boliger og bygninger. Grunnboken er det offisielle registeret over tinglyste rettigheter og heftelser i fast eiendom og borettslagsandeler (Statens Kartverk, 2019). I forbindelse med eiendomsoverdragelser så tinglyses eierskiftet, og det

(25)

vedlegges informasjon om salgspris. Tinglysingsloven omfatter likevel ikke aksjeleiligheter, noe som innebærer at salgspriser for aksjeleiligheter ikke gjenfinnes i grunnboken

(Tinglysingsloven, 1935, §1).

Ettersom datagrunnlaget fra FINN mangler informasjon om salgspris så må dette innhentes fra grunnboken. For det følgende så er det innhentet anonymiserte eiendomsoverdragelser for fast eiendom og borrettslagsandeler i Oslo kommune for årene 2018 til og med 2020. Dataene er levert av Ambita, et teknologiselskap som leverer digitaliseringsløsninger for

eiendomsmarkedet. Eiendomsoverdragelsene lar seg knytte opp mot annonseinformasjonen fra FINN. Dette gjøres ved å ta utgangspunkt i den eldste eiendomsoverdragelsen som har tinglyst dato på eller etter salgsdatoen. På denne måten så tas det høyde for at en bolig kan ha vært omsatt flere ganger i løpet av kort tid. Det er likevel noen unntak som gjør at det i noen tilfeller er umulig å knytte annonseinformasjon opp mot eiendomsoverdragelser i grunnboken.

Disse unntakene omfatter tilfeller der salget av en eller annen årsak ikke har blitt effektuert, eller dersom det er avtalt et overtagelsestidspunkt langt frem i tid slik at det i skrivende stund ikke er registrert en eiendomsoverdragelse i grunnboken. I noen tilfeller så er det umulig å knytte datakildene sammen med matrikkeladressen, og det kan for øvrig også oppstå usikkerhet forbundet med om man knytter riktige objekter sammen. I disse tilfellene så er objektene utelatt fra det endelige datasettet for å forsikre at salgsprisene som innhentes er knyttet opp riktig. Samtlige aksjeleiligheter må utelates ettersom det ikke er mulig å innhente salgspriser for disse fra grunnboken.

SSB sin boligprismodell benytter seg av innrapporterte salgspriser fra eiendomsmeglere, data som eies av eiendomsmeglingsforetakene ved Eiendom Norge. Innrapporterte salgspriser bør i all hovedsak sammenfalle med salgsprisene i grunnboken, og de omfatter også

aksjeleiligheter. Det kan likevel oppstå tilfeller av diskrepans dersom den avtalte salgsprisen endres underveis eller dersom det forekommer feilrapportering. Et typisk eksempel er at det legges til en null for mye i den innrapporterte salgsprisen. Denne problematikken forekommer også i grunnboken, så det er nødvendig å rense datagrunnlaget for uteliggende observasjoner.

Slike feil oppstår kun unntaksvis, så det bør være uproblematisk å sammenligne resultater mellom boligprismodeller som innhenter prisinformasjon fra de ulike datakildene. SSB har for øvrig sine egne rutiner for å filtrere vekk observasjoner som sannsynligvis er feilaktige.

(26)

Det innhentes for det følgende ikke informasjon fra matrikkelen. Årsaken til dette er at annonseinformasjonen fra FINN allerede er svært omfattende og har en kjent grad av

presisjon. Introduksjon av variabler fra matrikkelen fordrer en revisjon av den underliggende datakvaliteten. En fellesnevner for matrikkelen og grunnboken er at Statens Kartverk er forvalter, men de kan kun tilby programmatisk tilgang til ustrukturert data som er svært tidkrevende å bearbeide. Det bør likevel nevnes at det finnes variabler i matrikkelen som kan tenkes å være av interesse. Eksempler på slike variabler er informasjon om verneverdige bygninger, antall etasjer i en enebolig, totalt antall etasjer for boligblokker, informasjon om en tomannsbolig er delt horisontalt eller vertikalt, samt informasjon om garasjebygg og

utleieenheter.

3.4 Geografiske attributter

Det er innhentet en rekke geografiske attributter for boligene fra ulike offentlige og åpne datakilder og programmeringsgrensesnitt. Felles for datakildene som innhentes er at de tar utgangspunkt i boligens matrikkeladresse eller de tilhørende koordinatene til

matrikkeladressen. Dette innebærer at det er mulig å innhente disse attributtene for alle boliger, derunder boliger hvor det ikke foreligger annonseinformasjon fra en historisk

omsetning. De geografiske attributtene som innhentes er typiske interessepunkter som avstand til barneskole i skolekrets, bussholdeplass, dagligvarebutikk eller havet. Utregninger av geografiske distanser er utført ved hjelp av programmeringsspråket R og en lokal PostgreSQL database som har støtte for slike utregninger.

Følgende tabell viser en oversikt over geografisk data som er innhentet fra åpne datakilder, og innhentingen av de konkrete variablene beskrives i det følgende.

(27)

Tabell 5: Oversikt over geografiske variabler

Variabel Beskrivelse

geo_jobbreise_distanse Avstand til Oslo sentrum med kollektiv

geo_jobbreise_tid Tid til Oslo sentrum med kollektiv

geo_jobbreise_ganglengde Ganglengde til kollektiv

geo_hoyde Høyde over havet

geo_barneskole_distanse Avstand til barneskole i skolekrets geo_barneskole_nasonale_prover_snittscore Skolekvalitet

geo_distanse_sentrum Avstand til Oslo sentrum

geo_distanse_hav Avstand til hav

geo_distanse_buss Avstand til nærmeste bussholdeplass

geo_distanse_tbane Avstand til nærmeste t-banestopp

geo_distanse_trikk Avstand til nærmeste trikkestopp

geo_distanse_tog Avstand til nærmeste togstasjon

geo_distanse_restaurant Avstand til nærmeste restaurant

geo_distanse_cafe Avstand til nærmeste cafe

geo_distanse_dagligvare Avstand til nærmeste matbutikk

geo_cluster_dagligvare_500 Antall matbutikker innen 500m.

geo_cluster_cafe_500 Antall cafeer innen 500m.

geo_cluster_restaurant_500 Antall restauranter innen 500m.

geo_solforhold_solkvalitet Kategorisering av solkvalitet.

geo_solforhold_soltimer Antall soltimer for boligen.

geo_solforhold_soloppgang_medhorisont Soloppgang hensyntatt lokal topografi.

geo_solforhold_solnedgang_medhorisont Solnedgang hensyntatt lokal topografi.

oslo_bydel Bydelen boligen befinner seg i

oslo_delbydel Delbydelen boligen befinner seg i

oslo_grunnkrets Grunnkretsen boligen tilhører

3.4.1 Topografisk informasjon

Det er innhentet høydeinformasjon om samtlige boliger i datasettet ved hjelp av Statens Kartverk sitt programmeringsgrensesnitt "høydeprofil for utviklere"

(www.kartverket.no/data/hoydeprofil). Dette grensesnittet gir informasjon om høyde over havet for angitte koordinater.

For å finne avstand til havet for de respektive boligene så er det innhentet sjøkart fra

OpenStreetMap (osmdata.openstreetmap.de). Det er benyttet et sjøkart som dekker hele Indre Oslofjord hvor havområdene er angitt som polygoner. Et polygon er et avmerket område i et kart som er definert av rette linjer angitt med koordinater. Teknikken som er benyttet for å

(28)

regne ut korteste distanse til havet er å regne ut avstanden mellom lengdegraden og breddegraden for en gitt bolig, og samtlige koordinater i polygonene som angir havet.

Deretter rangeres avstanden fra kortest til lengst. Den korteste distansen vil således være det nærmeste punktet som knytter boligen til havet, og følgelig avstanden til havet i luftlinje.

3.4.2 Geografiske kretser

Fra Statens Kartverk sin tjeneste Geonorge (www.geonorge.no) så er det innhentet et åpent datasett, Matrikkelen - Adresse, som knytter matrikkeladressene til boligene opp mot bydel og grunnkrets. Grunnkrets er en svært detaljert geografisk inndeling som forsøker å lage

homogene inndelinger med utgangspunkt i eksempelvis natur, bygningstyper og næringsvirksomhet.

Fra Oslo Kommune sine åpne datakilder så er det innhentet informasjon om delbydeler og skolekretser som er knyttet opp mot matrikkeladressene (Oslo Kommune, n.d., "Geografiske inndelinger"). Delbydeler er Oslo kommune sin egendefinerte segmentering av bydelsområder inn i mindre statistiske enheter. Hver delbydel inneholder flere grunnkretser, og således så har delbydelene et detaljnivå som ligger mellom bydeler og grunnkretser, der bydeler er den groveste inndelingen og grunnkretser er den mest detaljerte inndelingen. De tre ulike

inndelingene, bydel, delbydel og grunnkrets er innhentet for å undersøke hvilket detaljnivå av geografisk inndeling som er mest formålstjenlig å benytte i en boligprismodell. Tanken er at en detaljert soneinndeling gjør det mulig for en boligprismodell å ta høyde for lokale

prisvariasjoner som måtte eksistere innenfor spesifikke områder.

3.4.3 Kollektivtransport og reisetider

Det er for boligene i datasettet utregnet avstander til de ulike knutepunktene for

kollektivtransport, buss, t-bane, trikk og tog. Alle stoppesteder i Oslo er innhentet med koordinater fra Nasjonalt stoppestedsregister (NSR) (developer.entur.org). Distansen mellom en bolig og samtlige stoppesteder regnes ut og rangeres fra kortest til lengst. Den korteste distansen for hver av de ulike typene stoppesteder og boligen utgjør avstanden til det nærmeste stoppestedet for den respektive typen fra boligen.

Stoppestedsregisteret forvaltes av Entur, et statlig foretak som tilbyr løsninger for billettering og reiseplanlegging og forvalter registrere over stoppesteder for kollektivtransport i hele Norge. Entur tilbyr også en tjeneste som regner ut reiseruter for kollektivtransport fra en

(29)

adresse til en annen. Ved hjelp av en programmatisk tilgang til denne tjenesten så er det innhentet reisetider for samtlige boliger en mandag morgen i februar klokken 08:15 til Nationaltheatret stasjon. Dette stoppestedet er valgt ettersom det er et knutepunkt i Oslo sentrum som er nært svært mange arbeidsplasser, og det gir et godt inntrykk av hvor lang tid det tar å komme seg inn til sentrum med kollektivtransport på en vanlig arbeidsdag. Det er innhentet informasjon om den totale reisetiden med gangavstand, den totale reisetiden uten gangavstand og reisens distanse i antall kilometer.

Tanken er at reisetid med kollektivtransport til sentrum kan være en avgjørende faktor for boligpriser, da spesielt i omkringliggende områder.

3.4.4 Skoler og skolekvalitet

Det er innhentet koordinater for samtlige barneskoler som dekker 1 - 5. klasse fra Oslo

kommune sitt fellesregister for skoler og barnehager (Oslo Kommune, n.d., "Skoler i Oslo"). I tillegg til dette så er det innhentet informasjon om Oslo kommune sine skolekretser, inndelt med polygoner og angitt med koordinater. Med utgangspunkt i dette så er det regnet ut avstand mellom hver enkelt bolig og skolen som boligen sogner til med utgangspunkt i skolekretsene i kommunen. Videre så er det innhentet resultater fra nasjonale prøver publisert av Utdanningsdirektoratet for skolene som kan si noe om skolene sin relative attraktivitet (Utdanningsdirektoratet, n.d., "Nasjonale prøver 5. trinn - resultater"). Tanken bak dette er at skolekretser kan tenkes å være avgjørende for enkelte boligkjøpere grunnet

kvalitetsforskjeller mellom skolene. Avstand til barnehage er ikke nødvendigvis avgjørende for barnehagetilknytning, ettersom dette avgjøres gjennom et sentralt opptak i kommunen.

Avstand til barnehager er derfor utelatt av hensyn til å begrense antall variabler. Det generelle utgangspunktet er likevel at nærhet til skole og kvaliteten på den tilhørende skolen er faktorer som med rimelighet kan tenkes å påvirke markedsprisen på en bolig.

3.4.5 Dagligvare, kafeer og restauranter

Fra OpenStreetMap (osmdata.openstreetmap.de) så er det innhentet koordinater for samtlige dagligvarebutikker, cafeer og restauranter i Oslo kommune. Ved hjelp av samme

fremgangsmåte som beskrevet tidligere så regnes det ut korteste avstand til hver av disse interessepunktene fra boligen. Videre så er det regnet ut antall dagligvarebutikker, cafeer og restauranter som befinner seg innenfor en radius av 500 meter fra boligen. Tanken er at

(30)

informasjon om slike interessepunkter kan være beskrivende for boligens sentralitet og det omkringliggende området sin attraktivitet.

3.4.6 Solforhold

Det innhentes informasjon om lokale solforhold for de respektive boligene fra Suncurves, en løsning som er utviklet av to meteorologer fra StormGeo i Bergen. Løsningen gir informasjon om lokale solforhold ved at det tas høyde for lokal topografi i tillegg til geografiske forhold.

Dette gjør at det for eksempel er mulig å kartlegge at en bolig som ligger i nærheten av en høy åskam i vestvendt retning kan forvente færre soltimer på kvelden. Fordelen med å benytte denne løsningen er at estimatene er tilgjengelige for hele landet, og dermed mulig å innhente for hele boligmassen. Til tross for informasjon om lokale solforhold så er det særegenheter ved de konkrete boligene som påvirker antall soltimer. Det er for eksempel ikke hensyntatt hvilken side av bygget en balkong er plassert, eller om bygninger står tett inntil hverandre og skyggelegger. Oslo kommune har derimot laget et svært detaljert solkart for alle boliger i kommunen som tar høyde for slike særegenheter (Oslo Kommune, n.d., "Solkart for Oslo").

Det er likevel ikke fornuftig å ta i bruk solkart med et slikt detaljnivå ettersom formålet er å finne frem til geografiske variabler som kan innhentes for hele landet. Det nevnte solkartet er kun tilgjengelig for Oslo kommune, og kart med tilsvarende grad av detaljnivå måtte i så fall ha blitt fremskaffet for de andre kommunene dersom man skulle benyttet det i en nasjonal boligprismodell.

3.5 Informasjon om utlignet eiendomsskatt

Fra Oslo kommune sine hjemmesider så er den komplette eiendomsskattelisten for 2020 innhentet (Oslo Kommune, n.d., "Hvor mye skal du betale i eiendomsskatt?").

Eiendomsskattelisten inneholder informasjon om utlignet eiendomsskatt for boliger og andre bygg angitt med adresse og matrikkeladresse. I tillegg så inneholder listen informasjon om takst, taksttype og eventuelle fritak. De fleste boliger i Oslo er taksert med utgangspunkt i SSB sitt estimat av boligverdi. Eiendomsskattegrunnlaget utgjør 70 % av boligverdien som innhentes fra Skatteetaten i 2020. Boligverdien fra Skatteetaten for 2020 er i praksis boligverdien som er beregnet av SSB, med utgangspunkt i boligprismodellen som har oppdatert tallmateriale til og med 2018. Med eiendomsskattegrunnlaget så er det mulig å regne seg tilbake til SSB sin boligverdi, noe som danner et godt grunnlag for å sammenligne

(31)

resultatene av SSB sin boligprismodell opp mot boligprismodellene som presenteres i oppgaven.

(32)

4 Boligprismodell

4.1 Filtrering

Før modeller prøver ut på datamaterialet så er det nødvendig å filtrere vekk enkelte uønskede observasjoner. Dette er observasjoner hvor det er knyttet usikkerhet til informasjonen som er angitt i variablene, eller observasjoner av boliger som er vesensforskjellig fra normale boliger.

Hensikten med en slik filtrering er å sørge for at uønskede observasjoner ikke inngår i boligprismodellen sitt beregningsgrunnlag. Tanken er at boligprismodellen skal beregne en anslått markedsverdi for en bolig under forutsetning av at boligen det skal beregnes en verdi for er en normalbolig. Enkelte boliger avviker vesentlig fra dette, som for eksempel boliger som selges som oppussingsprosjekter eller klausulerte seniorboliger. Oppussingsprosjekter er særlig interessante ettersom det er vanskelig å si noe fornuftig om utbredelsen av de. Andelen oppussingsprosjekter blant boligene i datamaterialet som kommer fra FINN er ikke

nødvendigvis representativt for boligmassen som en helhet. Ambisjonen er at man ved å fjerne avvikende observasjoner vil ende opp med en modell som generaliserer bedre for boliger flest. Det finnes ingen åpenbare informasjonskilder som kan identifisere

oppussingsprosjekter blant boligene i generelle boligmassen, eller som kan måle forskjeller i innvendig standard. Den beste fremgangsmåten for å ta høyde for disse forskjellene er å sørge for at modellen som brukes i størst mulig grad er basert på et representativt utvalg av boliger.

Eurostat maner til forsiktighet ved filtrering av data som skal inngå i boligprisindekser fordi dette raskt kan føre til skjevheter. En uheldig konsekvens vil være at datagrunnlaget ikke lenger forblir representativt selv om dette er formålet med filtreringen (Statistical Office of the European Communities & European Union. Publications Office, 2013, s. 51). De samme hensynene vil gjøre seg gjeldende her, og det vil forutsette en grundig gjennomgang av konsekvensene ved ulik filtrering for reelt bruk.

Det filtreres for det følgende vekk 6.061 observasjoner av boliger som er

oppussingsprosjekter eller som nevner noen form for nødvendig renovering. Videre så filtreres det vekk 2.366 observasjoner tilhørende aksjeleiligheter ettersom de er unnlatt tinglysing, og 3.822 observasjoner hvor det ellers ikke har vært mulig å finne salgspris fra grunnboken. Klausulerte boliger fjernes i datasettet som kommer fra FINN, det samme gjelder annonser som mangler data for en eller flere grunnleggende variabler som for eksempel boligstørrelse. SSB har i sin modell implementert filterkriterier som skal sørge for å eliminere

(33)

observasjoner som med stor sannsynlighet er feilaktige. Dette gjøres blant annet gjennom å stille minstekrav til omsetningsverdi, størrelse og gjennomsnittlig kvadratmeterpris. SSB rapporterer at filtreringen ekskluderer 0.7 % av observasjonene i deres datamateriale (SSB, 2020). Tilsvarende filtreringer brukes ikke i oppgaven, ettersom det kun viser seg at 18 observasjoner må utelates ved å bruke de samme kriteriene. Dette er hovedsakelig observasjoner knyttet til store eneboliger så det fremstår som relevant å beholde

observasjonene. Den statistiske modellen som presenteres benytter beslutningstrær, og disse er ikke sensitive for uteliggende observasjoner på samme måte som for lineær regresjon utregnet med mindre kvadraters metode. Det fremstår derfor ikke som hensiktsmessig å implementere filtrering med utgangspunkt i kriterier for omsetningsverdi, størrelse eller kvadratmeterpris for det videre arbeidet.

Det endelige datamaterialet består av 28.348 observasjoner etter filtrering med følgende fordeling:

Tabell 6: Oversikt over antall observasjoner i datasettet gruppert etter boligtype

Variabel Observasjoner fra 2018 Observasjoner fra 2019

Leilighet 12299 13096

Enebolig 527 497

Tomannsbolig 357 378

Rekkehus 577 617

Markedsprisen som skal beregnes er avledet ved å ta utgangspunkt i boligens salgspris som er innhentet fra grunnboken, tillagt eventuell fellesgjeld som det er opplyst om i

eiendomsannonsen. Fellesformue trekkes fra salgsprisen på tilsvarende måte.

Det er likevel en utfordring knyttet til at markedsprisen som skal beregnes er en nominell verdi som er utsatt for sesongvariasjoner og trendutvikling. Boligprisene i Oslo økte nominelt med 23.3 % i perioden mellom januar 2016 og desember 2016 i følge Eiendom Norge sin boligprisindeks (E24, 2020).

Dersom det benyttes datamateriale fra et år med store nominelle utslag i boligprisene så vil det i praksis introduseres en ekstra feilmargin mellom månedene innad i dette året. Dette kan tenkes å påvirke modellen sin presisjon. En aktuell tilnærming til problemet kan være å benytte seg av SSB eller Eiendom Norge sin boligprisindeks til å indeksregulere

markedsverdiene som skal beregnes på månedlig basis slik at de er låst til et fast indeksnivå.

(34)

Boligprisindekser har for øvrig en iboende usikkerhet ettersom de benytter seg av lineære regresjonsmodeller, så det er usikkert hvor god en slik tilnærming ville ha vært.

I datamaterialet som behandles så finnes det kun observasjoner for Oslo fra 2018 og 2019.

Denne perioden hadde en nominell prisøkning på 9.3 % i følge Eiendom Norge sin boligprisindeks dersom man sammenligner januar 2018 hvor indeksverdien var 286 med desember 2019 hvor indeksverdien var 312 (E24, 2020). Det har likevel vært flere perioder med vekslende prisutvikling innad i perioden. For det videre arbeidet så gjøres det derfor ingen korrigering av de nominelle prisene, og det forutsettes at observasjonene fra 2018 og 2019 kan betraktes samlet på tvers av år.

Denne tilnærmingen er litt annerledes enn den som brukes i SSB sin modell, hvor år inngår som en kategorisk variabel. Bruk av kategoriske variabler for å skille mellom år adresserer likevel ikke de utfordringene som kan oppstå som følge av store nominelle prisøkninger innad i året. Bruk av ulike tilnærminger for å betrakte år og nominelle prisendringer kan derfor tenkes å ha betydning for presisjonen.

4.2 Lineær regresjon

Den første modellen som spesifiseres på datasettet er en lineær regresjonsmodell med følgende forklaringsvariabler: boligtype, byggeår, bruksareal og bydel. Formålet med å inkludere en lineær modell er for å lage et sammenligningsgrunnlag. En random forest modell med tilsvarende spesifikasjoner presenteres senere. Fleksible maskinlæringsmodeller som random forest er gode verktøy til prediktiv modellering, men bruken bør kunne forsvares med at modellvalget tilfører forklaringskraft utover det en lineær modell kan gi. Årsaken til dette er at ikke-parametriske modeller som random forest bytter bort statistisk inferens med prediktiv forklaringskraft. Ved å etablere et sammenligningsgrunnlag så blir det enklere å forsvare bruken, og det kan bidra til å indikere om det finnes komplekse interaksjoner i det underliggende datagrunnlaget. Tilstedeværelsen av slike interaksjoner i boligdata ble så vidt drøftet i diskusjonen rundt den hedoniske metode. Det man forventer å se dersom det finnes komplekse interaksjoner er at en modell som random forest vil utkonkurrere en lineær modell målt i forklaringskraft. Selv om dette skulle være tilfellet så betyr det ikke uten videre at en lineær modell er upassende for det gitte formålet. Det indikerer derimot at det trolig finnes uutnyttet forklaringskraft som kan innhentes gjennom å inkludere interaksjonseffeker eller ved å korrigere for ikke-lineære sammenhenger.

(35)

Modellen er spesifisert med omtrent de samme variablene som SSB bruker i sin

boligprismodell. Hensikten har likevel ikke vært å lage et direkte sammenligningsgrunnlag.

Den største forskjellen ligger i at SSB benytter primærrom istedenfor bruksareal. I denne modellen og alle modellene som presenteres i det følgende så benyttes bruksareal. Forskjellen mellom primærrom og bruksareal er at bruksarealet også inkluderer areal i boligen som ikke er betegnet som oppholdsrom, slik som boder eller lagringsrom. Grunnen til at bruksareal velges er at informasjon om dette finnes enkelt tilgjengelig i matrikkelen, i motsetning til primærrom. Dette innebærer at en modell som tar utgangspunkt i bruksareal er enklere å benytte i stor skala fordi informasjonen kan innhentes fra et sentralt register. Det fremstår derfor som fornuftig å ta i bruk bruksareal fremfor primærrom dersom dette fungerer godt i modellene. Argumentet om å bruke bruksareal ved beregning av formuesverdi ser ut til å støttes av Kommunesektorenes Organisasjon (Kommunal- og moderniseringsdepartementet, 2019).

En annen forskjell er at SSB benytter en grovere inndeling av boligtyper. Boliger som ikke er eneboliger eller leiligheter defineres som småhus i SSB sin modell. I det følgende så beholdes karakteristikken av de øvrige boligtypene tomannsboliger og rekkehus. Modellen skiller seg ellers fra SSB sin ved at den inkluderer alle de 17 bydelene i Oslo, i motsetning til

soneinndelingen til SSB i Oslo som består av 6 soner.

En annen detalj er at SSB har inkludert boligpriser fra 2010 til 2019 i sin modell1, hvor de benytter seg av kategoriske variabler for å skille mellom de ulike årene. I den lineære

modellen som presenteres, og i de resterende modellene så betraktes observasjonene fra 2018 og 2019 samlet. For øvrig så inkluderes byggeår som en kontinuerlig variabel i motsetning til en kategorisk inndeling i SSB sin modell. Den lineære modellen som presenteres her har ingen transformasjoner, dette i motsetning til SSB sin modell som er log-lineær og som inneholder en transformasjon av primærrom.

1 Den nyeste oppdateringen av modellen til SSB i mars 2020 inkluderer tall for 2019. Eiendomsskattegrunnlaget

(36)

Resultatene fra den lineære modellen er presentert i tabellen under:

Tabell 7: Resultater fra lineær modell

Variable Estimate Std. Error t-value Significance

Intercept -12110340 421720 -28.7 ***

Boligtype: Leilighet 891195 56366 15.8 ***

Boligtype: Rekkehus 669234 58736 11.3 ***

Boligtype: Tomannsbolig 849824 63020 13.4 ***

Boligegenskap: Byggeår 5288 211 25.1 ***

Boligegenskap: Bruksareal 56146 257 218.4 ***

Bydel: Bjerke 966897 46949 20.6 ***

Bydel: Frogner 3360146 38935 86.3 ***

Bydel: Gamle Oslo 1871042 36864 50.8 ***

Bydel: Grorud -225164 50768 -4.3 ***

Bydel: Grünerløkka 2030686 36064 56.3 ***

Bydel: Marka -81074 365348 -0.2

Bydel: Nordre Aker 2483537 45872 54.1 ***

Bydel: Nordstrand 1221874 44091 27.7 ***

Bydel: Østensjø 756960 40514 18.7 ***

Bydel: Sagene 2167045 37190 58.3 ***

Bydel: Sentrum 2507296 175448 14.3 ***

Bydel: Søndre Nordstrand -958457 49573 -19.3 ***

Bydel: St. Hanshaugen 2557160 42042 60.8 ***

Bydel: Stovner -792573 54153 -14.6 ***

Bydel: Ullern 2390648 48544 49.2 ***

Bydel: Vestre Aker 2036583 47094 43.2 ***

Multiple R-squared 0.8032

Adjusted R-squared 0.8030

F-statistic 5505

Residual standard error 1254000

Observations 28 348

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

SSB rapporterer en forklaringskraft på 80.21 % for leiligheter i Oslo i sin nyeste publikasjon hvor det er inkludert tall fra 2019 (SSB, 2020). Nærmere 90 % av datagrunnlaget som er innhentet består av omsatte leiligheter, så det er interessant å se at modellene oppnår ganske så lik forklaringskraft.

(37)

4.3 Random forest regresjon

4.3.1 Modell 1: Enkel modell

Den første random forest modellen som presenteres inneholder de samme variablene som ble brukt i den lineære modellen: boligtype, byggeår, bruksareal og bydel. Forskjellene som ble beskrevet mellom disse konkrete variablene i den lineære modellen og SSB sin modell gjelder også for random forest modellene.

Ettersom det ikke er mulig å spesifisere modellen parametrisk så presenteres resultatene i en tabell som oppsummerer forklaringskraften og valgene som inngikk.

Tabell 8: Resultater fra modell 1: enkel modell

Trær Variabler OOB Var % CV Var % CV MAE CV RMSE

500 5 88.89 % 87.86 % 492.167 986.799

Det inngår 500 beslutningstrær i modellen og det velges 5 tilfeldige variabler. Først så ble modellen spesifisert i vanlig form hvor forklart varians oppgis med utgangspunkt i "out-of- bag error". Deretter så ble modellen spesifisert ved hjelp av kryssvalidering, noe som innebærer at den samme modellen reproduseres ti ganger. Forskjellen ligger i at 10 % av datagrunnlaget holdes utenfor modellspesifikasjonen hver gang, og dette gjøres sekvensielt med hele datagrunnlaget. Forklaringskraften målt mot datasettet som holdes utenfor

rapporteres hver gang, og til slutt så regnes det ut et gjennomsnitt av dette.

Modellen har en forklart varians på 88.89 % med utgangspunkt i "out-of-bag error" og 87.86

% med utgangspunkt i kryssvalidering. Det er som nevnt i beskrivelsen av modellen en forventning om at disse feilmarginene vil være veldig like hverandre. Til sammenligning så var forklart varians i den lineære modellen på 80.62 %.

I forhold til den lineære modellen så er dette en betraktelig forbedring. Bruk av random forest ser ut til å være i stand til å øke forklaringskraften til en boligprismodell av denne typen betraktelig, noe som dermed synes å forsvare bruken. Forklaringskraften som er avledet gjennom kryssvalidering har tatt utgangspunkt i datamateriale som modellen ikke har vært eksponert for. Dette gir derfor en svært god pekepinn på hvor god forklaringskraft modellen vil ha for boligmassen for øvrig.

Referanser

RELATERTE DOKUMENTER

Registeret har foreløpig ikke på plass en oppfølging av resultater i form av overgang til arbeid eller ordinær utdanning blant deltakerne ut over de resultatene som skal

– Kanskje, men mediene kan ikke la være å bringe nyheter, og slett ikke prøve å undertrykke det som ville blitt kjent i alle fall. Nå for tiden er det tullinger som ser

Etablering av slike slagenheter med kapasitet til å motta alle pasienter med akutt hjerneslag, og med samme kvalitet og tilbud som i de randomiserte studiene, bør ha

• Et gruppebasert tilbud for 12 familier gjennomført i samarbeid med Hammerfest kommune ga oppmuntrende resultater i endring grad av overvekt, fysisk aktivitet og

AP(02-02): OUS henter ut data på salg i dagens kantinene som kan være innspill for å vurdere hvilken heiskapasitet som er optimalt. Gjelder for

Hertil kommer også det at foreldrene leser selv og at foreldrene har positive holdninger til lesing (og ikke forbinder lesing til noe de utelukkende driver med når de må)»?.

Hertil kommer også det at foreldrene leser selv og at foreldrene har positive holdninger til lesing (og ikke forbinder lesing til noe de utelukkende driver med når de må)»?.

Hertil kommer også det at foreldrene leser selv og at foreldrene har positive holdninger til lesing (og ikke forbinder lesing til noe de utelukkende driver med når de må)»?.