• No results found

itf301415---store-datamengder---analyse-og-prosessering---20.05.2016---ny-og-utsatt

N/A
N/A
Protected

Academic year: 2022

Share "itf301415---store-datamengder---analyse-og-prosessering---20.05.2016---ny-og-utsatt"

Copied!
5
0
0

Laster.... (Se fulltekst nå)

Fulltekst

(1)

Høgskolen i østfold

EKSAMEN

Emnekode: Emnenavn:

ITF301415 Store datamengder: analyse og prosessering Ny/utsatt eksamen

Dato: Eksamenstid:

20.05.2016 09:00-12:00

Hjelpemidler: Faglærer:

Ingen Edgar Bostrøm

Erik Åsberg Davide Roverso Om eksamensoppgaven og poengberegning:

Oppgavesettet består av 5 sider inklusive denne forsiden, to sider med oppgaver og to sider vedlegg. Kontroller at oppgaven er komplett før du begynner å besvare spørsmålene.

Sensurfrist: 13.06.2016

Karakterene er tilgjengelige for studenter på Studentweb senest 2 virkedager etter

oppgitt sensurfrist. www.hiof.no/studentweb

(2)

Oppgave 1. Tid 45 minutter.

Gitt følgende tabellstruktur (samme som i øvelsesoppgave gitt i kurset).

STUDENT(studnr,

etternavn, fornavn, adresse„postnr ) KURS(kursnr, kursnavn, nivå)

EKSAMEN (studnr kursnr

an

nr, dato)

Skriv utsagn i relasjonsalgebra for:

Kursnr og kursnavn for kurs på nivå 3.

Alt om studenter som har tatt minst ett kurs på nivå 3.

God optimalisering og bruk av semijoin gir best uttelling.

Kurs hvor det ikke er meldt opp noen til eksamen i det hele tatt (i praksis nye kurs som det enda ikke er holdt noen eksamener i). Kursnr og kursnavn på slike kurs skal være med.

Studentnr, etternavn og fornavn på studenter som har tatt alle eksamener som det er holdt eksamen i. Tips: prøv først å få til spørringen med bare studentnr på studenter som har tatt alle , deretter utvide det med etternavn og fornavn i tillegg.

Oppgave 2. Tid 45 minutter.

Beskriv ETL-prosessen i forbindelse med datavarehus.

Forklar forskjellen på et «datavarehus» og et «data mart», og forklar «top-down» versus

«buttom up» som strategi for oppbygging/utvikling i denne forbindelse.

Forklar fordeler og ulemper med bruk av triggere.

Hva er cursorer/markører, og hva brukes de til i forbindelse med databaser?

(3)

Oppgave 3. Tid 45 minutter.

Volume, Variety, Velocity og Veracity brukes ofte til å beskrive et hype't begrep. Hvilket begrep og hva menes med hver av ordene?

Forklar prinsippet bak en Key-Value store

Hva heter filsystemet som brukes i Apache Hadoop?

Hva slags hardware kreves for å kjøre Apache Hadoop?

Hvilken markant forskjell er det på Apache Spark og Apache Hadoop?

Apache Storm er en teknologi som brukes til et spesielt formål. Hvilket?

Oppgave 4. Tid 45 minutter.

Forklar hva som er forskjellen mellom maskinlærings modeller for regresjon og for klassifikasjon. Beskriv et praktisk eksempel for hver av de to.

«Overfitting» er et kjent problem når man lager databaserte modeller med maskinlæring.

Beskriv hvordan og hvorfor overfitting oppstår og gi noen eksempler av metoder og teknikker man kan bruke for å takle problemet.

Forklar kort hva ligger bak begrepet «ensemble model».

(4)

VEDLEGG: Relasjonsalgebra - vanlige operasjoner.

Mengdeoperasjoner:

Union Snitt

Mengdedifferanse

Notasjon, variant 1

Ru S RnS R - S R \ S

Notasjon, variant -2

R union S R intersect S R difference S R minus S

Mengdeprodukt, Rx S

kartesisk produkt ("alle mot alle")

Spesieltfor relasjoner:

Horisontalt utvalg (sigma)

6<betingelse>(R)

Vertikalt utvalg (pi)

lt<attributtliste>

(R) Mengdedivisjon. (Gitt R[c,d] og R S

S[d]. c er med i mengden R dividert med S

hvis c i R forekommer sammen med alle d-er som finnes i S. )

R / S

Spesialiteter av produkt:

0-join (produkt med en eller

<betingelse>

S annen betingelse på kompatible

attributter, f.eks. >, <, og kornb.)

R product S R times S

R where <bet.>

R where <bet.>

R[<attributtlistel R divideby S

R join<betingelse>

(R join S) where <bet.>

Equi-join (0-opersjonen er = )

11 11

Natural join (Equi-join hvor felles

11 11

attributt kommer bare en gang)

** den mest vanlige jointypen **

(5)

Varianter for produkt:

Outer join, normalt venstre.. RI< S R left join<bet.>S (alle i R, samt alle fra S som

oppfyller koblingsbetingelsen)

Full join (alle i R, alle i S, samtR 1IIC S alle som oppfyller koblingsbet.)

Semijoin (de i R som tilfredsstiller R›<betingelse>

R join<betingelse> S)

R full join<bet>S

R semijoin<bet.>S

Legg merke til at operasjonene her er på mengder, slik at evt. dublikater tas bort —tilsvarende select distinct i SQL.

Dersom betingelsen er på primær/fremmednøkkelkombinasjoner, droppes ofte <betingelse>.

Referanser

RELATERTE DOKUMENTER

En avklaring av begrepet relasjon er nødvendig i et arbeidsområde der fagfeltet så tydelig fokuserer på relasjonen mellom den døvblindfødte og partneren. Profesjonelle

Alle intervjuene ble gjennomført som semi-strukturerte intervjuer. Dette innebærer at vi hadde en intervjuguide som utgangspunkt, men at spørsmål, temaer og rekkefølge

Dersom materialet er et tilfeldig utvalg, synes den økte innleggelsesrisikoen å være signifikant for gruppe II (p&lt;0,05) og gruppe II (p&lt;0,01) menn.. Det er mulig at denne

– Ved hjelp av en enkel statistisk modell og data fra 4S-studien har vi beregnet at fem års behandling med simvastatin mot hjerte- infarkt og/eller hjerneslag gir NNT på 13,

I en enquête om bedøvelse ved fødsler, hvilket han var imot (iallfall i et intervju i Dag- bladet i 1925), sier han: «Det er alle puslinger av mannfolk som gjør kvinnerne hyste-

Dersom materialet er et tilfeldig utvalg, synes den økte innleggelsesrisikoen å være signifikant for gruppe II (p&lt;0,05) og gruppe II (p&lt;0,01) menn.. Det er mulig at denne

I en travel klinisk hverdag kan det være en hjelp med flytdiagrammer, men en forut- setning for å kunne anvende disse er at den enkelte må ha noe innsikt, kunnskap og erfaring.

Ingen undersøkte faktorer ble funnet å ha noen statistisk signifikant sammenheng med median ventetid for elektiv innleggelse ved kirurgiske og ortopediske avdelinger, med unntak av