• No results found

Anvendt statistikk

N/A
N/A
Protected

Academic year: 2022

Share "Anvendt statistikk"

Copied!
212
0
0

Laster.... (Se fulltekst nå)

Fulltekst

(1)

A R B E I D S N O T A T

A R B E I D S N O T A T

A r b e i d s n o t a t e r f r a H ø g s k o l e n i B u s k e r u d nr. 67

Anvendt statistikk

J o n R e i n e r t s e n

(2)
(3)

Arbeidsnotater fra Høgskolen i Buskerud Nr. 67

Anvendt statistikk

Av

Jon Reinertsen

Hønefoss 2008

(4)

HiBus publikasjoner kan kopieres fritt og videreformidles til andre interesserte uten avgift.

En forutsetning er at navn på utgiver og forfatter(e) angis- og angis korrekt. Det må ikke foretas endringer i verket.

ISSN 0807-447X

(5)

INNHOLD

1. Innledning s. 4

2. Bokstavbruk i statistikk s. 5

3. Litt beskrivende statistikk s. 6

4. Enkel regresjon s.30

5. Enkel korrelasjon s.37

6. Ikkelineær regresjon s.45

7. Noen viktige kontinuerlige fordelinger.

Sentralgrenseteoremet.

s.55 8. Statistisk inferens. Estimering s.66

9. Hypotesetesting s.68

10. Inferens knyttet til ett gjennomsnitt s.73 11. Inferens knyttet til to gjennomsnitt s.91

12. Kjikvadrattester s.112

13. Inferens for en andel s.119

14. Inferens for to andeler s.133

15. Ikkeparametriske metoder s.144

16. Variansanalyse s.152

17. Regresjon og variansanalyse s.160

18. Multippel regrsjon s.164

19. Oppgaver s.172

(6)

1. Innledning.

Dette heftet danner utgangspunkt for et kurs i anvendt statistikk som utgjør halvparten av kurset MAT 420 (grunnleggende og anvendt statistikk).

MAT 420 utgjør ¼-del av årsenheten i matematikk på valgfag på almenlærerutdanningen.

Før man starter på dette kurset i anvendt statistikk har studentene som et minimum vært igjennom et kurs i grunnleggende matematisk analyse og didaktikk (15 studiepoeng) i

høstsemesteret samt den første delen av kurset MAT 420 i vårsemesteret. I den grunnleggende statistikkdelen av kurset har man behandlet begreper som diskrete sannsynlighetsmodeller (generelt), kombinatorikk og utvalgsmodeller, betinget sannsynlighet og uavhengighet, stokastiske variable, forventning og varians, noen vanlige sannsynlighetsfordelinger

(binomisk-, hyper-geometrisk-, Poisson- og normalfordeling), estimering og hypoteseprøving.

Disse temaene forutsettes kjent når man starter på dette heftet. Jeg har allikevel valgt å legge inn noe av det som er behandlet i den grunnleggende statistikken slik at de som eventuelt ønsker å lese dette separat kan gjøre det uten i for stor utstrekning å måtte slå opp i en grunnbok. Dette gjelder spesielt teorien knyttet til estimering og hypoteseprøving.

(7)

2.Bokstavbruk i statistikk.

I statistikk bruker en konsekvent bokstaver fra det norske (engelske) alfabetet til å betegne begreper i utvalget, og greske bokstaver til å betegne begreper i populasjonen.

For eksempel betegnes det aritmetiske gjennomsnittet i utvalget medx(”x strek”), mens gjennomsnittet i populasjonen betegnes med den greske bokstavenµ (”my”). Standardavviket i utvalget betegnes med s, mens standardavviket i populasjonen betegnes med den greske bokstaven σ (”sigma”) …….osv. Mange av de greske bokstavene vil bli brukt på forskjellige temaer i dette heftet, og derfor følger her en presentasjon av det greske alfabetet (med store og små bokstaver og uttale)

omega my

psi lambda

kji kappa

fi iota

ypsilon teta

tau eta

sigma zeta

rho epsilon

pi delta

omikron gamma

ksi beta

ny alfa

ω µ

ψ λ

χ κ

φ ι

υ θ

τ η

σ ς

ρ ε

π δ

ο γ

ξ β

ν α

Ω Μ

Ψ Λ

Χ Κ

Φ Ι

Υ Θ

Τ Η

Σ Ζ

Ρ Ε

Π

Ο Γ

Ξ Β

Ν Α

Noen tilleggskommentarer :

Du kjenner sikkert utrykket: Hun var alfa og omega (f.o.m. alfa (første bokstav) t.o.m. omega (siste bokstav), dvs. hele alfabetet, dvs. hun betydde alt.

Hvis du en gang i framtiden kommer til Hellas er det greit å kunne det greske ordet for apotek: ΦΑΡΜΑΣΙΑ ( ”Farmasia”). En, to, tre på gresk er ENA (”ena”),

)

"

("

),

"

("dyo ΤΡΙΑ tria

∆ΥΟ

De mest brukte bokstavene i statistikk er: α,β,ε,θ,λ,µ,π,ρ,σ,χ,ΘogΣ

(8)

3. Beskrivende statistikk.

Beliggenhetsmål.

Anta at vi har gjennomført forsøket og har de n resultatene av en kvantitativ variabel : xn

x

x1, 2,LL . Dette skrives også ofte xi, i = 1, 2, …,n og kalles for råmaterialet, fordi det er det ubehandlede tallmaterialet.

I mange sammenhenger er det nyttig å angi ett tall som representant for alle tallene.

For å si noe om hvor tallene ligger plassert på tallinja (eller er lokalisert) så er det vanlig å angi et såkalt beliggenhetsmål (også kalt mål på sentral tendens). Dvs. det er et tall som sier noe om hvor tallmassen er ligger (eller er lokalisert ).

Det aritmetiske middeltall (the arithmetic mean) er det mest brukte beliggenhetsmålet. Det er definert ved:

n x x

n

i

i

= =1

M.a.o. finn summen av x-ene og divider så på antall observasjoner, dvs.

n x x SUM( )

= for de

med ”

- fobi”

Eks. Anta at tallmaterialet xi, i = 1, 2, …,10 er gitt ved: 1, 2, 1, 3, 4, 3, 2, 2, 3, 2. Da blir

n x x

n

i

i

= =1 = 2,3

10 23 10

2 3 2 2 3 4 3 1 2

1+ + + + + + + + + = =

(*)

Tallet 2,3 er nå et tall som representerer de 10 tallene, og forteller hvor disse tallene er lokalisert ( eller ligger)

Ser en litt nærmere på tallene som inngår i telleren ser en at en del av tallene er innbyrdes like. Det medfører at en kan skrive

x= 2,3

10 23 10

4 1 3 3 2 4 1

2⋅ + ⋅ + ⋅ + ⋅ = =

(**)

Om man her regner ut xved hjelp av (*) eller (**) spiller ikke noen særlig rolle, men hvis tallmaterialet hadde vært stort, og mange av observasjonene var like, så ville det vært svært besparende å bruke (**). Man sier her at frekvensen (hyppigheten (the frequency)) av tallet 1 er 2, frekvensen av tallet 2 er 4, frekvensen av tallet 3 er 3, og frekvensen av tallet 4 er 1. Dette skrives

(9)

,

1 =2

f f2 =4, f3 =3 og f4 =1

Den generelle formelen for beregning avxnår flere av observasjonene er innbyrdes like (dvs. verdien xk har frekvensen fk, k=1,2,…m, der m er antall forskjellige verdier av x. I eks. foran er m=4. (m.a.o. verdien x1 forekommer f1 ganger, verdien x2 forekommer f2 ganger, ………, verdien xm forekommer fm ganger, ) blir dermed:

n

x f x

f x f n

x f

x m m

m

k k

k ⋅ + ⋅ + + ⋅

=

=

=1 1 1 2 2 L

eller bare kortere

n x f x k

k

k

= eller ennå kortere

n x f x

=

Et annet men ikke så mye brukt mål på sentral tendens er typetallet (eng.: the mode) ~ (=T) x som ganske enkelt er den observerte verdi med størst frekvens.

Eks. I eks. over er typetallet ~ = 2 fordi verdien 2 forekommer hyppigst, nemlig 4 ganger. x

Noen ganger inneholder våre tallmaterialer enkelte ekstreme verdier i forhold til de fleste andre. ( disse kalles av noen ”uteliggere” etter det engelske outlier. Se definisjonen s. 12.) I slike tallmaterialet blir det aritmetiske gjennomsnittet lett påvirket i retning av de(n) ekstremt store/små verdiene.

Eks. Anta at man har observert alderen x på 5 personer og funnet: xi: 1, 2, 3, 4, og 60.

Beregner en her gjennomsnittsalderen ved hjelp av det aritmetiske gjennomsnittet finner en 5 14

70 5

60 4 3 2

1 1+ + + + = =

=

=

=

n x x

n

i i

(år)

som neppe kan sies å være et representativt tall for tall for dataene. I slike sammenhenger er det man bruker et mål på sentral tendens som ikke så lett lar seg påvirke av ekstreme verdier.

Det finnes flere slike mål. Et mye brukt mål er den såkalte medianen.

Medianen M er det tallet som deler det ordnede tallmaterialet ( ordnet i stigende eller avtagende rekkefølge) i to like store deler. Medianen sies derfor ofte å være den midterste observasjonen i det ordnede tallmaterialet hvis det er et odde antall observasjoner, og gjennomsnittet av de to midterste hvis det er et like antall observasjoner.

Eks. La xi være: 2, 5, 3, 4, 16. Ordner man tallmaterialet har en: 2, 3, 4, 5, 16 og da ser en at medianen blir 4.

Eks. Sløyfer en nå for eksempel observasjonen 2 ser en at det ikke lenger er noen observasjon i midten, og medianen er dermed gjennomsnittet av de to midterste, d.v.s.

(10)

5 , 2 4

5 4+ =

= M

Medianen behøver m.a.o. ikke være en observasjon. Man sier ofte at medianen M er den verdien som er slik at 50% av tallmaterialet(det ordnede) ligger under denne og 50% ligger over denne.

Andre nyttige beliggenhetsmål er de såkalte kvartilene Q1,Q2 og Q3. De deler også det ordnede tallmaterialet i to deler:

Q1slik at 25% av observasjonene ligger under og 75% ligger over denne.

Q2slik at 50% av observasjonene ligger under og 50% ligger over denne.

Q3slik at 75% av observasjonene ligger under og 25% ligger over denne.

Det betyr m.a.o. at medianen M og 2.kvartil Q2 er den samme.

I små tallmaterialer ( n<100) så beregner en medianen ved å finne observasjon nr.

2 +1

n i det ordnede tallmaterialet. Tilsvarende finner en kvartilene Q1 og Q3 som henholdsvis

observasjon nr.

4 +1

n og nr.

4 3 +1

n

i små tallmaterialer.

I større tallmaterialer (n 100≥ ) så leter en tilsvarende etter observasjon nr.

4 n, nr.

2

n og nr.

3 4n

⋅ i det ordnede tallmaterialet. Grunnen til dette er at det liten forskjell på (for eksempel)

4 n og

4 +1

n når n er stor . Denne tankemåten er praktisk når man skal bruke andre mål enn kvartiler.

Et tallmateriale kan deles inn i mindre deler på mange måter. Noen andre mye brukte er:

Densilene D1,D2,...,D10 deler tallmaterialet inn 10-deler analogt til over. Det betyr at D1 deler tallmaterialet i to slik at 10% ligger under D1 og 90% ligger over denne verdien, D2 deler tallmaterialet i to slik at 20% ligger under D2 og 80% ligger over denne verdien, osv.

En beregner nå tilsvarende her observasjon nr.

10

n , nr. , 10 2n nr

10

9n i det ordnede tallmaterialet.

Prosentilene P1,P2,...,P100 deler tallmaterialet inn i 100-deler analogt til over. Det betyr at P1 deler tallmaterialet i to slik at 1% ligger under P1 og 99% ligger over denne verdien. Helt analogt beregner en nå tilsvarende her observasjon nr.

100

n , nr. , 100

2n nr 100

99n i det ordnede tallmaterialet når man skal beregne prosentilene P1,P2,...,P100.

(11)

Spredningsmål.

To forskjellige tallmaterialer kan ha samme beliggenhetsmål. Bl.a. for å kunne skille mellom disse så innføres såkalte spredningsmål, som gir et mål på hvor stor spredning det er i

observasjonene.

Eks. Tallmaterialene xi: 1, 4, 5, 9, 11 og yi: 3, 5, 7, 9 er forskjellige, men har allikevel samme aritmetiske gjennomsnitt (kontroller selv). Er medianene like? Spredningen i de to tallmaterialene er imidlertid forskjellig.

Variasjonsbredden (the range) er et enkelt, men ikke så mye brukt variasjonsmål. Det er definert som differansen mellom den største og den minste observasjonen, dvs.

xmin

x V = maks

Eks. I tallmaterialene over finner en Vx =11−1=10 og Vy =9−3 = 6

Kvartibredden (the interquartilrange) er et annet variasjonsmål, som er noe mer brukt en variasjonsbredden. Det er differansen mellom 3. og 1. kvartil, dvs.

Kv.br. = Q3Q1 = IQR

Det betyr at kvartilbredden er avstanden mellom de to verdiene (Q1 og Q3) som er slik at 50% av observasjonene i det ordnede tallmaterialet ligger mellom disse (75% ligger på nedsiden av 3.kvartil og 25% ligger på nedsiden av 1.kvartil)

IQR brukes ofte til å definere hva en outlier (ekstremverdi) er for noe. En observasjon kalles en outlier hvis den er

< Q1−1,5IQR eller >Q3 +1,5IQR Hvis observasjonen er

< Q1 −3IQR eller >Q3 +3IQR kalles den ofte for en ekstrem outlier

Eks. Gitt tallmaterialet

12 , 6 , 7 , 4 , 5 , 1

i : x

Spørsmålet er nå om x6 =12 er en outlier. Legger en inn tallene i kalkulatoren finner en Q1 og Q3 henholdsvis til 4 og 7. Greier du å se hvorledes kalkulatoren beregner kvartilene?

En finner nå m.a.o. IQR = 7 – 4 = 3 og dermed Q3 +1,5IQR=7+1,5⋅3 = 11,5. Dvs at

6 =12

x er en outlier siden den er > 11,5. dermed bør denne observasjonen fjernes fra tallmaterialet før en gjør noen analyser.

(12)

Variansen er det klart mest brukte spredningsmålet. Dette målet forteller hvor mye observasjonene avviker fra sitt gjennomsnitt med. Variansen er definert ved

) ) ( )

( ) 1((

)

1 ( 2 2

2 1

2 1 2

2 x x x x x x

x n

n x n

n

i

i − = − + − + + −

=

=

σ L

En ser m.a.o. mer presist at variansen først regner ut hvor mye x1 avviker fra xmed, deretter kvadreres dette, så gjøres det tilsvarende for x2, osv…., tilslutt gjøres det for xn. Etter dette deles alle disse kvadrerte avvikene med n, dvs. m.a.o. si at variansen er gjennomsnittlig kvadrert avvik fra gjennomsnittet for alle observasjonene. Grunnen til at man kvadrerer er at man ellers ville få 0 hver eneste gang, fordi det kan vises generelt at man alltid har at

) ( )

( )

(x1x + x2x +L+ xnx = 0 Forklaring på dette er:

) ( )

( )

(x1x + x2x +L+ xnx = (x1+x2 +L+xn)−xx−L−x =nxnx =0 Eks. Betrakter nå tallmaterialet på side 9 derxi, i = 1, 2, …,10 var gitt ved: 1, 2, 1, 3, 4, 3, 2, 2, 3, 2. Her fant vi x= 2,3. Dermed blir variansen

) ) ( )

( ) 1((

)

1 ( 2 2

2 1

2 1 2

2 x x x x x x

x n

n x n

n

i

i − = − + − + + −

=

=

σ L =

81 , 0 ) ) 3 , 2 2 ( )

3 , 2 2 ( ) 3 , 2 1 10((

1 − 2 + − 2 + + − 2 =

= L

En ser m.a.o. at først så beregnes avvikene fra gjennomsnittet for hver eneste observasjon:

) 3 , 2 2 ( , ), 3 , 2 2 ( ), 3 , 2 1

( − − L − (Vis at summen av disse avvikene = 0)

Deretter kvadreres disse avvikene før de så adderes. Summen av de kvadrerte avvikene blir 8,1 (kontroller selv). Tilslutt deles summen av disse 10 kvadrerte avvikene på 10, en regner m.a.o. ut gjennomsnittlig kvadrert avvik for de 10 tallene.

Som vist over må man altså gjøre noe med avvikene før man deler på 10 ellers vil man kun få 0 i gjennomsnittlig avvik hver eneste gang. Den ene muligheten er altså som her å kvadrere avvikene (da blir de negative avvikene kvadrert positive). Den andre muligheten er å beregne absoluttverdiene av avvikene, og så addere disse og tilslutt dividere med 10. Grunnen til at man har valgt kvadreringen er at dette i den generelle teorien som er utviklet i forbindelse med dette gir mye bedre ”matematiske arbeidsforhold”. En ulempe med kvadreringen er imidlertid at variansen får en annen benevning enn de opprinnelige data. Tenk for eksempel at de 10 tallene er beløp i kroner. Da vil gjennomsnittlig beløp være 2,3 kroner, mens variansen blir 0,81 kroner2 (m.a.o. 0,81 kvadratkroner, hva nå det måtte være for noe?). For å korrigere for dette ( m.a.o. ha et spredningsmål med samme benevning som dataene ) så innføres det såkalte standardavviket som er kvadratroten av variansen. M.a.o.:

Standardavviket = σ = Variansen

(13)

Det betyr at standardavviket i tallmaterialet over er σ = 0,81= 0,9 (kroner).

Man kan her analogt til overgangen fra

n x x

n

i

i

= =1 til

n x f x k

k

k

= sette opp en tilsvarende kortere beregningsformel for variansen ved å slå sammen de like leddene:

=

− +

− +

− +

+

− +

− +

− +

− +

− +

− +

=

)) ) 3 , 2 2 ( ) 3 , 2 3 ( ) 3 , 2 2 (

) 3 , 2 2 ( ) 3 , 2 3 ( ) 3 , 2 4 ( ) 3 , 2 3 ( ) 3 , 2 1 ( ) 3 , 2 2 ( ) 3 , 2 1 10((

1

2 2

2

2 2

2 2

2 2

2

81 , 0 ) ) 3 , 2 3 ( 1 ) 3 , 2 1 ( 3 ) 3 , 2 2 ( 4 ) 3 , 2 1 ( 2 10(

1 2 2 2 2

=

⋅ +

⋅ +

⋅ +

=

Dette leder dermed til følgende formel:

) ) (

) ( )

( 1( )

1 ( 2 2

2 2 1

2 1 1 2

2 f x x f x x f x x

x n x

n f m m

m

k

k

k − = ⋅ − + ⋅ − + + ⋅ −

=

=

σ L

der m er antall forskjellige x-verdier.

Dette er jo praktisk (forenklende) når man har mange like tall å arbeide med og skal gjøre beregningene ”for hånd”, men så fort en overlater beregningene til TI-83 `s

statistikkprogrammer eller SPSS er det helt uvesentlig hvilken beregningsformel som ligger bak.

Nå er det kanskje noen som husker at man skal dele på (n-1) og ikke n når man beregner variansen. Når skal man gjøre hva? Det er vanlig å kalle σ2 for populasjonsvariansen, dvs.

variansen til alle elementene en i øyeblikket interesser seg for. Nå er det vanlig at ikke hele populasjonen er kjent, men at man tar et tilfeldig utvalg for å få kunnskap om populasjonen. I dette utvalget kan man så beregne variansen som dermed kalles for utvalgsvariansen, og betegnes med s2. Denne utvalgsvariansen vil jo måtte være et tall i nærheten av σ2siden utvalget vårt er representativt. Det kan i den matematiske statistikken vises at s2ligger nærmere σ2(treffer bedre) når man deler på (n-1) enn hvis man deler på n. Mer presist:

Det kan vises at E(S2) = σ2, m.a.o. S2(=variabelen knyttet til s2) er en forventningsrett estimator for σ2.

Det betyr da at

) ) ( )

( )

( 1( ) 1

1 (

1 2 2

2 2 1

2 1 1 2

2 f x x f x x f x x

x n x n f

s m m

m

k

k

k ⋅ − + ⋅ − + + ⋅ −

= −

− −

=

=

L

er et bra estimat for σ2. Det er vanlig å bruke s2når man opererer med et utvalg av data.

Kjenner man hele populasjonen bruker man σ2. Når tallmaterialene blir store spiller det liten rolle om man deler på (n-1) eller n.

(14)

Eks. Anta at summen av de kvadrerte avvikene er 2250 og at n=500. Da blir σ2= 4,500

500

2250 = , mens s2= 4,509 1

500 2250 =

som resulterer i følgende standardavviker:

σ = 4,500 =2,121 og s = 4,509 =2,123

M.a.o. det blir helt ubetydelige forskjeller. For å kunne skjelne litt bedre mellom σ2og s2bruker en i noen bøker N på antallet i populasjonen, og n på antallet i utvalget. Det betyr at populasjonsvariansen blir gitt ved

) ) ( )

( )

( 1 ( )

1 ( 2 2

2 2 1

2 1 1 2

2 f x x f x x f x x

x N x

N f m m

m

k

k

k − = ⋅ − + ⋅ − + + ⋅ −

=

=

σ L og

utvalgsvariansen blir gitt ved

) ) ( )

( )

( 1( ) 1

1 (

1 2 2

2 2 1

2 1 1 2

2 f x x f x x f x x

x n x n f

s m m

m

k

k

k ⋅ − + ⋅ − + + ⋅ −

= −

− −

=

=

L

Grupperte tallmaterialer. Det er ofte slik at en del store tallmaterialer er ordnet i tabellform, for å skape mer oversikt (se for eksempel statistisk årbok) enn det råmaterialet gjør. Dette vil da være en tilnærmet angivelse av de opprinnelige dataene.

Eks. Anta at et tilfeldig utvalg på n=20 observasjoner er gitt ved:

i :

x 2, 3, 6, 5, 7,11, 8, 9,14,12,10, 5, 3, 6, 6, 14, 9, 8, 7,13

Først skal vi regne eksakt på dette tallmaterialet, for deretter å organisere tallene i en tabell og så sammenlikne resultatene. Det ordnede tallmaterialet gjør det litt lettere mht. beregningene.

) :

x(i 2, 3, 3, 5, 5, 6, 6, 6, 7, 7, 8, 8, 9, 9, 10, 11, 12, 13,14,14 En finner nå det aritmetiske gjennomsnittet

n

x f x

f x f n

x f

x m m

m

k k

k ⋅ + ⋅ + + ⋅

=

=

=1 1 1 2 2 L

= 20

14 2 6

3 5 2 3 2 2

1⋅ + ⋅ + ⋅ + ⋅ +L+ ⋅

= 7,9

og utvalgsvariansen

) ) ( )

( )

( 1( ) 1

1 (

1 2 2

2 2 1

2 1 1 2

2 f x x f x x f x x

x n x n f

s m m

m

k

k

k ⋅ − + ⋅ − + + ⋅ −

= −

− −

=

=

L =

(15)

= (1 (2 7,9) 2 (3 7,9) 2 (14 7,9) ) 1

20

1 ⋅ − 2+ ⋅ − 2+ + ⋅ − 2

− L =12,9 (12,9368…)

Dermed blir standardavviket s = 12,9 =3,6 ( = 3.59678..)

I mange sammenhenger er et slikt tallmateriale gitt i tabellform som følger:

Klassegrenser Frekvens fk

Klassemidtpkt.

xk

[

0,5 3 2,5

[

5,10 11 7,5

[

10,15 6 12,5

Da er ikke råmaterialet kjent slik som her. Det betyr at en nå kun vet at det er 3 observasjoner mellom fra og med 0 og til 5, 11 observasjoner mellom 5 (f.o.m.) og 10 (til), osv.. Man velger nå punktet midt i klassen som representant for de ukjente verdiene. M.a.o. det er 3

observasjoner som er 2,5 (eksakt er de 2, 3 og 3 hvis man ser på råmaterialet), 11 observasjoner som er 7,5, osv.

Med denne tilnærmingen finner en nå

n

x f x

f x f n

x f

x m m

m

k k

k ⋅ + ⋅ + + ⋅

=

=

=1 1 1 2 2 L

= 20

5 , 12 6 5 , 7 11 5 , 2

3⋅ + ⋅ + ⋅

= 8,3 (8,25) som avviker litt fra den eksakte verdien på 7,9. Nå skal det bemerkes at ved større tallmaterialer så blir forskjellene gjennomgående mye mindre.

Tilsvarende finner man variansen i tabellen:

) ) 3 , 8 5 , 12 ( 6 ) 3 , 8 5 , 7 ( 11 ) 3 , 8 5 , 2 ( 3 1( 20 ) 1 1 (

1 2 2 2

1

2

2 ⋅ − + ⋅ − + ⋅ −

= −

− −

=

= m

k

k

k x x

n f

s =11,3

Herav finner en da standardavviket s = 11,3=3,4

Ønsker man å legge disse tallene inn i listene i TI 84 går en fram som følger:

Trykk først på STAT-tasten. Da får du opp følgende bilde:

Trykk så på ENTER-tasten og du får opp følgende bilde:

(16)

Kalkulatoren er nå klar til å ta imot tall i de forskjellige listene. Legger så klassemidtpunktene inn i liste 1,L1, og frekvensene inn i liste 2 ,L2.

Dette gir da følgende bilde:

Nå trykker en så på STAT-tasten igjen, men velger nå isteden alternativet CALC (calculations). Dette gir følgende bilde:

En bruker nå 1: 1-Var Stats ( envariabelstatistikk) på følgende måte:

Trykk først på ENTER og deretter på 2ND 1, så på kommatasten, og tilslutt på 2ND 2. Du vil da få opp følgende bilde:

Trykker en nå på ENTER-tasten får en følgende bilde:

(17)

Her får en nå bekreftet beregningene over, og i tillegg beregnet de tre kvartilene. En ser at dette avviker en del fra beregningene i råmaterialet:

i :

x 2, 3, 6, 5, 7,11, 8, 9,14,12,10, 5, 3, 6, 6, 14, 9, 8, 7,13

Hvor en fant Q1 =5 og Q3 =10, men det skyldes den forskjellen som er mellom råmaterialet og tabellmaterialet

':

xi 2.5, 2.5, 2.5, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 12.5, 12.5, 12.5, 12.5, 12.5, 12.5.

En har at medianen M er gitt ved 7,5. Q1 ogQ3 ser en blir henholdsvis 7,5 og 12,5. Legg merke til at Q1 og Mblir like. Hvordan vil du kommentere dette?

Nå kan medianen ( og kvartilene) beregnes ved hjelp av tabellen på en tilnærmet måte. En har at

f v L st

M = +Re ⋅

der L = nedre klassegrense i den klassen hvor medianen ligger, f = frekvensen i den klassen hvor medianen ligger, v = klassevidden i medianklassen og Rest = det en mangler for å komme fram til medianen (dvs det antall observasjoner en mangler fra L og fram til observasjon nr. observasjon nr.

2 +1

n når n er et lite tall**)

I vårt eksempel finner en

4 , 8 0 , 11 5

3 5 , 0 10 , Re 5

=

− ⋅ +

=

⋅ +

= v

f L st M

idet medianen er observasjon nr. 10,5 som ligger i klasse nr 2 som har nedre klassegrense 5, en klassevidde på 5 og en frekvens på 11. Rest blir dermed 10,5-3 der 3 er det antall

observasjoner som ligger i klassene før medianklassen (her kun klasse nr 1)

(18)

Den samme teknikken kan brukes til å beregne Q1ogQ3. En har nå tilsvarende

1 =

Q v

f L+Rest

der L = nedre klassegrense i den klassen hvor 1.kvartil ligger, f = frekvensen i den klassen hvor 1.kvartil ligger, v = klassevidden i klassen hvor medianen ligger og Rest = det en mangler for å komme fram til 1.kvartil (dvs det antall observasjoner en mangler fra L og fram til observasjon nr. observasjon nr.

4 +1

n når n er et lite tall) Helt analogt finner en Q3 ved

Q3= v

f L+ Rest

bortsett fra at man nå leter etter observasjon nr.

4 3 +1

n

. Beregn nå selv 3. kvartil og vurder om svaret ditt er rimelig.

** At n er et lite tall skal her bety at n<100. Hvis n≥100 så leter en etter observasjon nr 4

,3 , 2 4

n n

n ,…..osv når man skal beregne kvartilene. Dette er en mye enklere og logisk

tenkemåte. Når man for eksempel skal finne densilene ( de verdiene som deler tallmaterialet i 10 deler) leter en etter observasjon nr.

10 ,9 10, , 3 10 , 2 10

n n n

n L .

Det er dessuten veldig liten forskjell på de to metodene når n er stor Anta for eksempel at n = 250, at L = nedre klassegrense i den klassen hvor 1.kvartil ligger =39,5 ; at f = frekvensen i den klassen hvor 1.kvartil ligger = 47 , at v = klassevidden medianklassen = 10, og at det ligger 25 observasjoner før klassen som inneholder første kvartil. Nå blir

4 +1

n = 62.75 og 5

, 4 =62

n . Dermed blir Rest = det en mangler for å komme fram til 1.kvartil = 62,75-25 = 37,75 eller 62,5-25 = 37,5. Det betyr at 1. kvartil beregnet ved de metodene blir henholdsvis

53 , 47 47 10

75 , 5 37 , Re 39

1 = + ⋅v= + ⋅ =

f L st Q

48 , 47 47 10

75 , 5 37 ,

1 =39 + ⋅ =

Q

Det blir mao. en forskjell på 0,05 ved de to beregningsmetodene.

(19)

Skjevhet *

Vi har til nå sett på mål på sentral tendens og mål på spredning. Disse kalles ofte henholdsvis første- og andre-ordens mål. I en del sammenhenger er det også nyttig å se på høyere ordens mål. Anta at vi har n observasjoner x1,x2,LLxn Vi definerer derfor nå det såkalte r.te- ordens momentet omkring x ved

r =

m n

x x

n

i

r

i

=

1

) (

r = 1, 2, 3, …..

hvis alle observasjonene er forskjellige, eller ved

r =

m n

x x f

k

r k

k( )

r = 1, 2, 3, …..

hvis en del av observasjonene er like, eller dataene er gruppert. Det er ikke egentlig noen forskjell på de to formlene (jfr. de to formlene for varians) idet hvis alle frekvensene var lik 1 så er alle x-ene forskjellige og formel 1 fremkommer. En annen ting er at en godt kan bruke formel 1 i alle tilfellene, men en blir da sittende å addere mange like ledd der en har like observasjoner istedenfor å multiplisere (m.a.o. 5+5+5+5+5+5+5+5+5 er tyngre å regne ut enn 9*5) Det betyr m.a.o. at formel 2 er en kortere (og greiere ) formel å bruke enn formel 1 når det er mange like data.

Det kan vises at m1 =0 uansett tallmateriale (se regneregler for summer i Sydsæter App.A)

1 =

m n

x x

n

i

i

=

1

)1

(

= n

x x

n

i

i

=

1

) (

= n

x x

n

i

n

i

i

= =

1 1 =

n x n x n

= 0 Dessuten har en at

2 =

m n

x x

n

i

i

=

1

)2

(

= variansen i et tallmateriale = σ2 (egentlig populasjonsvariansen) Nå skal vi også betrakte m3 og m4. Disse har betydning for en del av analysene som skal gjøres senere.

Tredjeordensmomentet omkring xdefinert ved

3 =

m n

x x f

k k

k( )3

brukes til å beregne skjevheten ( the skewness) i en fordeling.

Hvis en fordeling har enkelte små verdier som skiller seg fra de øvrige (fordelingen vil da ha en hale mot venstre) så sier man at skjevheten er negativ. Hvis fordelingen er symmetrisk så

(20)

er skjevheten 0. Har fordelingen enkelte store verdier som skiller seg fra de øvrige (fordelingen har da en hale mot høyre) så er skjevheten positiv.

Ifølge Jøreskog ( Formulas for Skewness and Kurtosis 1999) så beregnes skjevheten ved først å regne ut

3 3 2

3

1 32

s m m

g = m =

der s er standardavviket.

g1 vil være negativ hvis m3 er negativ, og positiv hvis m3 er positiv.

Deretter beregnes ( justert g1)

1

1 2

) 1

( g

n n

G n

= −

(justert g1 som er forventningsrett (normalitetsforuts.))

Nå skal vi prøve å kontrollregne denne verdien, og vi trenger altså både m2 og m3. Vi har tidligere funnet s2 =11,25⇒ 11,25

20 19

2 = ⋅

m =10,69 . I tillegg finner en nå m3 ved

m3=

n x x f

k k

k( )3

= 20

) 25 , 8 5 , 12 ( 6 ) 25 , 8 5 , 7 ( 11 ) 25 , 8 5 , 2 (

3⋅ − 3+ ⋅ − 3+ ⋅ − 3

=-5,72 Dermed blir

164 , 0 )

69 , 10 (

72 , 5

32 2

3

1 32 − =−

=

= m g m

og dermed finner en

178 , 0 ) 164 , 0 18 (

19 20 2

) 1 (

1

1 ⋅ ⋅ − =−

=

− ⋅

= − g

n n G n

Det kan vises at standardavviket til g1 er gitt ved

) 3 )(

1 )(

2 (

) 1 ( ) 6

( 1

+ +

= −

N N

N

N N

W W

W

W g W

se

(21)

der W w vektene for observasjon i N

N

i N

i i

N =

=

= + + + =

=

=

1 1

1 ) (

1 1

L , der N er antall observasjoner. Dvs. at

512 , 23 0 21 18

19 20 6 ) 3 )(

1 )(

2 (

) 1 ( ) 6

( 1 =

= ⋅ + +

= −

N N N

N g N

se

Dette er et tall som kan brukes til hypotesetesting og estimering (konfidensintervaller).

Spisshet *

Et annet viktig mål i en fordeling baserer seg på fjerdeordensmomentet omkring x, og dette måler graden av spisshet (kurtosis) i fordelingen. Nå er iflg. def. s.17

4 =

m n

x x f

k k

k( )4

Definer så g2 ved

2 3

2 4

2 = −

m g m

Grunnen til at 3-tallet kommer inn er at i normalfordelingen er spissheten akkurat lik 3,0. Det betyr dermed at hvis en fordeling er spissere enn normalfordelingen (spisshet > 3,0) så er

g2>0, og hvis den er mindre spiss enn normalfordelingen så blir g2< 0. Tilsvarende til definisjonen av G1 defineres nå G2 ved

[

( 1) 6

]

) 3 )(

2 (

1

2

2 + +

= − n g

n n

G n

( som også er en forventningsrett estimator under normalitetsforutsetningen).

Prøver nå å sjekke beregningene i MINITAB-utskriften. Må da først finne m4 (m2 er kjent fra før).

4 =

m =

n

x x f

k k k

)4

(

20

) 25 , 8 5 , 12 ( 6 ) 25 , 8 5 , 7 ( 11 ) 25 , 8 5 , 2 (

3⋅ − 4 + ⋅ − 4 + ⋅ − 4

= 262,0195…

Dermed blir

=

=

= 3

69 , 10

02 , 3 262 2

2 2 4

2 m

g m -0.707

og det forventningsrette estimatet G2

(22)

[ ] [

21 ( 0.707) 6

]

17 18 6 19 )

1 ) ( 3 )(

2 (

1

2

2 ⋅ − +

= ⋅ +

− +

= − n g

n n

G n = -0,5495 = -0,55

som stemmer svært så bra med MINITAB sin verdi som er -0,548. Fordelingen er m.a.o. litt mindre spiss enn normalfordelingen.

På SPSS sin hjemmeside finner man også formelen til standardfeilen (les standardavviket) til g2:

) 5 )(

3 (

)) ( )(

1 ( ) 4 (

2 1 2

2 − +

= −

N N

g se g N

se

som innsatt N=20 og se(g1)= 0,512 gir

) 5 20 )(

3 20 (

) 512 , 0 )(

1 20 ( ) 4 (

2 2

2 − +

= − g

se = 0,992

Dette kan da igjen brukes til å gjennomføre hypotesetesting og etimering.

Noen grafiske framstillingsmetoder.

For å skape en oversikt og et bilde av situasjonen så bruker en ofte grafiske framstillinger av tallmaterialet. Dette kan gjøres på flere måter. Hvilke metode en bruker er delvis avhengig av tallmaterialet ( dvs. om variabelen er diskret, kontinuerlig, eller en kategorivariabel) og hvilket ”publikum” som skal se grafikken.

Stolpediagram (bar chart)

Anta at man har et tilfeldig utvalg på 13 karakterer i matematikk i en ungdomsskoleklasse.

Variabelen ”karakter” er her diskret og kan anta verdiene 0, 1, 2, 3, 4, 5 og 6. Anta at resultatet av undersøkelse ble:

Elev 1 2 3 4 5 6 7 8 9 10 11 12 13

Kar. 2 4 6 4 1 5 4 3 4 2 1 0 5

Nå bruker man et såkalt stolpediagram for å framstille disse dataene grafisk:

Legger en disse dataene inn i MINITAB vil en få følgende stolpediagram:

(23)

C1

Count

6 5

4 3

2 1

0 4

3

2

1

0

Chart of C1

En ser at MINITAB velger å tegne rektangler. Det er også vanlig å tegne vertikale streker.

Noen av de mest brukte grafiske framstillingene for kontinuerlige tallmaterialer er histogram og kurvediagram.

Histogram.

Eks. Går en nå tilbake til tallmaterialet på side 10 (aldersfordelingen på 20 barn) og legger dette inn i TI får en følgende histogram av råmaterialet:

Abs. frek. f

x

Har en mange observasjoner så blir dette fort uoversiktlig. En lager derfor et passe antall intervaller (klasser). Her må en bruke skjønn. En vanlig tommelfingerregel er å bruke 8-12 intervaller når det er en viss størrelse på tallmaterialet. Velger en for eksempel klassevidde 2 på tallmaterialet over gir TI følgende grafiske bilde: (En bør nå ha Window stilt som følger:

(24)

Legg spesielt merke til at Xscl nå er satt til 2)

Abs. frek. f

x Bruker en derimot tabellen som utgangspunkt (klassevidde = 5) får en Velger en derimot å framstille tabellmaterialet grafisk finner en

Abs. frek. f

x

En må egentlig i hver enkelt situasjon avgjøre hva som best for at det grafiske bildet skal representere tallene på en best mulig måte. Har en for små klassevidder vil en lage et for detaljert bilde, har en for store klassevidder vil en del detaljer bli visket bort. Prøv selv med noen andre klassevidder.

For kontinuerlige data kan en alternativt bruke kurvediagram istedenfor histogram. Her avsetter en punktene (xk,fk), k= 1,2,….., K der K er antall klasser og tegner rette linjer mellom disse. Det er svært vanlig ta med en start-klasse og en avslutningsklasse med frekvens 0 og dermed avsette punktet (x0,0) og punktet (xK+1,0). Da vil arealet av histogrammet og kurvediagrammet bli like store. Tallmaterialet i tabellen vil da gi følgende kurvediagram:

(25)

Abs. frek. f

x

Tegn histogrammet og kurvediagrammet inn i samme koordinatsystem og overbevis deg selv om at de dekker samme areal.

Sumfordelingskurve ( sumpolygon)

En meget nyttig kurve som kan brukes til å lese av mange av de målene som vi har beregnet foran er den såkalte sumfordelingskurven. Her beregner en først de kumulative relative frekvensene Rk = R(Xxk) (mao. summen av de relative frekvensene rk opp til og med klasse k ). Avsetter en x langs førsteaksen,Rk langs andreaksen og ”tilvekstrektangelet” i hver klasse framkommer den såkalte sumfordeligskurven ved å tegne diagonalene gjennom hvert tilvekstrektangel.

Eks. Går vi nå tilbake til tabellen på side 10 har vi nå:

Klassegrenser Frekvens fk

Klassemidtpkt.

xk

Relativ frekv.

rk

Kumulativ rel.

frekvens Rk

[

0,5 3 2,5 0,15 0,15

[

5,10 11 7,5 0,55 0,70

[

10,15 6 12,5 0,30 1,00

Framstiller en dette grafisk får en:

Rk

x 5 10 15

Her er mao. kurven diagonalt gjennom rektanglene (som er histogrammet til dataene i tabellen bare tegnet på en litt annen måte) fra punktet (0,0) til punktet (15,1) selve

sumfordelingskurven. Denne kurven skal vi nå bruke til å lese av 1., 2. og 3. kvartil. For å

(26)

finne Q1 lar en Rk =0,25 ( det betyr at man har delt tallmaterialet i to slik at 25% ligger under og 75% ligger over det tallet vi nå søker). En går så fra 0,25 på 2.aksen og horisontalt bort til sumfordelingskurven, deretter går en vertikalt ned til 1. aksen og leser der av Q1:

Q1 Q2 Q3

Herav finner en at Q1 ≈5,8; Q2 =medianen≈8,2 og Q3 ≈10,8. Da har en at IQR

≈10,8-5,8 = 5,0 som er nøyaktig den verdien vi fant ved regning for IQR . Noen andre grafiske framstillingsmåter er:

Kakediagram (Piechart)

Anta at det i en klasse er 15 jenter og 10 gutter. Legger en dette inn i MINITAB og ber om piechart får en følgende bilde:

60,0%J

40,0%

G

C ategory G J J=Jenter

G=Gutter Pie Chart of C2

Stamme- og bladdiagram (Stem and leaf )

Anta at en klasse med 30 elever har hatt en matematikkprøve og resultatene ble:

37, 45, 56, 54, 38, 23, 45, 67, 65, 43, 23, 78, 98, 75, 12, 34, 45, 59, 67, 87, 76, 51, 28, 47, 88, 77, 59, 24, 19, 90.

(27)

Legger en disse tallene inn i en kolonne C1 i MINITAB og gir følgende kommandoer GRAPH

STEM AND LEAF C1

OK Får en følgende ”grafiske ” framstilling:

2 1 29 6 2 3348 9 3 444

14 4 35557 (5) 5 14699 11 6 577

8 7 5678 4 8 78 2 9 08

Av første rad ser en av tallet i første kolonne at det er 2 observasjoner i den første klassen og at disse er henholdsvis 12 ( 1-tallet fra kolonne 2 og 2 tallet fra kolonne 3) og 19 ( 1-tallet fra kolonne 2 og 9-tallet fra kolonne 3). Tallene i kolonne 2 kalles for stammen og tallene i kolonne 3 kalles for bladene. Tallene i kolonne 1 forteller hvor mange observasjoner det er over/under den aktuelle klassen med unntak av klassen hvor medianen ligger. Her indikerer (5) at medianen ligger. Hvis man tegner histogrammet for denne situasjonen vil det ha samme form som tallene helt til høyre (bladene) bare disse dreies 90 grader.

Tidsrekke (tidsserie)-plot

Anta at en mindre bedrift har notert salget av et produkt de siste 8 månedene og funnet 56, 37, 59, 67, 49, 62, 78, 49

Fremstiller en dette i MINITAB via Time Series Plot får en følgende bilde:

Index

C2

10 9 8 7 6 5 4 3 2 1 80

70

60

50

40

30

20

Time Series Plot of C2

(28)

Dette er i realiteten ikke noe annet en et kurvediagram hvor en avsetter tiden langs førsteaksen og de observerte verdiene langs andreaksen. Forskjellen er nå imidlertid at kurven starter i 1.punkt (salget i måned 1) og ikke på selve 1.-aksen som vi gjorde for kurvediagrammet.

Boksplot

En mye brukt enkel figur som samtidig viser minste x-verdi, største x-verdi, og de 3

kvartilene er det såkalte boksplottet som for de 30 karakterene i eksempelet foran blir seende ut som følger:

C1

100

80

60

40

20

0

Boxplot of C1

De 5 målene på sentral tendens som angis i boksplottet kalles ofte på engelsk for the five- number summary i en datamengde.

Selve boksen starter ved Q1 og slutter ved Q3, den horisontale streken gjennom boksen viser medianen de vertikale strekene over og under boksen starter ved den minste x-verdien og slutter ved den største x-verdien. På kalkulatoren blir dette seende ut som følger:

(29)

0 20 40 60 80 100

Enheten på 1.aksen er her 10, mens den på 2.aksen er 1. En ser nå at boksen er lik på de 2 figurene bortsett fra at den siste ligger vannrett.

Det såkalte modifiserte boksplottet angir også eventuelle ”outliere” i datamaterialet.

Anta vi har spurt 15 barn om hvor mange timer de driver med dataspill på en vanlig hverdag.

Resultatet av undersøkelsen ble:

xi : 0, 2, 3, 2, 1, 0, 3, 1, 1, 1, 2, 4, 7, 2, 0 Outlier

1 2 3 4 5 6 7 8 9

En ser her at verdien 7 er en outlier og dermed blir fjernet fra dataene før boksplottet tegnes (dette ser en blant annet av at største verdi nå er 4). Kontroller nå ved hjelp av regning 7 er en outlier og at dette boksplottet er riktig.

Geometriske figurer.

I mange sammenhenger så bruker man geometriske figurer ( trekanter, firkanter, sirkler, tegning av hus, mennesker,…..) når man skal beskrive et tallmateriale. Spesielt ofte brukes det når man skal sammenlikne data for to forskjellige tidspunkt. Figurene tegnes slik at arealet er proporsjonalt med de gitte tallene

Anta for eksempel at omsetningen i år 2004 var 1 million kroner, mens den i 2005 økte til 2 millioner. Hvordan skal dette tegnes ved hjelp av to kvadrater?

Velger man for eksempel en firkant for 2004 som har side 1cm, så må firkanten for 2005 være 2 cm ( hvorfor det?)

(30)

2004 2005

Hvorfor blir det galt å velge side = 2cm for kvadratet for 2005? Hvordan blir dette seende ut hvis man velger sirkler isteden og radius for 2004-sirkelen skal være 2cm?

Normal kvantilplot (Normal quantileplot)

I mange sammenhenger når vi senere skal drive med estimering og hypotesetesting så er en betingelse at tallmaterialet er normalfordelt ( eller tilnærmet normalfordelt)

Det er flere måter å sjekke dette på. En måte er å tegne det såkalt kvantilplottet. Dette gjøres ved først å ordne tallmaterialet fra den minste til den største. Har en for eksempel de n = 4 observasjonene

6,9; 5,8; 6,7; 7,6

(som er trukket på kalk. randNorm(7,1,5) med 1 desimal) så blir dette ordnet:

) :

x(i 5,8; 6,7; 6,9; 7,6

De n = 4 ordnede observasjonene deler nå arealet under normalfordelingen i ( n+ 1) = 5 like store deler som hver har et areal på

5 1 ) 1 (

1 =

+

n = 0,2

En beregner så z-scoren svarende til hver av disse 4 punktene. De blir som følger 84

, 0 ) 20 . 0

20 (

. 0

1 = z =invNorm =− z

2 =

z z0.40 =invNorm(0.40)=−0,25

3 =

z z0.20 =invNorm(0.60)=0,25

4 =

z z0.20 =invNorm(0.80)=0,84

En framstiller så punktene (zi,x(i))i et zx- koordinatsystem, mao. punktene (-0.84, 5.8), (-0.25, 6.7), (0.25, 6.9) og (0.84, 7.6)

Hvis disse punktene blir liggende tilnærmet på en rett linje så konkluderer en med at tallene kommer fra en normalfordelt populasjon. Legger en tallene inn på kalkulatoren, får en følgende grafiske bilde:

(31)

x

z -1 -.5 0 .5 1

En ser at punktene tilnærmet ligger på svakt stigende rett linje, og konkluderer dermed at dataene er trukket fra en normalfordelt populasjon.

Hvis man nå isteden velger å bruke MINITAB ved først å legge de 4 observasjonene inn i kolonne 1 (=C1) og så bruke kommandoene:

STAT

BASIC STAT

Normality test Select C1

Anderson-Darling så får en følgende resultat:

C1

Percent

8,5 8,0 7,5 7,0 6,5 6,0 5,5 5,0 99

95 90 80 70 60 50 40 30 20 10 5

1

Mean

0,660 6,75 StDev 0,7416

N 4

A D 0,207

P-Value

Probability Plot of C1 Normal

(32)

Legg merke til at MINITAB avsetter de observerte x-verdiene langs førsteaksen og de kumulerte prosentvise z-scorene langs andreaksen. En ser også her etter om punktene blir liggende (ev tilnærmet liggende) på en rett linje. Det testes (se hypoteseprøving) også om dataene er normalfordelte gjennom følgende nullhypotese og alternativ hypotese:

0:

H Dataene er trukket fra en normalfordelt populasjon mot

HA:Dataene er ikke trukket fra en normalfordelt populasjon

En ser at MINITAB angir en P-verdien på 0,66. Dette betyr mao. at H0 ikke kan forkastes.

Det er ganske sterke signaler på at H0 er rett.

De to andre testene i MINITAB, Ryan-Joiner og Kolmogorov-Smirnov, gir helt tilsvarende resultater dog med litt lavere P-verdi.

Hvis dataene ikke er normalfordelte så kan man prøve om det hjelper med en transformasjon.

Noen vanlige transformasjonene hvis dataene inneholder for mange store verdier er:

Logaritmisk transformasjon, dvs. beregn y = ln(x) Kvadratrottransformasjon, dvs. beregn y = x Invers transformasjon, dvs. beregn

y 1x

=

Test så om de nye dataene (y-verdiene ) er normalfordelte ved en av testmetodene over.

Noen andre vanlige transformasjoner hvis tallmaterialet inneholder for mange små verdier er:

Potenstransformasjon, dvs. beregn y =xa der a >1

Eksponentiell transformasjon, dvs. beregn y =ax der a >1 Test så om de nye dataene (y-verdiene ) er normalfordelte ved en av testmetodene over.

Hvis ikke noe av dette fører fram så finnes det såkalte ikkeparametriske tester som kan brukes.

4. Enkel regresjon.

Anta man har n parobservasjoner (xi,yi) der xi er gitte verdier av en tilfeldig variabel X og yi er verdien av en tilfeldig variabel Y.

(33)

x1 x2 x3 ………….. xn

y1 y2 y3 ………….. yn

Avsetter man punktene (xi,yi), i = 1,2,3,….,n i et xy-koordinatsystem fremkommer det såkalte spredningsdiagrammet (the scatterplot) :

Eks. Anta man har observert følgende sammenheng mellom X og Y.

x 1 2 3 4 4 5 6 6 7 8 9 10

y 2 3 4 4 5 5 7 8 7 9 10 12

Spredningsdiagrammet blir i dette tilfellet

C1

C2

10 8

6 4

2 0

12

10

8

6

4

2

Scatterplot of C2 vs C1

Ser en på spredningsdiagrammet observerer man at det er en positiv rettlinjet trend i sammenhengen mellom x og y. Dette kan da beskrives ved følgende modell (husk at en modell er en etterlikning og forenkling av virkeligheten ( som her er representert ved de 12 parobservasjonene)):

ε β α+ +

= x

y der ε er N(0,σ2) (*)

ε kalles ofte støyen ( eller feilleddet, eng.:the error) og antas å være normalfordelt med forventning 0 og med en varians σ2( se normalfordelingen s 40)

βx

α+ kalles ofte for regresjonslikningen (den teoretiske (eller sanne)) for y med hensyn på x, eller av og til for signalet. Det betyr at man kan si at y = ”signal” + ”støy”. I statistikk er det vanligst å angi likningen for en rett linje med a+bx istedenfor ax+b som er vanligst norske matematikkbøker. Modellen (*) over gjelder selvfølgelig for alle n observasjonsparene. Ofte beskrives modellen derfor noe mer presist som følger:

De tilfeldige variablene Y1,Y2,...,Yn(gitt de tilsvarende x-ene) er uavhengige med

(34)

forventning =µYx =α+β x og varians = σ2

eller ekvivalent

n i

e x

Yi =α+β i + i, =1,2,..., der e1,e2,...,en er n uavhengige feilledd som har

forventning = 0 og varians =σ2

LikningenµY x =α+βx kalles ofte for populasjonsregresjonslikningen for Y m.h.t. x.

Denne skal vi prøve å estimere ved hjelp av et utvalg av n observasjonspar. Vi kan da finne en såkalt estimert regresjonslikning eller en såkalt utvalgsregresjonslikning som betegnes ved

x b a yˆ= +

Denne vil da kunne brukes til å estimere fremtidige verdier av Y, dvs. å lage prognoser. a og b er da estimater for henholdsvis αog β . Disse finner en ved hjelp av den såkalte minste kvadraters metode, som går ut først å beregne avvikene

i i i observert yverdi estimertyverdi y y

e = − = − ˆ for all de n punktene

C1

C2

10 8

6 4

2 0

12

10

8

6

4

2

Scatterplot of C2 vs C1

Det betyr at i hvert eneste punkt så beregnes avviket mellom den observerte y-verdien og den y-verdien den ukjente linja yˆ=a+bx(det som er ukjent er a og b; det som er kjent er at det vi skal finne er en rett linje). Man beregner først

)

ˆi i ( i

i

i y y y a bx

e = − = − + for i = 1, 2, 3,……,n

Nå kvadreres alle disse avvikene og deretter adderes de. Man beregner m.a.o.

Referanser

RELATERTE DOKUMENTER

Boken er meget godt egnet for innføringskurs i anvendt statistikk på høgskole- og universitetsnivå, for eksempel innen de nevnte fagfeltene.. Første utgave av Statistikk

Kapitlene omhandler diagnostikk, behandling (psykoterapi, farmakoterapi og elektrokonvulsiv terapi), det som oppfattes som de viktigste diagnosegruppene: schizo- freni og

Kommenter hvorfor resultatene er ulike, selv om den relative hastigheten mellom kilde og observatør er lik i begge tilfeller?. 2

Finn Euler-likningen for dette problemet, og finn løsningen y ∗ av Euler-likningen som også tilfredsstiller initialbetingelsene. Finn Euler-likningen for dette problemet, og

Vis også at hvis A er en kvadratisk invertibel matrise, så er B positiv

Summer elementene i lista og legg i en variabel som heter $sum Beregn gjennomsnittet av lista og legg i en variabel som heter $avg Finn det største tallet i lista, og plasser det

Kommenter gjerne hvordan du anser dette tilslaget er egnet til betongformål Beskriv hva som menes med følgende :. Størkningsfase og herdefase

Standard- Virkelig kostn. m) Beregn lønnssatsavviket og kommenter mulige årsaker til dette avviket. Nærmere analyser av driftsregnskapet for akkurat april viser at det er