Formelsamling i medisinsk statistikk
• Versjon av 5. juni 2009
• Dette er en formelsamling til O. O. Aalen (red.): Statistiske metoder i medisin og helsefag, Gyldendal, 2006.
• Merk at boken har en nettside der det er lagt ut rettelser og supplerende stoff, se http://www.med.uio.no/imb/stat/statbok/
Gjennomsnitt
= 1
(1+2+3+· · ·+)
Median
Alle observasjoner ordnes i stigende rekkefølge. Vedulike antall observasjoner, er medianen definert som den midterste av dem.Ved like antall, er medianen definert som gjennomsnittet av de to midterste.
Standardavvik
= vu ut 1
−1 X
=1
(−)2
Grupperte data
Intervallmidtpunkter1 2 . Hyppigheter 1 2 . Totalt antall observasjoner: . Gjennomsnitt og standardavvik er gitt ved:
= 1
(11+22+· · ·+) = 1
X
=1
= vu ut 1
−1{ X
=1
(−)2}
Median ogfraktiler for grupperte datafinnes ved lineær interpolasjon.
Insidens og prevalens
Prevalens angir andelen i befolkningen som har en viss sykdom.
Insidensraten beregnes som antall nye tilfeller av sykdommen over et tids- intervall, dividert med totalt antall personår under risiko.
Regneregler for sannsynlighet
Hvis begivenhetene og er disjunkte has
(∪) =() +() For alle begivenheter og has
(∪) =() +()−(∩) Definisjon avbetinget sannsynlighet
(|) =(∩)
() Begivenheteneog eruavhengige hvis
(∩) =()·()
En tilsvarende produktregel er gyldig om vi harflere uavhengige begivenheter.
Regelen omtotal sannsynlighet
() =(|)·() +(|)·() Bayes’ lov
(|) = ()(|)
()(|) +()(|)
Diagnostiske tester
Sensitivitet: Sannsynlighet for positiv test gitt at det foreligger sykdom.
Spesifisitet: Sannsynlighet for negativ test gitt at det ikke foreligger sykdom.
Positiv prediktiv verdi: Sannsynlighet for at det foreligger sykdom gitt postiv test.
Negativ prediktiv verdi: Sannsynlighet for at det ikke foreligger sykdom gitt negativ test.
Kombinatorikk
Trekning avkuler fra en boks medkuler.
Antallordnede utvalg med tilbakelegging
Antallordnede utvalg uten tilbakelegging
(−1)(−2)· · ·(−+ 1) Antallikke-ordnede utvalguten tilbakelegging
µ
¶
=(−1)(−2)· · ·(−+ 1)
!
Forventning og varians for teoretisk fordeling
E() = X
alle
( =) Var() = X
alle
(−E())2( =)
Regneregler for forventning og varians
E(+) =E() +
Var(+) =2Var() SD(+) =||SD() E(1+2+· · ·+) = E(1) + E(2) +· · ·+ E() Hvis1 2 er parvisstokastisk uavhengige has:
Var(1+2+· · ·+) = Var(1) + Var(2) +· · ·+ Var()
Binomisk fordeling
Sannsynligheten for at en begivenhetinntrefferganger i løpet avbinomiske forsøk, er
( =) = µ
¶
(1−)− = 01 Forventning og varians i binomisk fordeling er gitt ved:
E() = Var() =(1−)
Poissonfordeling
Sannsynligheten forforekomster, når forventning er lik, er gitt ved:
(=) =−
! for = 012 Forventning og varians er gitt ved:
E() = og Var() = Poissonfordelingen anvendes også ved Poissonprosesser.
Normalfordeling
En stokastisk variabel sies å være normal( )hvis den følger en normal- fordeling med forventning (sentrum) og standardavvik (spredning) . Den standardiserte variable = (−)er normal (0,1). Sannsynlighetstettheten til normalfordelingen er gitt ved følgende formel:
() = 1
√2exp(−(−)2 22 ) derexp()er det samme som eksponensialfunksjonen.
Formler for gjennomsnitt
La være gjennomsnittet av de uavhengige varablene 1 2 . Da gjelder:
E() = Var() = 2
SD() =
√ =
√ Hvis variablene også er normalfordelte, vil et konfidensintervall være gitt ved
±
derbestemmes ut fra Studentfordelingen med−1frihetsgrader.
En teststørrelse er gitt ved
= −
=−
√
og denne er Studentfordelt med−1frihetsgrader når0: =gjelder.
Sammenlikning av pardata
Man tar differansen innenfor hvert par og bruker konfidensintervallet og test- størrelsen over med= 0. Forutsetningen er at differansene er uavhengige og normalfordelte.
Sammenlikning av to gjennomsnitt
Vi forutsetter uavhengige og normalfordelte observasjoner. Forøvrig antas gjen- nomsnittene å komme fra to uavhengige utvalg. Følgende teststørrelse er Stu- dentfordelt med1+2−2frihetsgrader når0gjelder
= 1−2
q1
1 +1
2
der er definert ved
= s
(1−1)21+ (2−1)22
1+2−2 Et konfidensintervall er gitt ved
1−2±
r 1
1+ 1
2
derer bestemt av Studentfordelingen med1+2−2frihetsgrader.
Poissonfordeling som tilnærming til binomisk fordeling
Binomisk fordeling kan tilnærmes med en Poissonfordeling hvis:
(1) ≤005 og (2) ≥50
Normalfordeling som tilnærming til binomisk fordeling
Når i en binomisk fordeling er så stor at ≥ 5 og (1−) ≥ 5, vil den binomiske fordelingen likne mye på en normalfordeling med parametre
= =p
(1−)
Normalfordeling som tilnærming til Poissonfordeling
Nåri en Poissonfordeling er minst lik 5, vil Poissonfordelingen likne mye på en normalfordeling med parametre
= =√
Estimering av sannsynlighet (andel)
Hvis det er observert forekomster ved binomiske forsøk, er estimatet for sannsynlighetengitt ved∗, mens estimert standardfeil er gitt ved
∗= =
r∗(1−∗)
Fordelingen til ∗ er tilnærmet normalfordelt under de samme forutsetninger som for binomisk fordeling, med=og=
q(1−)
. Et 95% konfidensintervall for ∗ er gitt ved
∗±2
Testing av nullhypotese om en sannsynlighet
= −0
p0(1−0)
Teststørrelse for sammenlikning av to sannsynligheter (an- deler)
= ∗1−∗2 q
(11 +12)(1−)
Konfidensintervall for differanse mellom to andeler
∗1−∗2±196 s
∗1(1−∗1)
1
+∗2(1−∗2)
2
Teststørrelse for sammenlikning av to Poissonvariabler
= 1−2
√1+2
Konfidensintervall for relativ risiko
Relativ risiko:
= (+)
(+) Hjelpestørrelse:
= r1
+1
− 1
+− 1
+ 95% konfidensintervall for:
(×−196 ×196)
Konfidensintervall for odds-ratio
Odds-ratio:
=
= ·
· Hjelpestørrelse:
= r1
+1
+1
+1
95% konfidensintervall for:
(×−196 ×196)
Kji-kvadrattest
Kji-kvadrattesten for en2×2-tabell kan beregnes ut fra følgende formel:
2= (−)2 (+)(+)(+)(+)
Formelen er basert på oppsettet i tabellen øverst s. 130 i læreboken, der er summen av tallene i tabellen. Formelen er ikke gitt i boken, men gir samme svar som beregningen av størrelsen på s. 136.
En formel som også er gyldig for større tabeller, medkolonner ograder, er den følgende:
2=X(−)2
Her er og det observerte og forventede antall forekomster i de enkelte celler og summen skal tas over alle cellene i tabellen. Antall frihetsgrader i kji-kvadratfordelingen er (−1)×(−1). For en 2×2-tabell gir dette én frihetsgrad.
Regresjonsanalyse
Helningskoeffisienten,, og skjæringspunktet med-aksen,, for minste-kvadraters- linjen er gitt ved
ˆ=2 ˆ=−ˆ
der og er standardavvikene til henholdsvis x- og y-verdiene, mens er definert ved
= 1
−1 X
=1
(−)(−) Minste kvadratsum er gitt ved
rest= X
=1
(−ˆ−ˆ )2= (−1)(2−ˆ )
Standardavvik som måler variasjonen i punktene rundt den beste linjen:
reg = r rest
−2 Konfidensintervall forˆ bestemmes ut fra formelen:
ˆ± reg p(−1)2
derbestemmes ut fra en studentfordeling med−2frihetsgrader.
Korrelasjon
Korrelasjonskoeffisienten er definert på følgende måte:
=
Utvalgsstørrelse
Parallellgruppestudie — målevariabler:
= 2³
∆
´2
· Overkrysningsstudie — målevariabler:
=³
∆
´2
· Utvalgsstørrelse — binomisk responsvariabel:
=1(1−1) +2(1−2) (2−1)2 ·
bestemmes av tabellen:
Teststyrke 0.80 0.90 0.95 Siginifikans- 0.10 6.2 8.6 10.8
nivå 0.05 7.9 10.5 13.0
(tosidig) 0.01 11.7 14.9 17.8
Utvalgsstørrelse basert på presisjon i estimater
Binomisk respons:
= µ196
¶2
(1−) Kontinuerlig respons:
=
µ196·
¶2