1
«Fake it ‘till you make it»
En pilotstudie av Inventory of Problems – 29 med en simuleringsstudie på et norsk, ikke-klinisk utvalg
Simon Rekkedal Rolfsnes
Innlevert som hovedoppgave ved Psykologisk Institutt, Universitetet i Oslo
Høst 2021
Dato 18.10.21
2
3
Oppsummering
Hovedoppgavens tittel: «Fake it ‘till you make it”. En pilotstudie av Inventory of Problems – 29 med en simuleringsstudie på et norsk, ikke-klinisk utvalg.
Veiledere: Cato Grønnerød (hovedveileder) og Kristin Gustavson (biveileder) Forfatter: Simon Rekkedal Rolfsnes
Bakgrunn: Studien som denne hovedoppgaven baserer seg på inngår i et pilotprosjekt for det større prosjektet «Personlighet og plager» ved Universitetet i Oslo. Utgangspunktet for denne hovedoppgaven er behovet for å etablere en norsk versjon av flere tester for at
gjennomføringen av «Personlighet og plager» skal være mulig er.
Mål: Formålet med studien var å oversette og validere den norske versjonen av Inventory of Problems – 29 (IoP-29). Videre undersøkte vi to hypoteser: Den norske versjonen av IoP-29 kunne skille mellom en ikke-klinisk kontrollgruppe og eksperimentelle simulanter av depresjon, og funnene vil ikke avvike for mye fra tidligere studier.
Metode: Vi samlet inn data ved et bekvemmelighetsutvalg. Vi utarbeidet lenker som førte til en Internettside for prosjektet «Personlighet og plager» ved Universitetet i Oslo for deltakelse i studien. Disse ble spredt utover ulike annonsenettsider, sosiale medier og per e-post.
Deltakerne ble fordelt tilfeldig mellom to eksperimentelle betingelser.
Resultater/funn: Utvalget (N = 275) ble fordelt i en ærlig svarbetingelse (n = 138) og eksperimentelle simulanter (n = 137) som ble bedt om å simulere depresjon. Tilordnet
betingelse hadde en klar og signifikant effekt på sannsynlighetsskåren Inventory of Problems – False Disorder Score (IoP-FDS) (Cohen’s d = 2.39, p < .001). Point biserial-korrelasjonen mellom IoP-FDS og tilordnet betingelse var .77, p <.001. Area under the curve (AUC) var .94 (SE = .01). Vi fant ingen signifikante effekter for kjønn, aldersgruppe eller utdannelse på IoP- FDS. En cut-off på IoP-FDS på ≥.50 gav sensitivitet = .77, spesifisitet = .93, Positive
Predictive Power = .91, Negative Predictive Power = .81, og Overall Correct Classification = .85 for det norske utvalget. Resultatene taler for et cut-off på ≥.30 ved screening for å fange opp simulering, samt at IoP-FDS ≥.44 fremstår som fullverdig alternativ til ≥.50.
Konklusjon: Den norske oversettelsen av Inventory of Problems – 29 er valid i å skille mellom eksperimentelle simulanter og en ikke-klinisk kontrollgruppe. Funnene støtter begge hypoteser.
4
5
Takksigelser
Jeg vil rette en stor takk til veilederne mine – Cato Grønnerød og Kristin Gustavson. Cato har vært en stødig, klok og trygg leder av prosjektet; jeg kjenner meg heldig som har fått ha ham som veileder. Kristin har vært en fryd å samarbeide med; hjelpsom, dyktig og kunnskapsrik, en bedre biveileder skal man leite lenge etter.
Jeg vil også takke mine to medstudenter og samarbeidspartnere i datainnsamlingen – Linn Øwre og Pia Pran. De har vært kreative og proaktive sparringspartnere som har hjulpet å holde koken i arbeidet gjennom flere semestre.
En varm takk til alle som har deltatt i studien, denne oppgaven er ikke mulig uten dere.
Jeg vil takke familie, venner og alle medvandrere som har hjulpet og støttet meg gjennom studiene – dette er også deres fortjeneste.
Til sist vil jeg også takke alle mennesker som jeg har fått møte gjennom mitt virke som studentterapeut – dere har styrket meg i troen på å ha valgt rett vei og er med meg videre.
6
7
Innholdsfortegnelse
Oppsummering ... 3
Takksigelser ... 5
1 Innledning ... 8
1.1 Oversettelse og validering av oversettelser ... 8
1.1.1 Norske ord for engelske begreper i faglitteraturen ... 10
1.2 Svarstiler og generell testatferd ... 10
1.3 Simulering ... 11
1.3.1 Strategier for å avdekke foregivelse ... 14
1.3.2 Relevante validitetsmål ved avdekking av foregivelse ... 15
1.3.3 Forekomst ... 18
1.4 Ulike mål for kartlegging av foregivelse ... 19
1.4.1 Inventory of Problems – 29 (IoP-29) ... 20
1.4.2 Empiri for IoP-29 sin validitet ved simulering av depresjon ... 22
1.5 Problemstilling ... 23
2 Metode ... 24
2.1 «Personlighet og plager» ... 24
2.2 Oversettelse ... 24
2.3 Pilotstudien ... 25
2.3.1 Utvalg ... 25
2.3.2 Prosedyre ... 26
2.3.3 Analyser ... 26
3 Resultater ... 27
3.1 Utvalget ... 27
3.2 Resultater fra analysen... 30
4 Diskusjon ... 35
Referanser ... 41
Appendiks A: Vignett for simulering av depresjon ... 47
8
1 Innledning
“Fool me once, shame on – shame on you. Fool me – you can’t get fooled again.”
George W. Bush jr.
Holdbarheten i testresultatene vekker noen ganger tvil i klinisk praksis og
sakkyndighetsarbeid. Holdepunkter og grad av tvil ved slike mistanker kan variere vidt.
Tvilen innebærer ofte å vurdere beslutninger som kan få store konsekvenser for dem det angår. Pasienter som beskyldes for å overrapportere symptomer eller klienter som for eksempel mistenkes for svindel i en rettighetssak risikerer alvorlige konsekvenser, som feilbehandling, justismord, osv. Muligheten for å innhente konkrete holdepunkter som grunnlag for en grundig faglig vurdering er avgjørende.
Denne hovedoppgaven baserer seg på et delstudium som del av et pilotprosjekt.
Pilotprosjektet er første fase av den større studien «Personlighet og plager» ved Universitetet i Oslo. Vi undersøker egenskapene til et konkret simuleringsmål som nå oversettes til norsk for første gang. Formålet med delstudien er å validere denne norske oversettelsen på et norsk utvalg. Simulering er en bestemt form for svarstil knyttet til uriktig rapportering av psykologisk funksjon eller symptombilde.
Vi har utført en eksperimentell simuleringsstudie i tillegg til oversettelsen. Vi tester to hypoteser. Første hypotese er at simuleringsmålet vil kunne skille mellom forsøk på
simulering og ærlige besvarelser blant ikke-pasienter. Andre hypotese er at resultater fra bruk av den norske oversettelsen ikke vil avvike for mye fra tidligere studier.
Hovedoppgaven går først igjennom litteratur og teori knyttet til oversettelse, simulering og Inventory of Problems – 29 (IoP-29). Deretter beskriver jeg metode og resultater, fulgt av en diskusjon av funnene fra denne studien.
1.1 Oversettelse og validering av oversettelser
De internasjonale retningslinjene for oversettelse og tilpasning av tester (ITC) ble etablert i 1992 og oppdatert i 2005 (Correa, 2018). Valideringen av en oversatt test må foregå separat
9 fra originalversjonen (International Test Commision, 2017). Anbefalingene i faglitteraturen er å følge standardiserte retningslinjer for selve prosessen med å oversette (Van de Vijver &
Hambleton, 1996). Oversetterne bør ha profesjonell, psykologfaglig kompetanse og kyndighet i de språkene som det oversettes imellom. Dette er for å sikre at leddene blir forstått på
tilsvarende vis i størst mulig grad på tvers av de valgte språkene og kulturene (International Test Commision, 2017).
Tilbakeoversettelse er en slik prosess hvor man benytter seg av to oversettere med kompetanse i språkene det oversettes imellom. Begge oversettere jobber uavhengig av hverandre. Den ene skal oversette fra originalspråket til det valgte språket, mens den andre oversetter denne tilbake til originalspråket (Brislin, 1970). Etter prosessen sitter man igjen med to versjoner av testen på originalspråket og én med det valgte språket man oversetter testen til. Meningsinnholdet i sistnevnte kan man undersøke ved eventuelle språklige
forskjeller i de to versjonene på originalspråket. For å styrke resultatet kan man benytte seg av flere med kompetanse i begge språk til å vurdere disse versjonene opp mot hverandre og avklare eventuelle språklige misforhold (Brislin, 1970). Tilbakeoversettelse er den foretrukne metoden for faglitteraturen innen simuleringsfeltet (Correa, 2018).
Flere konsepter er foreslått for å bedømme validiteten til oversettelser opp mot
originalversjonen av en test. Innholdsekvivalens viser til relevans og gjenkjennelse på tvers av kulturelle referansegrupper (Jeanrie & Bertrand, 1999). Konseptuell ekvivalens viser til i hvilken grad meningsinnholdet i et konsept målbæres av et gitt ledd (Jeanrie & Bertrand, 1999). Lingvistisk ekvivalens viser til i hvilken grad ordlyden i oversettelsen er direkte
tilsvarende mellom versjonene (Jeanrie & Bertrand, 1999). Funksjonell ekvivalens handler om i hvilken grad bestemte handlinger i bestemte situasjoner har en funksjonell likhet på tvers av kulturer (Lonner, 1985). Forskjeller i betydningen av en gitt praksis innen institusjoner, sedvaner og ritualer vil være relevant. De internasjonale retningslinjene vektlegger
funksjonell over bokstavelig likhet/ekvivalens i oversettelsene (International Test Commision, 2017). Man kan vurdere i hvilken grad man har en funksjonell ekvivalent oversettelse ved å undersøke respons på oversettelsen med det valgte språket opp mot resultater fra
originalspråket (Brislin, 1970). Alternative cut-off kan etableres ved validerte oversettelser av en test for å ta høyde for kulturelt betingede svarstiler (Correa, 2018).
10
1.1.1 Norske ord for engelske begreper i faglitteraturen
For å kunne oppnå samme evne til å nyansere fagfeltet på norsk er det viktig å etablere tilsvarende ord og uttrykk. Engelske ord som gjerne går igjen i faglitteraturen er malingering, simulation, feigning og factitious. Jeg vil gjennomgå noen forslag til norske ord.
Søk på «Malinger» ved Dinordbok.no gir resultatet «simulere, spille syk»
(https://www.dinordbok.no/engelsk-norsk/?q=malinger). Simulering er fra før etablert som det tilsvarende begrepet for malingering i norsk faglig sammenheng (Malt, 2020). Flere av de andre søkene gir som regel treff med simulering som oversettelse. Selve utfordringen med tanke på nyansering og presisjon på norsk er nettopp denne mangelen på etablerte begreper.
Alternative begreper, som ikke samtidig er et uttrykk (i likhet med å «spille syk»), vil være en fordel.
Søk ved Det Norske Akademis Ordbok på å foregi gir betydningen «opplyse noe usannferdig (som grunn, unnskyldning)» (https://naob.no/ordbok/foregi). Å foregi er et mer generelt begrep som omfatter det å opplyse noe usannferdig uten hentydning til motivasjon, i tråd med betydningen i faglitteraturen. Jeg velger derfor å gå videre med «å foregi/foregivelse» for det engelske ordet «feigning».
«Factitious» på ordnett.no gir treff på forslaget «kunstig, kunstig skapt» fra Stor engelsk ordbok (https://www.ordnett.no/search?language=en&phrase=factitious). Gjerne brukt mer spesifikt om symptomfremstillinger.
Jeg vil derfor bruke simulering om engelske «malingering», eksperimentell simulering der hvor man på engelsk bruker «simulation» i forbindelse med studier, og foregivelse i stedet for engelske «feigning» videre i teksten. «Factitious» er direkte oversatt til det norske ordet kunstig.
1.2 Svarstiler og generell testatferd
Psykometri lener seg på antakelsen om at man kan tallfeste og måle psykologiske fenomener på en meningsfylt måte ut fra teoretiske begreper og definisjoner (Borsboom & Molenaar, 2015). Å besvare et ledd gir et konkret atferdsuttrykk i form av en observerbar variabel.
Samlet vil leddene gi informasjon om en latent variabel, som gjerne er konstruktet en test er
11 satt til å måle. Selvrapporterte mål med en mer direkte stil går ut ifra en antagelse om at respondentene har tilgang til en større mengde informasjon om seg selv (Paulhus & Vazire, 2007). Testtakeren forventes å kunne svare så korrekt som mulig på klare og direkte spørsmål.
Man legger med andre ord til grunn at alle svarer ærlig på spørsmålene man blir forelagt i et skjema. Alle er ekspert på sine egne opplevelser og erfaringer. Samtidig er begrensingene i selvinnsikt og motivert besvarelse en erkjent utfordring ved selvrapporterte mål (Paulhus &
Vazire, 2007). Å besvare et skjema er en atferd i egen rett og et psykologisk fenomen som kan gjøres til gjenstand for psykologisk forståelse. Responsskjevhet (response bias) er definert som en systematisk tendens til å besvare gitte testledd med et annet utgangspunkt enn det spesifikke innholdet i leddet (Paulhus, 1991). Måten man forholder seg til en test med en slik skjevhet i besvarelsen over tid og på tvers av ulike situasjoner kalles en svarstil (Jackson &
Messick, 1958; Paulhus, 1991).
Flere medvirkende faktorer bidrar til at noen velger å svare ærlig på en psykologisk test.
Vedkommende kan være nysgjerrig på seg selv (reflekterende), handle ut ifra et ønske om å bidra til forskning (altruisme), gjøre som en oppfattet autoritet sier (konformitet), opptre ut ifra en moralsk overbevisning (verdigrunnlag) og/eller å fremstå pålitelig overfor andre (positiv selvfremstilling), osv. Alle disse momentene bidrar til å komplisere spørsmålet om validitet. Mennesker kan velge å ikke svare ærlig – og gjør det relativt ofte (Rogers, 2018a).
1.3 Simulering
Å skille mellom ulike grader av uriktig fremstilling er viktig for å kunne danne seg mer presise hypoteser. Foregivelse (feigning) er definert ovenfor som å opplyse noe usannferdig som grunn og rommer ingen antagelser om motivasjon, bare at dette har skjedd (Rogers, 2018a). Foregivelse et mer overordnet begrep med en viss grad av tvil om hva som ligger til grunn.
Simulering (malingering) er mer spisset og forutsetter en klar ytre motivasjon for viljestyrt produksjon eller grov overdrivelse av symptomer (Rogers, 2018a). Ett eksempel er å late som om man er kraftig forkjølet for å få sykemelding fordi man heller ønsker å dra på en ferietur.
Feltet mangler enighet om kriterier og definisjon av simulering, med variasjon på tvers av ulike sammenhenger. En alternativ definisjon av simulering bytter ut ordet produksjon med presentasjon for å favne bredere (Young, 2015).
12 Innen helsevesenet skiller man mellom ulike tilfeller av foregivelse med egne diagnosekoder.
Enkelte former for foregivelse regnes for å være psykiske lidelser i egen rett. Pasienter klassifiseres etter ICD-10 basert på kvaliteten og varigheten av motivasjonen knyttet til foregivelsen. Diagnosen F68.1 Selvpåført lidelse eller tillært sykdom stilles ved følgende kriterier: Først kunne påvises et vedvarende mønster av gjentatte forsøk på å foregi symptomer. Forsøkene skal være enten viljestyrt produksjon eller foregivelse av enten symptomer eller dysfunksjon av enten fysisk eller psykisk art, eller selvpåført skade med hensikt å produsere symptomer. Kriteriene for F68.1 er innfridd dersom det ikke foreligger hverken klar motivasjon eller andre bekreftede psykiske eller fysiske lidelser (WHO, 2011). I mer alvorlige tilfeller karakteriseres lidelsen som Münchhausens syndrom (Schrader, Aasly &
Bøhmer, 2017). Tilfeller hvor man mener å ha påvist et bevisst forsøk på å simulere sykdom med tydelig ytre motivasjon skal det kodes med Z76.5 Simulant.
Malingered Neurocognitive Dysfunction (MND) er foreslått som en nevropsykologisk diagnose for simulering med tilhørende kriterier (Slick, Sherman & Iverson, 1999) kjent som Slick-kriteriene (Rogers, 2018a). Slick et al. definerer MND som en «viljestyrt overdrivelse eller fabrikasjon av kognitiv dysfunksjon i den hensikt å oppnå betydelig materiell vinning, eller for å unngå eller unnslippe formelle plikter eller ansvar». I tillegg har de utarbeidet diagnostiske kriterier for ulike grader av sikkerhet knyttet til simuleringen – mulig, sannsynlig og definitiv. Kriteriene for definitiv simulering er (1) tilstedeværelse av minst ett klart
identifiserbart ytre insentiv av betydning for overdrivelsen eller fabrikasjonen av symptomer, (2) definitiv negativ responsskjevhet, vist ved besvarelse som er dårligere enn ren tilfeldighet (p < .05) på en eller flere kognitive funksjonsmål med tvunget valg, og (3) atferden til grunn for de foregående kriteriene kan ikke forklares av alternative psykiatriske, nevrologiske eller utviklingsmessige faktorer.
Rogers (1990a) foreslår noen atferdsmessige kjennetegn ved simulering av psykiske lidelser med støtte i forskning som diagnostiske kriterier (Rogers, 1990a). Disse inkluderer:
Fremstilling av sjeldne symptomer som få faktiske pasienter melder å ha (Rogers, 1990b) og som er statistisk usannsynlige, høyt antall rapporterte symptomer, valg av svært uttalte og tydelige symptomer, samt valg av mer alvorlige og dramatiske symptomer (Rogers, 1990a).
Kunstig (factitious) symptomfremstilling viser til viljestyrt produksjon eller grov overdrivelse av symptomer med en klar indre motivasjon (Slick et al., 1999). Et eksempel vil være å tilføre blod i urinposen under et sykehusopphold i håp om å forlenge oppholdet fordi man føler seg tryggere på et sykehus.
13 I praksis vil indre og ytre motivasjon ofte sammenfalle og være vanskelige å skille (Slick et al., 1999). Nytteverdien med å presisere grad av usikkerhet er å motvirke en tendens til raske bedømmelser i klinisk praksis. Overgeneraliseringer av tidligere erfaring, bekreftelsesbias, skråsikkerhet og sjargong ved den enkelte klinikken er eksempler på slike raske bedømmelser (Rogers, 2018a).
Flere ulike forklaringsmodeller tar sikte på å belyse underliggende motivasjon ved simulering.
Rogers (1990b) argumenterer for et skille mellom forklaringsmodeller og modeller for oppdagelse av simulering. Jeg gjennomgår kort den kriminologiske modellen,
tilpasningsmodellen og den patogene modellen. Den kriminologiske modellen ser på simulering som en dyssosial handling begått av et dyssosialt individ (Rogers, 2018a). I motsatt tilfelle er man en lovlydig borger som fremstiller symptombildet riktig. Trekkbaserte tilnærminger til simulering som denne regner svarstiler som mulig forankret i personlighet.
DSM-III-R inkluderte blant annet antisosial personlighetsforstyrrelse som indikator for økt sannsynlighet for simulering (American Psychiatric Association, 1987), noe som har blitt kritisert for å være moralistisk og uten evidens (Rogers, 1990b).
Tilpasningsmodellen fremstiller simuleringsprosessen som en beslutning der noen velger å foregi psykiske symptomer som følger av en kost-nytte-vurdering (Rogers, 2018a). Prosessen begynner ifølge modellen med at personen oppfatter en vurdering som ufrivillig eller uønsket (Rogers & Cavanaugh, 1983). Personen har en oppfatning av at vedkommende har noe å tape på selvavsløring eller tilsvarende vinning på å simulere, uten bedre handlingsalternativer.
Dette er en avgjørende forutsetning for at simulering skal finne sted ifølge
tilpasningsmodellen (Rogers, 1990b; Rogers & Cavanaugh, 1983). Simulering som fenomen vil etter denne modellen være et høyst dynamisk og sammensatt fenomen. Hvorvidt forsøket lykkes avhenger av personens løpende oppfatning av situasjonen og forhåndskunnskaper om psykisk helse. Forståelse av simulering som en mestringsstrategi i møte med en situasjon hvor mye står på spill reduserer de moralistiske undertonene ved å skulle lyve i en vurdering (Rogers & Cavanaugh, 1983).
Den patogene modellen fremmer en hypotese om at det foregitte symptombildet kommer av et forsøk på å håndtere en annen underliggende lidelse eller reell svekkelse (Rogers, 1990b). Et sentralt moment ved hypotesen er en prediksjon om at det foregitte symptombildet kommer ut av kontroll etter hvert som den underliggende tilstanden forverrer seg (Rogers, 2018a; Rogers, Sewell & Goldstein, 1994).
14 Ett annet forsøk på å konseptualisere simulering i faglitteraturen lyder: «En person-situasjon- interaksjon med et utviklingsforløp som forsterkes av sterke insentiver over tid» (Rogers, 1988; Viglione, Giromini & Landis, 2017, s. 535) Skillet mellom dette og flere andre tilnærminger blir derimot uklart. Tildekking eller en defensiv svarstil (defensiveness) er det motsatte av simulering, hvor en person søker å skjule eller minimere symptombildet av ulike årsaker (Rogers, 2018a). Instrumentalitet viser til det å bruke noe til egen vinning utover det opprinnelige formålet. Begrepet favner derimot bredere i å beskrive en generell tilnærming preget av utnyttelse. Instrumentalitet ligner på simulering i den forstand at simulering vil være en konkret måte å bruke en selvrapportmetode til egen vinning. Alle disse kan fanges av konseptualiseringen over, noe som understreker de generelle utfordringene med presisjon i fagfeltet.
1.3.1 Strategier for å avdekke foregivelse
Rogers (2018b) definerer avdekkingsstrategier (detection strategies) som en konseptuelt basert, empirisk validert og standardisert metode for å skille systematisk mellom en spesifikk svarstil og andre svarstiler. Å være konseptuelt basert betyr å ha en begrunnelse for hva man forsøker å finne ut og på hvilken måte man mener å kunne gjøre det. Slik gjør man det enklere å teste og sammenligne hypoteser knyttet til en gitt avdekkingsstrategi.
Avdekkingsstrategier kan deles inn i to generelle kategorier avhengig av hvilken responsstil de søker å avdekke: usannsynlige presentasjoner og overdrevne presentasjoner (Rogers, 2018b). Utgangspunktet for strategiene i førstnevnte kategori er tilstedeværelsen av uvanlige og atypiske egenskaper som vanligvis ikke finnes i en genuin populasjon.
Avdekkingsstrategier ved overdrevne presentasjoner vurderer hyppighet og intensitet av kjennetegn ved den genuine populasjonen opp mot en gitt presentasjon.
Ytelsesmønstermetoden (Pattern of performance method; PPM) går ut ifra antagelsen om at det er vanskeligere å lykkes i å simulere på tvers av flere ulike mål og tester sammenlignet med en enkelt test (Slick et al., 1999). Metoden går ut på å analysere ulike mønster av besvarelse på nevropsykologiske enkelttester eller på tvers av ulike tester. Slick et al. nevner flere ulike variasjoner av metoden. Man kan for eksempel sjekke besvarelser av ledd med ulik vanskelighetsgrad opp mot hverandre, eller vurdere uvanlige feil på relativt enkle spørsmål.
Profiler av skårer kan vurderes opp mot normerte mønstre for ulike funksjonsnivå innen et
15 kognitivt domene. Bruk av skårer fra kjente kontrastgrupper som eksperimentelle simulanter, sannsynlige simulanter fra en rettslig vurdering, osv. kan vurderes statistisk opp mot
enkeltprofiler. Vurdering av tyngdepunkt for ulike feilbesvarelser kan også gi innsikt i mulige simulering.
Anbefalt fremgangsmåte for å forebygge for raske slutninger i undersøkelsesfasen er å begynne på et mer generelt og uspesifikt plan (Rogers, 2018a). Dette innebærer å vurdere hvorvidt informanten fremstår upålitelig eller tilbakeholdende først. Deretter samler man et større utvalg av holdepunkter og data for å styrke eller eventuelt forkaste hypotesen. Rogers (1990a) foreslår kombinert bruk av selvrapporterte mål, strukturerte og ustrukturerte
intervjuer, komparentopplysninger, atferdsobservasjoner og hvorvidt noen av disse
datakildene er i påfallende motstrid med hverandre. Slutningsrekken vil da gå fra en mistanke om upålitelig informasjon, videre gjennom sannsynliggjøring ved holdepunkter for aktiv foregivelse, for først så å kunne undersøke eventuell motivasjon (Rogers, 2018a).
1.3.2 Relevante validitetsmål ved avdekking av foregivelse
Hvorvidt en test måler det som det faktisk gir seg ut for å måle, eller hvorvidt noe faktisk er det som det gir seg ut for å være er et spørsmål om validitet. Intern validitet viser til den grad et eksperimentelt design evner å teste hypotesene som studien undersøkes (Bordens & Abbott, 2014, s. 111). Ekstern validitet viser til hvorvidt resultatene kan generaliseres eller overføres til tilfeller som ligger utenfor eksperimentet (Bordens & Abbott, 2014, s. 115).
Konstruktvaliditet viser til den grad testen faktisk måler et gitt fenomen slik det forventes ut ifra teorien. For å bestemme denne må man kunne vise til at dem som skårer høyt eller lavt på et gitt mål opptrer som forventet ut ifra modellen testen er basert på (Bordens & Abbott, 2014, s. 130). Jeg gjennomgår her noen relevante statistiske begreper for å vurdere validitet ved simuleringsstudier.
Hvorvidt avdekkingsstrategier skiller systematisk mellom ulike svarstiler avhenger av mål på treffsikkerhet (Rogers, 2018b). I praksis vil vi være interessert i effektstørrelsene ved
gruppeforskjeller og andre nytteestimater. Disse kan bestemmes ved å undersøke testens egenskaper ved klassifikasjon. Klassifisering er prosessen med å tilordne individuelle
respondenter en kategorisk tilhørighet på bakgrunn av testskårer. Selve tilordninger foregår i relasjon til en bestemt terskelverdi – cut-off – for å vurdere hvorvidt enkeltskåren er
16 tilstrekkelig til å fastslå at et fenomen er til stede. Hvor man setter cut-off vil påvirke
klassifiseringen, og det er fire underkategorier som beskriver følgene. Ved reelle positive og reelle negative samsvarer klassifikasjonen på bakgrunn av skårene med faktiske forhold.
Falske positive får vi når et fenomen er vurdert å være til stede mens det i realiteten er fraværende, en såkalt type-1-feil (Lydersen, 2021). Falske negative får vi når et fenomen er vurdert å være fraværende når det i realiteten er til stede, som ved type-2-feil.
Treffsikkerhet kan vurderes i en simuleringsstudie ved hjelp av flere nytteestimater.
Sensitivitet vurderer testens evne til å fange opp flest mulig reelle positive svar (Trevethan, 2017). Ved 100% sensitivitet har man identifisert alle som faktisk er syke. Spesifisitet
vurderer testens evne til å utelukke flest mulig reelle negative svar. Ved 100% spesifisitet har man utelukket alle som er friske. Avveiningene mellom sensitivitet og spesifisitet går på bekostning av hverandre. Å oppnå full sensitivitet vil kunne feildiagnostisere flere som faktisk er friske, og motsatt ved full spesifisitet. Én måte å vurdere dette grafisk er ved en Receiver- Operating Characteristic – Kurveanalyse (ROC-kurve). ROC-kurveanalyse er en statistisk metode hvor man oppgir verdier av sensitivitet (y-aksen) og (1-spesifisitet) (x-aksen) for ulike verdier av cut-off for en test (Zou, O’Malley & Mauri, 2007). Area under the curve (AUC) oppgir den gjennomsnittlige treffsikkerheten ved klassifikasjon for alle verdier av cut-off.
Sannsynlighetsmål kan beregnes og benyttes for å bidra til individuell prediksjon ved bruk av en bestemt test. Dersom man kjenner til den faktiske forekomsten av et fenomen og legger denne til grunn for klassifikasjonen ved å bestemme cut-off, så kan man beregne ulike sannsynlighetsmål for det enkelte tilfellet av klassifikasjon (Meehl & Rosen, 1955; Viglione et al., 2017). Positive predictive power (PPP) angir sannsynligheten for at en skåre klassifisert som positiv ved et bestemt cut-off stammer fra en foregivelse (Bender & Frederick, 2018), og beregnes ved å dele antallet reelle positive tilfeller på totalt antall tilfeller klassifisert som positive. Negative predictive power (NPP) angir sannsynligheten for at en skåre klassifisert som negativ ved et bestemt cut-off kommer av en ærlig besvarelse, og beregnes ved å dele antall reelle negative tilfeller på det totale antallet tilfeller klassifisert som negative. Overall correct classification (OCC) angir sannsynligheten for at klassifikasjonen ved et bestemt cut- off overhodet stemmer, og beregnes ved å summere antall reelle positive og reelle negative tilfeller klassifisert som sådan, for så å dele denne summen på det totale antallet tilfeller.
Avhengig av hvilken sannsynlighet man ønsker å øke kan disse sannsynlighetsmålene gå med til å velge cut-off i et bestemt tilfelle ved bruk av en gitt test. Samtidig er det viktig å
undersøke både sensitivitet og PPP for et gitt cut-off (Rogers, 2018b). Testen kan fange opp
17 en stor andel av de reelle positive tilfellene og samtidig feildiagnostisere et stort antall reelle negative tilfeller. Treffsikkerheten avgjøres derfor best med en kombinasjon av begge nytteestimatene.
Fra nevropsykologien er det gjort et skille mellom to begreper for validitet i vurderingen av foregivelse: ytelsesvaliditet og symptomvaliditet (Bender & Frederick, 2018; Larrabee, 2012).
Ytelsesvaliditet (Performance Validity Testing; PVT) gjelder hvorvidt en testtaker har gjort sitt beste i løpet av en undersøkelse og om nedsatt ytelse skyldes forsøk på foregivelse.
Prosessen med å avgjøre dette var ved statistiske mål for sannsynlighet ved bruk av ulike nevropsykologiske tester, og var det som opprinnelig ble kalt symptomvaliditetstesting (Lezak, Howieson, Bigler & Tranel, 2012; Pankratz, 1979). Symptomvaliditet (Symptom Validity Testing; SVT) etter dagens skille går på vurdering av kvaliteten av psykiske symptomer og hvorvidt de holder mål (Larrabee, 2012).
Validitet er viktig ved valg av forskningsdesign. Simuleringsstudier bruker et eksperimentelt design, hvor man fordeler deltakere tilfeldig mellom forskjellige betingelser, ofte med en klinisk relevant kontrollgruppe. Kjente-grupper-design er en metode hvor man søker å klassifisere deltakere fra f.eks. en klinisk eller rettspsykiatrisk setting med stor grad av
sikkerhet (Rogers, 2018a). Målet er å kunne fastslå at man har med reelle tilfeller å gjøre, slik at man kan sammenligne disse. Ved å utelukke deltakere med usikkerhet knyttet til
klassifikasjon og gruppetilhørighet søker man en treffsikkerhet på minst ≥ 90%. Eksempler vil være én gruppe av pasienter med virkelige psykiske lidelser og én gruppe med kjente tilfeller av forsøkt simulering for den samme diagnosen. Styrken ved ett slikt design er at det har høy grad av ytre validitet, da det bruker deltakere fra en naturlig kontekst.
En svakhet ved eksperimentelle simuleringsstudier er at deltakerne mangler tilsvarende belønning eller risiko knyttet til å lykkes i å simulere sammenlignet med virkelige tilfeller (Rogers & Cavanaugh, 1983). Dette er med på å svekke generaliserbarheten til funn fra slike studier. Design med kjente grupper av reelle tilfeller av simulering målt opp mot reelle tilfeller av sykdom byr også på problemer med å bekrefte simuleringsdiagnosen (Rogers, 1990a). Problemet med å bestemme hvilke kriterier som er tilstrekkelige gjelder også her.
Utfordringen er samtidig at man vanskelig har tilgang til de underliggende prosessene.
Tilnærming mellom funn fra begge typer studier er derfor anbefalt for å underbygge påstander om hva og hvor utbredt simulering er (Rogers, 1990a).
18
1.3.3 Forekomst
Baseraten angir den prosentandelen av en gruppe som besitter en gitt egenskap (Bender &
Frederick, 2018; Elwood, 1993). Anslagene om forekomst av simulering varierer vidt i forskningsfeltet, og det er forskjeller mellom psykiatri og nevropsykologiske utvalg (Young, 2015). Foreslåtte baserater går fra 40±10% for et nevropsykologisk utvalg (Larrabee, Millis &
Meyers, 2009) til 15±15% (Young, 2015). Young har kritisert Larrabee et al. for å være slepphendt med definisjonen og gjennomgikk datamaterialet til grunn for anslaget. Young fant blant annet at de hadde inkludert tilfeller hvor de undersøkte fagpersonene har gitt løse anslag uten å få noen definisjon på simulering, noe som har gitt høyere baserater. Sannsynlig simulering og overdrevent symptomuttrykk er begge mindre strenge kriterier for simulering og vil øke antallet som mottar diagnosen.
Forekomst av simulering er anslått over et spenn fra 3% til 59% på tvers av ulike studier (Young, 2014). En annen studie ba 188 kliniske nevropsykologer om å anslå forekomst av blant annet simulering (Sharland & Gfeller, 2007), og fikk en median på 1% av alle tilfeller siste som ble anslått å være definitiv simulering. 131 nevropsykologer ble spurt om forekomst av sannsynlig symptomoverdrivelse eller simulering ved erstatningssaker (Mittenberg, Patton, Canyock & Condit, 2002). Justert for henvisningskilde lå anslagene på 41.2% sannsynlige tilfeller av simulering ved prosedyre på diagnosen mild hodeskade (mTBI) og 16.1% for depresjon. Young (2015) kritiserer tallene for å være basert på rene spørsmål om anslag, uten noen kriterier for hva simulering består i.
En epidemologisk undersøkelse av registrerte tilfeller hentet fra Norsk Pasientregister i årene 2008-2016 fant at i alt 142 pasienter kvalifiserte for en simuleringsdiagnose (Z76.5) og maksimalt 135 pasienter kvalifiserte for en selvpåført lidelse (F68.1), hvorav 2 bekreftede tilfeller av Münchhausens syndrom (Schrader, Bøhmer & Aasly, 2019). Ut ifra dette blir insidensen for simuleringsdiagnose (Z76.5) årlig 3.2 pasienter per millioner innbygger, mens prevalensen for niårsperioden for totalt 5177984 pasienter ligger på 0.0027%. Schrader et al.
pekte på omfattende feildiagnostikk og mulig underdiagnostikk som forklaring på de lave forekomstene. De oppga mangelfull bruk av validerte tester eller dårlig kjennskap til kriteriene i norsk sammenheng som mulig årsak.
19
1.4 Ulike mål for kartlegging av foregivelse
Flere tester har enten blitt utarbeidet med den hensikt å fange opp mulig simulering.
Antagelser etter ytelsesmønstermodellen er også brukt for å innstille eksisterende
nevropsykologiske utredningsverktøy til å gjøre det samme. Jeg vil kort gå igjennom noen eksempler på slike mål for simulering, som også er nevnt i forskningslitteraturen rundt Inventory of Problems – 29.
Test of Memory Malingering (TOMM) (Tombaugh, 1996) er en minnetest som utarbeidet som et mål på simulering ved å fange opp nedsatt ytelse (Lezak et al., 2012). Testen kan
administreres i to omganger med en valgfri gjenkallelsesdel som gis etter 15 minutter. Hver omgang vises 50 strektegninger i tre sekunder hver med ett sekunds mellomrom. Deretter blir man tvunget til å velge mellom 50 ulike bildepar, hvorav ett ble vist i den opprinnelige gjennomgangen, mens det andre bildet ikke var der. Rekkefølgen av disse endres mellom omgangene. Testtakeren blir fortalt for hvert valg om det var riktig eller galt, altså hvorvidt bildet vedkommende valgte var i den opprinnelige visningen. Cut-off er satt til 90% riktige besvarelser ved gjennomføring av andre omgang, altså riktige besvarelser ≤ 45 (av 50). Desto lavere skåren er under cut-off, desto mer øker sannsynligheten for at testtaker simulerer.
Minnesota Multiphasic Personality Inventory (MMPI-2) er en test bestående av 567 spørsmål relatert til en rekke psykologiske og psykiatriske symptomer (Butcher, 2010), med 10 kliniske skalaer og 3 validitetsskalaer (Lezak et al., 2012). Man kan samle data til vurdering av
simulering blant annet ved å analysere profiler opp mot normdata for å finne om testtaker skiller seg merkverdig ut fra andre grupper (Butcher, 2010). Motstridende besvarelser på likelydende ledd er en annen indikator.
Personality Assessment Inventory (PAI) er en personlighetstest med ulike kliniske,
interpersonlige og behandlingsrelaterte skalaer (Morey, 1991). Testen er et selvrapportert mål med 344 spørsmål (Weiner, Craighead, Morey & Lowmaster, 2010), og har fire ulike
validitetsskalaer som fanger opp ulike former for responsskjevhet. Inconsistency (ICN) for motstridende svar på likelydende ledd, Infrequency (INF) for statistisk usannsynlige besvarelser, Negative Impression (NIM) for overdreven besvarelse, og Positive Impression (PIM) for tildekking (Lezak et al., 2012).
Structured Inventory of Malingered Symptomatology (SIMS) er et selvrapportert mål for simulering av psykiatriske og nevrokognitive symptomer (Widows & Smith, 2005). Testen
20 består av 75 spørsmål hvor man velger mellom svaralternativene «riktig» eller «galt», og gir resultater for fem ulike domener av psykiske og nevrokognitive lidelser med 15 spørsmål hver (Lezak et al., 2012).
1.4.1 Inventory of Problems – 29 (IoP-29)
Inventory of Problems – 29 er en selvrapportmetode bestående av 29 spørsmål som er utviklet for å bidra til å skille reelle fra simulerte tilfeller av en rekke psykiske og kognitive plager.
Plagene inkluderer mild traumatisk hjerneskade (mTBI), posttraumatisk stresslidelse (PTSD), psykoselidelser og depresjon (Viglione et al., 2017). Spørsmålene består av 27 ulike påstander basert på en rekke fenomener som er indirekte relatert til simulering via svarstil, samt 2 spørsmål hvor man skal løse et problem ved å fylle ut et blankt felt. Det blir gitt tre
svaralternativer for de 27 påstandene; Riktig eller stort sett riktig (R), Galt eller stort sett galt (G), og gir ikke mening (I). Testen finnes både på papir og i nettutgave. Selve testen er fritt tilgjengelig på nettsidene ved å registrere en bruker (https://www.iop-test.com/#/).
Skåringsnøkkelen er ikke frigitt grunnet opphavsrettigheter, og man må derfor betale for skåring og tolkning av testresultatene.
Testen ble utviklet gjennom en lengre prosess med empirisk vurdering av en rekke spørsmål og simuleringsstrategier. Utviklerne la vekt på å velge ut ledd som viste seg å skille best mellom faktiske pasienter og dem som simulerte (Viglione et al., 2017). Denne empiriske seleksjonsprosessen reduserte det opprinnelige antallet spørsmål fra 245 til en utgave med 162 items – IoP-Developmental Version-2 (IoP-DV2). Utvalget som ble brukt til å utvikle
kortversjonen bestod av 451 deltakere fra 6 ulike avhandlingsstudier. Av disse var 160 pasienter med hovedsakelig depresjon eller schizofreni og 291 eksperimentelle simulanter (Viglione et al., 2017). 126 av de 162 leddene ble valgt med tanke på hvor egnet de var for å administreres ved en papirutgave. Videre ble de 114 leddene med signifikant phi-korrelasjon mellom besvarelse og gruppetilhørighet valgt ut, altså de leddene som kunne skille mellom gruppene. Phi-korrelasjon er et mål på sammenheng mellom dikotome variabler.
Svaralternativet «gir ikke mening» ble lagt til på et senere tidspunkt. Før dette var besvarelse en dikotom variabel. Leddet med høyest phi-korrelasjon til gruppetilhørighet skiller best mellom gruppene. Med utgangspunkt i dette leddet valgte en algoritme andre ledd med prediktiv verdi utover denne inntil phi-korrelasjonene nærmet seg null. Disse leddene bidrar
21 ytterligere til å kunne skille pasienter fra eksperimentelle simulanter, såkalt inkrementell validitet. Prosessen endte med de 29 leddene i IoP-29. Dette er en kortversjon av Inventory of Problems (IoP) som inneholder 181 ledd og administreres digitalt.
Alle spørsmål baserte seg på testteori knyttet til svarstil og en rekke ulike tilnærminger for å fange opp simulering som fenomen (Viglione et al., 2017). Heller enn å måle spesifikke diagnostiske spørsmål inneholder skjemaet flertydige og åpne spørsmål med større spillerom for respondenten. Dette inkluderer vage formuleringer, sjeldne og atypiske
symptomutforminger, ulike vurderende utsagn, ledd som måler testatferd i form av reaksjoner på selve testen, osv.
Hypotesen er at ærlige respondenter og pasienter med virkelige symptomer vil forholde seg på en nøktern og rettfrem måte i møte med skjemaet. Simulanter er tenkt å oppdages lettere ved avvik fra denne responsstilen. Ulike simuleringsstudier har derfor søkt å normere svarstilen for pasientgrupper med de ulike lidelsene, sammen med en vekting basert på svarstil for ærlige ikke-pasienter.
Skjemaet danner grunnlag for den opprinnelige sannsynlighetsskåren (multiple weight score).
Den endelige sannsynlighetsskåren False Disorder Score (IoP-FDS) ble laget ved hjelp av vektinger og kalibrering av den opprinnelige sannsynlighetsskåren. Disse beregnes ut ifra besvarelse av leddene (Viglione et al., 2019). Besvarelser fra ulike datagrunnlag ble benyttet i vektingen for å tilpasse testens evne til å skille faktiske tilfeller av lidelser fra simulerte tilfeller. Skåren går fra 0 til 1 og gjenspeiler en økende grad av sannsynlighet for at
testtakeren har forsøkt å foregi en psykisk eller nevrologisk lidelse (Viglione et al., 2017). En skåre på 0 anslår helt sikkert ikke simulant, mens en skåre på 1 anslår helt sikkert en simulant (Viglione et al., 2019). Egne indikatorer for IoP-29 er også under utvikling med tanke på å kunne fange opp tilfeldige svarstiler (Giromini, Viglione, Pignolo & Zennaro, 2020b), eller skille på grunnlag av normerte svartider (Viglione et al., 2019).
Ved siden av den engelske versjonen (Viglione et al., 2017) er det utviklet og validert versjoner av IoP-29 på italiensk (Giromini, Viglione, Pignolo & Zennaro, 2018), europeisk portugisisk (Giromini, Barbosa et al., 2020), brasiliansk portugisisk (Carvalho et al., 2021), fransk (Banovic et al., 2021), litauisk (Ilgunaite, Giromini, Bosi, Viglione & Zennaro, 2020) og slovensk (Šömen et al., 2021). Den engelske versjonen har også blitt validert i en britisk (Winters et al., 2020) og en australsk (Gegner et al., 2021) kontekst. I tillegg oppgir nettsiden (https://www.iop-test.com/#/) at testen er tilgjengelig på tysk, nederlandsk, spansk,
22 tradisjonell og forenklet kinesisk. Testens validitet er også undersøkt i en naturlig kontekst for å vurdere ytre validitet, nemlig skadeerstatningssaker i Italia (Roma et al., 2020).
Inventory of Problems – Memory (IoP-M) er en implisitt hukommelsestest som administreres i etterkant av IoP-29 som en tilhørende modul og består av 34 ledd (Giromini, Viglione, Zennaro, Maffei & Erdodi, 2020). Testtakeren blir tvunget til å velge mellom ulike ordpar eller uttrykk, der det ene ordet eller uttrykket var nevnt i IoP-29 og det andre ikke. Ved papirvarianten ringer man rundt ordet eller uttrykket man mener befinner seg i testen.
Varianten ved nettskjema har to felter man krysser ut tilsvarende det å ringe rundt. Skåren utgjør antall feil, dvs. valg av ord eller uttrykk som ikke var nevnt i teksten, og går fra 0 til maksimalt 34. Den beste balansen mellom sensitivitet og spesifisitet ble satt å være ved cut- off for skårer ≥5, med en OCC på 90.3% (Giromini, Viglione, Zennaro et al., 2020). IoP-M er ikke brukt i pilotprosjektet som er grunnlaget for analysene gjort i denne hovedoppgaven.
1.4.2 Empiri for IoP-29 sin validitet ved simulering av depresjon
Jeg gjennomgår åtte studier med en oversikt over eksperimentelle simuleringsstudier for depresjon hvor IoP-29 er blitt brukt, med tilhørende mål for validitet. Versjoner fra fem ulike språk er brukt i utvalgene.
Viglione et al. (2017) brukte data fra en upublisert doktoravhandling (Abramsky, 2005) med et utvalg bestående av eksperimentelle simulanter (n = 42) og en kontrollgruppe bestående av pasienter diagnostisert med depresjon (n = 43). Verdiene for sensitivitet (.84) og spesifisitet (.86) ved cut-off FDS ≥ .50 er hentet fra Ilgunaite et al. (2020). Studien fant en effektstørrelse på Cohen’s d = 1.97 og en AUC = .90 (SE = .04).
Fire studier har validert den italienske versjonen av IoP-29 ved hjelp av et depresjonsrelatert utvalg (Giromini et al., 2018; Giromini et al., 2019; Giromini, Viglione, Pignolo & Zennaro, 2020a; Giromini, Viglione, Zennaro et al., 2020). Første studie har et utvalg bestående av 111 eksperimentelle simulanter og en kontrollgruppe på 127 pasienter fra det angst-, depresjons- og/eller traumerelaterte underutvalget fra valideringen av den italienske versjonen (Giromini et al., 2018). Cut-off på FDS ≥ .50 gav en sensitivitet på .81 og en spesifisitet på .83.
Effektstørrelsen var d = 2.02 med en AUC = .90 (SE = .02).
23 En annen studie hadde et utvalg bestående av 93 eksperimentelle simulanter og 62 pasienter, hvorav 36 var i behandling for depresjon,og 26 pasienter som hadde blitt vurdert for mulig simulering i forbindelse med arbeidsrelatert stress som ble vurdert som reelle tilfeller av depresjon (Giromini et al., 2019). Cut-off på FDS ≥ .50 gav en sensitivitet på .75 og en spesifisitet på .87. Effektstørrelsen var d = 1.80 med en AUC = .89.
En tredje studie med et underutvalg bestående av eksperimentelle simulanter som ble bedt om å simulere depresjon (n = 100) sammenlignet med en ikke-klinisk kontrollgruppe (n = 100) gav verdier for sensitivitet = .95 og spesifisitet = .96 ved cut-off FDS ≥ .50 (Giromini et al., 2020a). Effektstørrelsen var d = 4.32 med en AUC = .99.
Underutvalget for depresjon i den fjerde italienske studien (Giromini, Viglione, Zennaro et al., 2020) bestod av 41 ikke-kliniske, ærlige kontroller og 44 eksperimentelle simulanter.
Effektstørrelsen var d = 3.10.
Ilgunaite et al. (2020) administrerte den litauiske versjonen av IoP-29 på et utvalg
eksperimentelle simulanter (n = 50) og pasienter diagnostisert med depresjon (n = 50). Cut-off på FDS ≥ .50 gav en sensitivitet på .94 og en spesifisitet på .96. Effektstørrelsen var d = 3.31 med en AUC = .98 (SE = .01).
Den portugisiske studien (Giromini, Barbosa et al., 2020) hadde ingen kontrollgruppe, men bestod av 50 eksperimentelle simulanter som ble bedt om å simulere depresjon. Verdien for sensitivitet ble .96.
En slovensk studie (Šömen et al., 2021) med totalt 150 ikke-kliniske deltakere, ble 50 bedt om å simulere depresjon og 50 ble bedt om å simulere schizofreni, med 50 deltakere som
kontrollgruppe. Cut-off på FDS ≥ .50 gav en sensitivitet på .88 og en spesifisitet på .98.
Effektstørrelsen fra begge simuleringsbetingelsene på FDS var d = 3.56.
1.5 Problemstilling
Målet med delstudien er å validere den norske oversettelsen av Inventory of Problems – 29 (IoP-29) i en eksperimentell simuleringsstudie. Jeg undersøker to hypoteser: Første hypotese er at simuleringsmålet vil kunne skille mellom forsøk på simulering og ærlige besvarelser blant ikke-pasienter. Andre hypotese er at resultater fra bruk av den norske oversettelsen ikke vil avvike for mye fra tidligere studier.
24
2 Metode 2.1 «Personlighet og plager»
Pilotprosjektet består av tre ulike delstudier med felles datainnsamling. Felles for delstudiene er at de tar sikte på å oversette ulike skjema til norsk, samt validere oversettelsene. Delstudien som omtales i denne hovedoppgaven omfatter den delen av utvalget som har besvart IoP-29 som en del av de eksperimentelle betingelsene. Pilotprosjektet utgjør første fase i et større prosjekt ved Universitetet i Oslo kalt «Personlighet og plager». Prosjektet skal undersøke den eventuelle sammenhengen mellom en rekke personlighetstrekk og evnen til å simulere.
2.2 Oversettelse
Oversettelsen av IoP-29 ble gjort ved en tilbakeoversettelse av samtlige ledd og
introduksjonstekster, utført som følger: Prosjektleder Cato Grønnerød oversatte de ulike leddene til norsk fra engelsk. Jeg, to andre profesjonsstudenter og prosjektleder diskuterte oversettelsen av de ulike leddene i plenum. Disse oversetterne har inngående profesjonell kjennskap til fagfeltene i kraft av psykologfaglig bakgrunn, samt norsk bakgrunn og gode ferdigheter i engelsk språk. Vi ble enige om en norsk versjon av samtlige ledd, enten ved å sammenfatte og forbedre, eller ved å la stå. En profesjonell og uavhengig oversetter oversatte så tilbake fra norsk og over til engelsk. Vi samlet oss igjen for å vurdere den engelske
tilbakeoversettelsen opp mot språket og det faglige innholdet i originalversjonen, før vi ble enige om en endelig versjon av den norske oversettelsen. Oversettelsen tilfredsstiller derfor kravene for tilbakeoversettelse som finnes i litteraturen (Brislin, 1970; Correa, 2018; Van de Vijver & Hambleton, 1996).
Vi har ikke fått tillatelse fra IoP-teamet til å publisere leddene fra IoP-29 i denne oppgaven, da de regnes for å være en bedriftshemmelighet og omfattes av opphavsrettighetene. Jeg vil derfor ikke gjøre analyser av enkeltledd, da det ikke blir mulig å diskutere meningsinnholdet som analysene ville sagt noe om.
25
2.3 Pilotstudien
Testbatteriet i pilotstudien består av en lengre personlighetstest, etterfulgt av en
eksperimentell del hvor den norske oversettelsen av IoP-29 er brukt. Personlighetstesten – Utvidet femfaktormodell (UFF) – består av totalt 262 ledd og er sammensatt av fire andre nylig oversatte tester og deler av tester, i samarbeid med prosjektleder og to andre
profesjonsstudenter i psykologi.
Fysisk innsamling av data var vanskelig å gjennomføre på grunn av Covid-19-pandemien, som var pågående i perioden datainnsamlingen ble gjort. Vi utarbeidet derfor flere nettskjema for de ulike oversatte testene, ved siden av papirversjoner til bruk for fysisk administrasjon.
Disse nettskjemaene ble koblet sammen i en bestemt rekkefølge for utfylling. Først ble testtakerne presentert for et skjema med samtykke og demografiske spørsmål, deretter personlighetstesten UFF, deretter en tekst avhengig av betingelse, etterfulgt av IoP-29.
Deltakerne ble fordelt tilfeldig over betingelsene.
Vi produserte flere nettsider tilknyttet det større prosjektet «Personlighet og plager» ved Universitetet i Oslo med informasjon om pilotprosjektet. Nettsidene hadde også videre henvisning til nettskjema for deltakelse i pilotprosjektet.
2.3.1 Utvalg
Datainnsamlingen ble utført som et bekvemmelighetsutvalg med løpende rekruttering. Lenker til nettsidene for deltakelse i studien ble spredt på Internett via blant annet sosiale medier, e- post og ulike annonsenettsider som for eksempel Finn.no. Deler av utvalget består følgelig av venner, familie og bekjente av de tre profesjonsstudentene bak pilotstudien. Lenker for deltakelse i studien ble også sendt ut til studenter via administrasjonen ved psykologisk institutt, Universitetet i Tromsø. Vi spredte lenker i sosiale medier tilknyttet
psykologistudenter ved UiO og NTNU i Trondheim.
Vi la til en trekning av 10 universalgavekort á 500 kr blant deltakerne for å lette rekrutteringen og som godtgjørelse for å være med i pilotstudien.
26
2.3.2 Prosedyre
Simuleringsstudien innebar to betingelser med randomisert tilordning – én ærlig (HON) betingelse og én simuleringsbetingelse (SIM). IoP-29 skulle besvares ved begge betingelsene.
Ved den ærlige svarbetingelsen ble respondenten bedt om å besvare spørsmålene så ærlig som man kan. Respondenten ble bedt om å bekrefte å ha besvart så ærlig som mulig etter utfylling.
Ved simuleringsbetingelsen ble man bedt om å sette seg grundig inn i en introduksjonstekst.
Man ble bedt om å bekrefte at man hadde husket å simulere etter utfylling. Introduksjonen ble hentet i sin helhet fra en tidligere studie (Giromini et al., 2019) og oversatt fra engelsk til norsk (se Appendiks A). Vignetten inneholder et scenario sammen med en liste med symptomer som skulle hjelpe testtakeren til å simulere.
Tallverdien man ble tildelt for å bekrefte hver av betingelsene var 1. Tallverdien 0 ble tildelt dem som enten ikke besvarte skjema, for eksempel ved å avbryte for tidlig, eller dem som avkreftet å ha fulgt betingelsen.
Eksperimentelle simulanter ble bedt om å ikke overdrive symptompresentasjonen.
Instruksjonen er gitt etter anbefalinger i forskningsfeltet for å unngå kunstig høye
effektstørrelser ved eksperimentelle simuleringsstudier (Viglione et al., 2017; Viglione et al., 2001).
Alle deltakerne i studien har gitt informert samtykke. Dataene ble lagret i databaser tilknyttet Tjenester for Sensitive Data (TSD), i henhold til reglene satt ved Norsk Senter for
Forskningsdata (NSD) (ref.nr. 131597). Respondentene ble bedt om å bekrefte sin identitet ved hjelp av Bank-ID som et ledd i sikringen av data tilknyttet TSD.
2.3.3 Analyser
Råskårene fra respondentenes besvarelser av Problemtest – 29 (IoP-29) ble oversendt til IoP- teamet for omregning til sannsynlighetsskåren (IoP-FDS). Skåringsnøkkelen for IoP-FDS med tilhørende vekting er ikke frigitt, av hensyn til opphavsrettighetene. Analysen gikk med til å undersøke validiteten til den norske oversettelsen av IoP-29.
27 Jeg har brukt statistikkprogrammet SPSS versjon 27 til å utføre en t-test, ROC-kurveanalyser og undersøkte ulike verdier for sensitivitet, spesifisitet, PPP, NPP og OCC ved ulike cut-off (FDS ≥ .70; FDS ≥ .65; FDS ≥ .50; FDS ≥ .30; FDS ≥ .15) for sannsynlighetsskåren IoP-FDS.
Jeg undersøkte mulig korrelasjon mellom sannsynlighetsskåren (IoP-FDS) og tilordnet betingelse ved å bruke en point biserial correlation. Dette fordi betingelsen er en dikotom variabel, mens IoP-FDS er en kontinuerlig variabel.
Analysene over bidrar til å undersøke validiteten av norske IoP-29 ved å søke etter mulig sammenheng mellom den eksperimentelle betingelsen og IoP-FDS, samt treffsikkerhet ved klassifisering. Jeg har lagt vekt på cut-off lik .50 av IoP-FDS, da raten for simulering i utvalget er tilnærmet 50% (se Tabell 1). Jeg kontrollerte for mulige hovedeffekter fra
betingelse, kjønn, aldersgruppe og utdannelse på sannsynlighetsskåren IoP-FDS ved å utføre en one-way between subjects ANOVA. Det vil si at jeg undersøker eventuelle forskjeller i gjennomsnitt av skårene på IoP-FDS for hver av de uavhengige gruppevariablene. Cramers V er et mål på assosiasjon som kan brukes for nominale variabler med to eller flere kategorier (Howell, 1997, s. 158), og er brukt ved analysen av eventuelle demografiske forskjeller mellom utvalgene i betingelsene. Anonymiseringen av data gjennom NSD har ført til at alderen til den enkelte respondent måtte slås sammen og oppgis i aldersgrupper.
Analyse av statistisk styrke for undersøkelsen viste at det var 80% sannsynlighet for å fange opp en faktisk forskjell mellom gruppene på Cohen’s d = 0.34. Følgende var lagt til grunn for dette: Gruppestørrelsene n1 = 138 og n2 = 137, signifikansnivå = .05 og bruk av to-halet test.
3 Resultater 3.1 Utvalget
Utvalget ved pilotprosjektet i sin helhet er på 380 deltakere. Delstudien hvor utvalget har besvart IoP-29 (N = 284) består av 213 kvinner (75%) og 67 menn (23.6%), samt 4 som ikke ønsket å oppgi kjønn (1.4%), i alderen 15-75 år. Ved randomisering ble 51.8% tilordnet ærlighetsbetingelsen (n = 147) og 48.2% tilordnet simuleringsbetingelsen (n = 137).
Tilfellene med en tallverdi på 0 for bekreftelsesskjema ved betingelsen (n = 9) ble definert å være frafalt (missing) og ble fjernet fra datasettet (se Tabell 1). Vi laget en ny variabel kalt
28
«betingelse», hvor de som bekreftet betingelsen om å svare ærlig fikk tallverdien 0 og de som bekreftet simuleringsbetingelsen fikk tallverdien 1.
Utvalget (se Tabell 1) som står igjen etter å ha utelatt tilfeller av frafall (N = 275) består av 206 kvinner, 66 menn, samt 3 som ikke ønsket å oppgi kjønn, i alderen 15-75 år. Disse hadde blitt tilordnet ærlig svarbetingelse (n = 138; 50.2%) og simuleringsbetingelsen (n = 137;
49.8%) ved randomisering. Dette tilsvarer en rate for simulering i utvalget på nær 50%.
Tabell 1
Antall respondenter fordelt over betingelsene og frafall (missing)
Frekvens Prosent Valid Prosent Kumulativ Prosent
Valid Ærlig 138 48.6 50.2 50.2
Simulering 137 48.2 49.8 100.0
Total 275 96.8 100.0
Missing 9 3.2
Total 284 100.0
Noter. Betingelsene er kodet 0 = Ærlig og 1 = Simulering. Gruppen «Missing» omfattet totalt 9
tilfeller, hvorav 7 kvinner, 1 mann og 1 som ikke ønsket å oppgi kjønn, hvor disse igjen utgjorde 1 i alderen 15-24 år, 2 i alderen 25-34 år, 5 i alderen 35-44 år og 1 i alderen 45-54 år.
Tabell 2
Kjønnsfordeling over betingelsene
Betingelse
Ærlig Simulering Total
Kjønna Kvinne 104 102 206
Mann 33 33 66
Ikke oppgitt 1 2 3
Total 138 137 275
Noter. Cramer’s V for «Kjønn*Betingelse» er .04 (p = .84). Fordelingen mellom gruppene er ikke signifikant forskjellige.
a1 = Kvinne, 2 = Mann, 3 = Ønsker ikke å oppgi (Ikke oppgitt).
29 Tabell 3
Aldersgruppene fordelt over betingelsene
Betingelse
Ærlig Simulant Total
Alder (år) 15-24 12 11 23
25-34 43 63 106
35-44 44 31 75
45-54 25 21 46
55-64 12 9 21
65-74 1 2 3
75 1 0 1
Total 138 137 275
Noter. Cramer’s V for «Aldersgruppe*Betingelse» er .17 (p = .23). Fordelingen mellom gruppene er ikke signifikant forskjellige.
Tabell 4
Krysstabulering utdannelse på tvers av betingelsene
Betingelse
Ærlig Simulering Total
Utdannelse Kun grunnskole 8 11 19
Kun videregående 43 32 75
Fagskole, Bachelor (1-4 år)
54 62 116
Mastergrad eller profesjonsstudium
30 32 62
Doktorgrad 3 0 3
Total 138 137 275
Noter. Cramer’s V for «Utdannelse*Betingelse» er .14 (p = .22). Fordelingen mellom gruppene er ikke signifikant forskjellige.
Deltakerne i de ulike betingelsene var ikke signifikant forskjellig med tanke på kjønn
(Cramer’s V = .04, p = .84) (se Tabell 2), aldersgruppe (Cramer’s V = .17, p = .23) (se Tabell 3) eller utdannelse (Cramer’s V = .14, p = .22) (se Tabell 4).
30
3.2 Resultater fra analysen
Sannsynlighetsskårene (IoP-FDS) for gruppen som simulerte var mye høyere sammenlignet med kontrollgruppen som skulle svare ærlig (se Tabell 5). Korrelasjonskoeffisienten (point biserial correlation) mellom sannsynlighetsskåre (IoP-FDS) og tilordnet betingelse var .77, p
<.001. Effektstørrelsen av tilordnet betingelse på sannsynlighetsskåren (IoP-FDS) ved
Cohen’s d var d = 2.39, noe som ved simuleringsstudier blir karakterisert å være en svært stor effektstørrelse (Cohen’s d ≥1.75) (Rogers, Sewell, Martin & Vitacco, 2003). Area under the curve (AUC) for IoP-29 var .94 (SE = .01) (Figur 2), noe som betyr svært høy gjennomsnittlig treffsikkerhet for samtlige cut-off. Figur 1 viser fordelingen av sannsynlighetsskårene (IoP- FDS) mellom ærlige kontroller og simuleringsgruppen. En-veis ANOVA viste signifikant effekt for hvilken betingelse man er tilordnet på IoP-FDS [F(1) = 370.74, p = .000], men ikke for kjønn [F(2) = .93, p = .40], aldersgruppe [F(6) = .82, p = .55] eller utdannelse [F(4) = .96, p = .43]. Forskjellene i gjennomsnitt for sannsynlighetsskårene (IoP-FDS) var dermed kun signifikante mellom betingelsene, kontrollert for effektene fra kjønn, aldersgruppe og utdannelse.
Raten for simulering i utvalget var på ca. 50% (se Tabell 1). Anbefalt cut-off for klassifisering på bakgrunn av sannsynlighetsskårene (IoP-FDS) vil derfor være .50, noe som gav
fordelingen i Tabell 6. Chi-kvadratet for denne fordelingen er høyt og signifikant, noe som betyr at det er en klar sammenheng mellom hvilken betingelsene man tildeles og hvordan man klassifiseres, X2 (1, N = 275) = 138.6, p = .000.
Tabell 5
Skårer på Inventory of Problems – 29 for eksperimentelle simulanter og ærlig kontrollgruppe
Ærlig Simulering
M SD M SD t df P d
IoP-FDS .20 .17 .69 .24 19.84 273 <.001 2.39
Noter. Resultater for gjennomsnitt, standardavvik og uavhengig t-test for sannsynlighetsskåren Inventory of Problems – False Disorder Score (IoP-FDS) for hver betingelse.
31 Tabell 6
Krysstabulering for klassifiserte respondenter på tvers av betingelsene ved cut-off = .50 Klassifiseringa
Ærlig Simulant Total
Betingelseb Ærlig 128 10 138
Simulering 31 106 137
Total 159 116 275
Noter. Sannsynlighetsskåren (IoP-FDS) går på en skala fra 0 = «Helt sikkert ikke simulant» til 1 = «Helt
sikkert en simulant». Ved cut-off = .50 vil verdier >.50 bli klassifisert som 1 = Simulant, som gir fordelingen over.
a 0 = Ærlig, 1 = Simulant. b 0 = Ærlig, 1 = Simulering.
Verdier for klassifikasjonen ved de forutbestemte cut-off-skårene er oppgitt i Tabell 7. Man får en maksimert spesifisitet ved å velge cut-of på enten FDS ≥ .70 eller ≥ .65 med verdier på henholdsvis .99 og .97, og maksimert sensitivitet ved FDS ≥ .30 eller ≥ .15 med verdier på henholdsvis .91 og .96. Imidlertid viser cut-off på FDS ≥ .30 en bedre balanse mellom sensitivitet og spesifisitet, og PPP og NPP, sammenlignet med en cut-off på FDS ≥ .50. Den samlede klassifikasjonen virker også å stemme bedre ved FDS ≥ .30 med en OCC på .87, noe som betyr en 87% sannsynlighet for at klassifikasjonen samsvarer med det faktiske.
Undersøkelse av koordinatene for ROC-kurven (Figur 2) i Tabell 8 viser et cut-off på omtrent FDS ≥ .44 en høyere spesifisitet (.90) sammenlignet med FDS ≥ .30 (.82), og en høyere sensitivitet (.81) sammenlignet med FDS ≥ .50 (.77). Cut-off på FDS ≥ .37 gir en perfekt balanse mellom sensitivitet (.85) og spesifisitet (.85).
Tabell 9 oppsummerer og sammenligner resultatene fra denne studien opp mot tidligere resultater fra studiene beskrevet i kapittel 1.4.2.
32 Figur 1. Fordeling av sannsynlighetsskårer (IoP-29-FDS) for hver betingelse. Referanselinjen på X-aksen er satt til verdien .50 av sannsynlighetsskåren (IoP-FDS).
Tabell 7
Treffsikkerhet ved klassifisering for utvalgte IoP-29 cut-off
Cut-off Se Sp PPP NPP OCC
IoP-29 FDS ≥ .70 .57 .99 .98 .70 .78
IoP-29 FDS ≥ .65 .64 .97 .96 .73 .81
IoP-29 FDS ≥ .50 .77 .93 .91 .81 .85
IoP-29 FDS ≥ .30 .91 .82 .83 .90 .87
IoP-29 FDS ≥ .15 .96 .55 .68 .94 .76
Noter. Se: Sensitivitet; Sp: Spesifisitet; PPP: Positive Predictive Power; NPP: Negative Predictive Power;
OCC: Overall Correct Classification.
33 Figur 2. ROC-kurve for sannsynlighetsskårene i utvalget (IoP-FDS). Kurven angir Sensitivitet på y-aksen og (1
– Spesifisitet) på x-aksen for klassifisering ved ulike cut-off, målt opp mot faktisk rate i form av hvilken betingelse deltakerne er tilordnet. Area under the curve (AUC) = .94 (SE = .01).
Tabell 8
Koordinater fra ROC-kurven (Figur 2) for klassifisering ved ulike sannsynlighetsskårer IoP-FDS
Cut-off Sensitivitet Spesifisiteta
.3098 .912 .819
.3716 .847 .848
.4379 .810 .899
.5065 .774 .928
.5748 .723 .942
.6404 .642 .971
.7012 .569 .986
.7557 .518 1
Noter. Koordinatene beskriver klassifiseringen i utvalget på bakgrunn av ulike cut-off. Kolonnen til venstre
oppgir verdier for ulike cut-off med tilhørende verdier for sensitivitet og spesifisitet i de to kolonnene til høyre.
a Beregnet fra (1 – Spesifisitet).
34 Tabell 9
Validitet for IoP-29 på tvers av studier i å skille foregitte fra reelle depresjonsrelaterte plager.
Viglione et al. (2017)a
Giromini et al.
(2018)b
Giromini et al. (2020a)c
Giromini, Barbosa et
al. (2020)
Giromini et al.
(2019)d
Ilgunaite et al.
(2020)
Giromini, Viglione, Zennaro et al. (2020)e
Šömen et al. (2021)f
Denne studien
Eksperimentelle simulanter 42 111 100 50 93 50 44 100 137
Ærlige kontroller 43 127 100 - 62 50 41 50 138
Kontrollgruppe Pasienter Pasienter Ikke-
klinisk
- Pasienter Pasienter Ikke- klinisk
Ikke- klinisk
Ikke-klinisk
Oversettelse av IoP-29 Engelsk Italiensk Italiensk Portugisisk Italiensk Litauisk Italiensk Slovensk Norsk
Andre relevante tester TOMM SIMS - - MMPI-2 CES-D IoP-M IoP-M -
Se for IoP-29 FDS ≥ .50 .84 .81 .95 .96 .75 .94 - .88 .77
Sp for IoP-29 FDS ≥ .50 .86 .83 .96 - .87 .96 - .98 .93
Cohen’s d 1.97 2.02 4.32 - 1.80 3.31 3.10 3.56 2.39
AUC .90 .90 .99 - .89 .98 - - .94
a Dataene viser til depresjonsunderutvalget fra Abramsky (2005) som beskrevet i Studie 2 i Viglione et al. (2017). Hentet fra Ilgunaite et al. (2020).
b Dataene viser til angst-, depresjons- og/eller traumerelaterte underutvalget som beskrevet i Giromini et al. (2018).
c Dataene viser til det depresjonsrelaterte underutvalget i Giromini et al. (2020a).
d Dataene viser til pasientutvalget i Giromini et al. (2019). Av de 62 pasientene med depresjon var 36 i behandling for depresjon og 26 vurdert som reelle arbeidsrelaterte tilfeller.
e Dataene viser til IoP-29-besvarelser ved underutvalget for depresjon i Giromini, Viglione, Zennaro et al. (2020).
f Det var to eksperimentelle simuleringsgrupper: en for depresjon (n = 50) og en for schizofreni (n = 50). Cohen’s d er beregnet for begge simuleringsgruppene (n = 100).
35
4 Diskusjon
Første hypotese er at simuleringsmålet IoP-29 vil kunne skille mellom forsøk på simulering og ærlige besvarelser i et ikke-klinisk utvalg.
Denne studien finner en klar og signifikant forskjell i gjennomsnittene for
sannsynlighetsskårene (IoP-FDS) mellom betingelsene (se Tabell 5). Vi finner en svært stor effektstørrelse for tilordnet betingelse på IoP-FDS. Effektstørrelsen er klart innenfor
marginene for en statistisk styrke på 80%. Både korrelasjonsanalysen og chi-kvadrattesten finner en klar sammenheng mellom hvilken betingelse man tilordnes og hvordan man skårer ved IoP-FDS. Utvalget for hver betingelsene er ikke signifikant forskjellige med tanke på kjønn, aldersgrupper eller utdanning. Vi finner ingen signifikante effekter for hverken kjønn, aldersgruppe eller utdannelse på sannsynlighetsskåren IoP-FDS. Effekten av tilordnet
betingelse på IoP-FDS består når vi kontrollerer for kjønn, aldersgruppe og utdannelse.
Simuleringsbetingelsen ved denne studien er depresjon. Studier hvor eksperimentell simulering av depresjon er blitt undersøkt med IoP-29 (se Tabell 9) finner jevnt over svært store effektstørrelser (Cohen’s d ≥1.75), fra d = 1.80 til d = 4.32. Våre funn repliserer en svært stor effektstørrelse for tilordnet betingelse på IoP-FDS fra tidligere studier. Dette styrker den indre validiteten til den norske oversettelsen av IoP-29 ved simulering av depresjon. Vi undersøker eksperimentell simulering av depresjon med det største utvalget blant
sammenlignbare studier hittil. Funnet bidrar betraktelig i å dokumentere indre validitet for IoP-29 ved eksperimentell simulering av depresjon.
ROC-kurven for IoP-FDS-skårene (se Figur 2) viser jevnt over svært høy treffsikkerhet ved klassifikasjonen ved samtlige cut-off. Samlet sett viser den norske oversettelsen av IoP-29 svært høy gjennomsnittlig treffsikkerhet med en Area under the curve (AUC) på .94.
Tidligere studier har funnet en AUC fra .89 til .99 for IoP-29-FDS (se Tabell 9). Resultatene fra denne studien repliserer dermed treffsikkerheten fra tidligere studier, noe som styrker validiteten til den norske oversettelsen av IoP-29. Kombinasjonen av det store utvalget, sammen med en AUC i øvre sjikt blant studiene ved eksperimentell simulering av depresjon, bidrar til å styrke den indre validiteten til IoP-29.
Ved øyensyn viser fordelingen av sannsynlighetsskårer på tvers av betingelsene (se Figur 1) et klart tyngdepunkt for den ærlige svarbetingelsen i den lavere enden av skalaen. En overvekt av sannsynlighetsskårene for de eksperimentelle simulantene ligger i den øvre delen av