Psykometri - måleegenskaper

De fleste tester i PsykTestBarn er oversettelser av engelskspråklige originalversjoner.

En vanlig framgangsmåte for oversettelse av tester er å først oversette til det nye språket, før en annen person oversetter tilbake til originalspråket igjen. En slik ”toveisoversettelse” kan anses som vellykket hvis meningsinnholdet i den tilbakeoversatte versjonen og originalversjonen er likt. Det er imidlertid ikke tilstrekkelig at norske testversjoner rent språklig er i overensstemmelse med originalversjonen. Alle tester som oversettes til norsk fra et annet språk må kunne dokumentere krysskulturell ekvivalens. I følge retningslinjene til International Test Commission innebærer dette å dokumentere at den norske versjonen tilfredsstiller både språklige, kulturelle og statistiske krav til ekvivalens.

Reliabilitet

Reliabilitet gir uttrykk for stabilitet og konsistens i resultatene av testen. Det er vanlig å bruke tre hovedkategorier av reliabilitet: indre konsistens, test-retest reliabilitet og interraterreliabilitet.

Indre konsistens er et mål på samsvar mellom ulike testledd som til sammen skal gjenspeile individuell variasjon i et gitt fenomen. En indikator for graden av indre konsistens uttrykkes i Cronbachs alfa.Indre konsistens er en viktig psykometrisk egenskap ved latente begreper, som f.eks. depresjon slik denne er operasjonalisert i SCL-90-R. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av Cronbachs alfa:

Utilfredsstillende: < 0,7
Tilfredsstillende: 0,7 – 0,79
God: 0,8 – 0,89
Utmerket: > 0,9

Test-retest reliabilitet angir samsvar mellom resultater av en og samme test på to forskjellige tidspunkt. Dette uttrykkes vanligvis ved korrelasjon mellom målene, og kalles stabilitetskoeffisienten. Tidspunktet mellom målingene avhenger av hvor stabilt vi tenker at de egenskapene er som testen er ment å måle. Dersom det dreier seg om en personlighetstest, der egenskapene som måles anses å være mer stabile trekk, er det naturlig å operere med et lengre tidspunkt mellom målingene, f eks 4 uker. Dersom testen er ment å måle mer flyktige tilstander, som for eksempel stress, angst eller depresjon, er det naturlig at tidspunktet mellom målingene er kortere, f eks 4-5 dager. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av stabilitetskoeffisienten:

Utilfredsstillende: < 0,6
Tilfredsstillende: 0,6 – 0,69
God: 0,7 – 0,79
Utmerket: > 0,8

Interraterreliabilitet er særlig relevant for tester hvor fagfolk skal gjøre vurderinger basert på observasjoner som er innhentet ved hjelp av en test. Et slikt eksempel kan være diagnostiske intervjuer, hvor man skal ta stilling til om intervjuobjektet oppfyller visse diagnosekriterier. Hvis to forskjellige fagfolk konkluderer likt om en persons diagnoser, kan diagnosene sies å ha høy interraterreliabilitet. Grad av enighet ved kategoriske mål, for eksempel diagnose, uttrykkes gjerne med en koeffisient kalt ’Kappa’. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av Kappa:

Utilfredsstillende: < 0,6
Tilfredsstillende: 0,6 – 0,69
God: 0,7 – 0,79
Utmerket: > 0,8

For skalaer med finere gradering uttrykkes enigheten gjerne ved intraklassekorrelasjoner (ICC).

Ved testing av barn er det vanlig å innhente opplysninger fra voksne som kjenner barnet godt, for eksempel foreldre og lærere. I slike tilfeller er måling av interraterreliabilitet en utfordring, fordi det, for eksempel, er rimelig å forvente stor variasjon i hvordan lekfolk svarer om én og samme person. I slike tilfeller kan reliabiliteten anslås ved hjelp av såkalte ’Generalizability’ studier, der ulike feilkilder kan avdekkes.

 

Validitet

Validitet som psykometrisk egenskap er et uttrykk for hvor godt et mål reflekterer fenomenet det er ment å måle. Dette knytter seg til tolkningen av målet og i hvilken grad vi kan rettferdiggjøre en slik tolkning. Innholdsvaliditet vurderes ved hjelp av faglig skjønn ved å stille spørsmål om testresultatet er dekkende for fenomenet det skal måle. Validitet kan også vurderes kvantitativt.

Begrepsvaliditet handler om hvordan det testen måler forholder seg til et underliggende, teoretisk psykologisk fenomen. Sammenfallende begrepsvaliditet er når et mål på et fenomen korrelerer høyt med et annet (anerkjent) mål på det samme fenomenet. Dette kan undersøkes ved å gi samme gruppe mennesker to tester som er ment å måle det samme, og beregne korrelasjonskoeffisienten for skårene fra de to testene. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av korrelasjonskoeffisienten:

Utilfredsstillende: < 0,55
Tilfredsstillende: 0,55 – 0,64
God: 0,65 – 0,74
Utmerket: > 0,75

Diskriminant begrepsvaliditet er når et mål på ett fenomen opptrer uavhengig av et mål på et annet, konseptuelt forskjellig fenomen. Det er vanlig å undersøke diskrimant validitet ved hjelp av faktoranalyse av skårer fra en test som er ment å måle forskjellige fenomener.

Kriterievaliditet handler om hvordan psykologiske mål forholder seg til mål fra den virkelige verden. Samtidig kriterievaliditet kan for eksempel undersøkes ved hjelp av statistiske metoder for diagnostisk nøyaktighet, hvor et diagnoseresultat fra en test sammenliknes med den ”sanne” diagnosen, en såkalt referansestandard. Basert på fordelingen av antall sanne og falske positive og negative testresultater kan man beregne størrelser som sensitivitet, spesifisitet, positiv og negativ prediktiv verdi (PPV/NPV), positiv og negativ likelihood ratio (PLR/NLR), receiver operating characteristic (ROC) kurve og diagnostisk odds ratio (DOR).

Strukturerte diagnostiske intervjuer følger de diagnostiske klassifikasjonssystemene, så i utgangspunktet bør kriterievaliditeten være tilfredsstilt. De fleste diagnostiske tester innen psykisk helse basere seg på Diagnostic and statistical manual of mental disorders (DSM-IV) (American Psychiatric Association, 1994), som er et ganske spesielt klassifikasjonssystem. I motsetning til et så kalt monotetisk system, der et bestemt sett av kriterier er både nødvendig og tilstrekkelig, har DSM-IV et polytetisk system. Her er hvert av kriteriene for de ulike diagnosene verken tilstrekkelige eller nødvendige. Det som definerer diagnosen er et bestemt antall fullfylte kriterier (antallet er tilfeldig valgt), f.eks 4 av de 7 kriteriene for unnvikende personlighetsforstyrrelse må være fullfylt for å bli gitt diagnosen. Hvilke som er fullfylt er likegyldig.

Innen psykisk helse er det vanskelig å definere en ”sann” diagnose, ettersom det ikke finnes noen objektive målemetoder for psykiatriske symptomer. Den amerikanske psykiateren Robert L. Spitzer har imidlertid foreslått en referansestandard for psykiatriske diagnoser: LEAD, som er et akronym for Longitudinal, Expert og All Data (Spitzer, 1983). LEAD-prinsippet går ut på at den diagnostiske vurderingen skal foregå over tid, og at vurderingene skal gjøres av erfarne klinikere basert på flere informasjonskilder. Denne referansestandarden har oppnådd høy anseelse når det gjelder validering av diagnostiske instrumenter innen psykisk helse.

Prediktiv kriterievaliditet er når testresultater holdes opp mot et kriterium observert lenger fram i tid. Som eksempler kan nevnes et mål på intelligens i forhold til skolekarakterer. Eller voldsrisikovurdering i forhold til voldsutøvelse. I denne sammenhengen bruker vi European Federation of Psychologists’ Associations (EFPA) Test review form and notes for reviewers, med følgende føringer for tolkninger av korrelasjonskoeffisienten:

Utilfredsstillende: < 0,2
Tilfredsstillende: 0,2 – 0,34
God: 0,35 – 0,49
Utmerket: > 0,5
 

Normer

Grensene for hva som er ”normalt” for én og samme test kan variere fra land til land. Det er derfor viktig å basere normer på empiriske undersøkelser med den aktuelle versjonen av testen på en relevant populasjon. 

Få tester gjennomgår en fullstendig normering der det innhentes data for alle relevante demografiske undergrupper (kjønn, aldersgrupper, utdanningsgrupper). Ofte velger man å ”validere” oversatte tester som et alternativ til full standardisering. I slike valideringer undersøker man om testen har de samme psykometriske egenskaper som den opprinnelige testen. Validitet sjekkes ved å se om testen skiller mellom grupper som varierer på konstruktet testen er ment å måle og om faktorstrukturen er den samme som i den opprinnelige utgaven. En vil ofte ta utgangspunkt i at det fenomenet testen skal måle ikke nødvendigvis varierer betydelig mellom vestlige land (oftest aktuelt å oversette fra engelsk), men at testledd kan oppfattes forskjellig i ulike kulturer, og at det derfor er viktig å teste om oversettelsen fungerer tilfredsstillende. Velger en å samle normdata for alle relevante subgrupper, må antallet personer i hver undergruppe være omfattende nok til å gi reliable resultater som muliggjør generalisering til populasjonen. Med utgangspunkt i at man heller vil teste oversettelsen enn populasjonen kan man alternativt velge ut et fåtall undergrupper. I validering av en test for barn, vil en da velge ut et årskull eller evt to med spredning mellom dem, for å teste om barna oppfatter testleddene slik de er intendert, og for å teste gyldigheten av de opprinnelige normene. Hvis en slik validering viser at de opprinnelige normene er gyldige, vil en da ikke velge å foreta en fullstendig normering av prøven.

 

Endringssensitivitet

Endringssensitivitet ("responsiveness" eller "sensitivity to change" på engelsk) sier noe om hvorvidt verktøyet er følsomt for endring over tid i det aktuelle begrepet (f.eks angst eller livskvalitet). Det er ulike måter å forstå og undersøke endringssensitivitet på. Mokkink et al. (2010) beskriver det som en separat psykometrisk egenskap i tillegg til reliabilitet og validitet. Andre forfattere knytter det opp mot reliabilitet (når fokus er på reliabilitet av endringsskårer) og validitet (hvis det har vært reell forandring, klarer verktøyet å plukke det opp?), se for eksempel Terwee et al. (2003). I kliniske sammenhenger eller i evalueringsforskning er det ofte viktig at de testene vi benytter er sensitive for endring, slik at de kan anvendes som mål på effekten av behandling eller effekten av en intervensjon. Det kan derfor være aktuelt å beskrive også endringssensitivitet for enkelte måleinstrumenter gitt at testen er tenkt brukt til å måle endring over tid for en gruppe. Det er flere måter å undersøke dette på som i noen grad vil overlappe med studier som også belyser reliabilitet og validitet. 

 

Referanser

American Psychiatric Association (1994). Diagnostic and statistical manual of mental disorders: DSM-IV. Washington, DC: American Psychiatric Association.

Mokkink, L. B., Terwee, C. B., Patrick, D. L., Alonso, J., Stratford, P. W., Knol, D. L. et al. (2010). The COSMIN checklist for assessing the methodological quality of studies on measurement properties of health status measurement instruments: an international Delphi study. Quality of Life Research, 19(4), 539-549. doi: 10.1007/s11136-010-9606-8

Spitzer, R. L. (1983). Psychiatric-Diagnosis - Are Clinicians Still Necessary. Comprehensive Psychiatry, 24, 399-411.

Terwee, C. B., Dekker, F. W., Wiersinga, W. M., Prummel, M. F. & Bossuyt, P. M. (2003). On assessing responsiveness of health-related quality of life instruments: guidelines for instrument evaluation. Quality of Life Research, 12(4), 349-362.

08.10.2019  

Ja Nei

Så bra! Din tilbakemelding er registrert.

Send