Innledning
Teacher Report Form (TRF) inngår i The Achenbach System of Empirically Based Assessment (ASEBA) som måler kompetanse, adaptiv fungering og sosiale, emosjonelle og atferdsmessige problemer hos barn/unge i alderen 6-18 år. ASEBA ble først introdusert av Achenbach og Edelbroch i 1986 (Achenbach & Edelbrock, 1986). Deretter ble det gitt ut en ny manual i 1991 uten at spørreskjemaet ble endret (Achenbach, 1991). I den nåværende versjonen av TRF (Achenbach & Rescorla, 2001) er det gjennomført noen mindre endringer av skjemaet hvor tre testledd ble endret og to lagt til. Det er denne siste versjonen fra 2001 som nå er i bruk i Norge. 2001-versjonen av TRF ble oversatt til norsk av Torunn Nøvik og Sonja Heyerdahl i 2002, og kan i dag kjøpes fra RBUP Øst-Sør, som har lisens på å selge ASEBA-pakken i Norge. TRF benyttes både i klinisk arbeid og i forskning. I denne evalueringen er det tatt med studier som benytter både 1991- og 2001-versjonen av TRF.
Den første siden av TRF omhandler demografisk informasjon, samt informasjon om elevens faglige fungering og tilpasning på skolen. Det beregnes et gjennomsnitt av elevens nivå i ulike fag. Her skåres hvert fag på en skala fra 1-5 (1 = langt under gjennomsnittet og 5 = mye over gjennomsnittet), der eleven sammenlignes med gjennomsnittlig fungering i klassen, og det beregnes en gjennomsnittskåre. En skåre for adaptiv fungering beregnes ved at hvert av testleddene humør, arbeidsinnsats, atferd og læring skåres på en skala fra 1 til 7 (1= langt under gjennomsnittet og 7 = langt over gjennomsnittet) og det beregnes en sumskåre som varierer fra 4 til 28.
TRF består videre av 120 spesifikke problemrelaterte spørsmål og tre åpne spørsmål. Alle spørsmål har svaralternativene 0 = stemmer ikke, 1 = stemmer delvis eller noen ganger og 2 = stemmer veldig bra eller ofte. Det beregnes blant annet en Totalskåre som varierer mellom 0 og 232. Læreren som fyller ut TRF skjemaet skal legge til grunn elevens fungering i løpet av de siste 2 månedene. Innenfor de 120 spørsmålene kan det beregnes følgende skalaer i tillegg til Total problemskåre: Internalisering syndromskala som består av summen av tre delskalaer (Affektive problemer, Angst/Depresjon og Somatiske plager), Eksternalisering syndromskala som består av summen av to delskalaer (Opposisjonelle vansker og Antisosial atferd), samt Oppmerksomhetsvansker/Hyperaktivitet, Sosiale vansker og Tankeproblemer. I tillegg kan det, basert på problemskårene, beregnes diagnostisk orienterte skårer for Affektive problemer, Angstproblemer, Somatiske problemer, ADHD problemer, Opposisjonelle problemer og Atferdsproblemer.
TRF, og resten av ASEBA-pakken, er validert og standardisert i store befolkningsstudier i USA, og er ansett som et grundig utviklet instrument (Verhulst & Koot, 1992). I ASEBA-manualen (Achenbach & Rescorla, 2001) refereres det til en amerikansk normeringsstudie blant 3086 barn og unge der det ble funnet at intern konsistens for de ulike skalaene varierte mellom 0,72 (Tankeproblemer) og 0,97 (Total problemskåre), mens test-retest korrelasjoner (16 dager) varierte mellom 0,72 (Tankeproblemer) og 0,95 (Sosiale problemer og Total problemskåre).
TRF er oversatt og tatt i bruk i mer enn 70 land. Rescorla med flere (2007) har gjennomført en studie av TRF-data fra 21 land. Her ble det funnet at intern konsistens er svært lik på tvers av disse 21 landene og at 15 av landene hadde en gjennomsnittskåre for Total problemskåre som var innenfor 1 SD av gjennomsnittet for alle studiene (M = 21,6 og SD = 6,2). Japan, Finland og Kina hadde de laveste skårene og Jamaica, Thailand og Puerto Rico hadde de høyeste. Det var ikke med norske data i denne studien. Når vi imidlertid sammenligner middelverdien fra de norske normdatatene som finnes (se tabell 3), ser vi at disse vesentlig ligger rundt middelverdien for de 21 landene.
TRFs faktorstruktur er undersøkt i en studie med data fra 20 land, og det ble der funnet støtte for de skalaene som benyttes (Ivanova et al., 2007a).
Metode
Vi søkte etter dokumentasjon på testenes psykometriske egenskaper i databasene Norart, BIBSYS, SveMed+, Cochrane Library, PsycINFO, Medline og Embase. Søkedato: 03.02.2011. Søkestrategien er tilgjengelig på http://www.psyktestbarn.no/CMS/ptb.nsf/pages/trf. Vi kontaktet også førsteforfattere av inkluderte artikler, samt oversetterne av TRF, for å identifisere dokumentasjon som eventuelt ikke ble fanget opp av det systematiske søket.
Vi inkluderte alle publikasjoner av studier som har undersøkt og rapportert minst ett av følgende i skandinaviske utvalg:
- normdata for testen
- reliabilitet: indre konsistens, test-retest, interrater og endringssensitivitet
- validitet: samsvar med liknende testskårer, samsvar med referansestandard eller annet kriterium, og/eller faktorstruktur
I tillegg, og kun for norske versjoner av TRF, inkluderte vi publikasjoner som rapporterte gjennomsnittsskårer og/eller forekomster for henholdsvis generelle populasjoner og kliniske undergrupper.
To forskere gikk gjennom sammendragene til alle identifiserte publikasjoner, uavhengig av hverandre, etter at dubletter var fjernet. Alle publikasjoner som kunne virke relevante ble bestilt inn i fulltekst, og prosessen over ble gjentatt for fulltekstrapportene.
To forskere vurderte normering, validitet og reliabilitet, uavhengig av hverandre, ved hjelp av en tilpasset versjon av Test review form and notes for reviewers (EFPA 2008).
Resultater
Litteratursøk
Det systematiske søket etter dokumentasjon på den norske TRF-versjonens psykometriske egenskaper resulterte i 35 treff, hvorav 23 ble vurdert i fulltekst for inklusjon. Åtte publikasjoner oppfylte ikke inklusjonskriteriene våre, og ble ekskludert. Én av disse var en klausulert hovedoppgave som ikke var til utlån (Ålovsrud & Grøslie, 2006). De øvrige sju ble ekskludert fordi de ikke rapporterte relevante data (Drugli & Larsson, 2009; Drugli & Larsson, 2006; Hartman et al., 1999; Haugvik & Johns, 2008; Høie et al., 2006; Ivanova et al., 2007b; Iversen, Knivsberg, Ellertsen, Nodland, & Larsend, 2006). Fra søket etter publikasjoner fra norske utvalg inkluderte vi altså 15 (Drugli, 2010; Drugli, Larsson, Clifford, & Fossum, 2007; Fossen, 1995; Fossen, Abrahamsen, & Storm-Mathisen, 1998; Hanssen-Bauer, Langsrud, Kvernmo, & Heyerdahl, 2010; Heiervang, Stevenson, Lund, & Hugdahl, 2001; Indredavik, Brubakk, Romundstad, & Vik, 2007; Javo, Ronning, Handegard, & Rudmin, 2009; Javo, Rønning, Handegård, & Rudmin, 2009; Kjøbli & Ogden, 2009; Knivsberg & Andreassen, 2008; Kristensen, 2001; Ogden & Hagen, 2006; Tonstad, vik, & Vandvik, 1996; Zeiner, 1997).
En forespørsel til forskere, oversettere og rettighetshavere om supplerende dokumentasjon førte til inklusjon av ytterligere to av seks publikasjoner (Larsson & Drugli, 2011; Lurie, 2006).
De 17 inkluderte publikasjonene rapporterte relevante data fra til sammen 10 tverrsnittstudier, tre kohortstudier og ett randomisert kontrollert forsøk (Vedlegg 1). Fire studier omfattet både kliniske og generelle populasjoner, seks rene kliniske populasjoner og fire rene generelle populasjoner. Utvalgsstørrelsene i studiene varierte fra 16 til 2688. Vi fant både deskriptive og psykometriske data fra fem studier, sju hadde kun deskriptive data og to hadde kun psykometriske data.
Dessuten inkluderte vi to av 15 publikasjoner som ble identifisert i det systematiske søket etter dokumentasjon for svenske og danske TRF-versjoner (Farooqi, Hagglof, Sedin, Gothefors, & Serenius, 2007; Nisell et al., 2009). De to publikasjonene rapporterte mål på indre konsistens og begrepsvaliditet. Deltakerne i de to studiene representerte en generell populasjon, ekstremt for tidlig fødte barn og barn med anal atresi. Utvalgene omfattet henholdsvis 87 og 86 barn.
Middelverdier i kliniske undergrupper
Blant de sju studiene som rapporterte middelverdier for TRF-skårer i kliniske undergrupper hadde to 100 deltakere eller flere (Hanssen-Bauer 2010, Kjøbli 2009). Vi har valgt å kun gjengi dataene for de to største utvalgene her (Tabell 1).
Tabell 1. Gjennomsnitt (M) og standardavvik (SD), kliniske undergrupper
Referanse |
Utvalg/gruppe |
N |
Totalskåre |
Internalisering |
Eksternalisering |
|||
M |
SD |
M |
SD |
M |
SD |
|||
Hanssen-Bauer et al., 2010 |
6-17-årige pasienter ved psykiatriske poliklinikker |
153 |
44,0 |
27,9 |
9,2 |
7,5 |
11,5 |
11,8 |
Kjøbli & Ogden, 2009 |
4-12-åringer med atferdsproblemer Gutter Jenter |
149 42 |
|
9,5 9,8 |
6,9 7,8 |
24,9 12,9 |
15,0 11,7
|
Normer
To populasjonsbaserte studier hadde store nok utvalg til å kunne danne normgrunnlag.
Drugli og Larsson (2010; 2011) rapporterte data fra et stort, nasjonalt utvalg med 858 barn i alderen 6 til 13 år. Svarprosenten for komplett utfylte skjemaer var 61 % (858/1490). Artiklene oppga normer for hele utvalget, og fordelt på kjønn og aldersgrupper. Kjønns- og aldersforskjeller var også rapportert og analysert. Vi har valgt å gjengi normene for hele utvalget og hovedskalaene her (Tabell 2). Se Vedlegg 2 for kliniske terskelverdier fra Drugli og Larssons utvalg.
Luries (2006) utvalg var ennå større, men selektert fra en mindre populasjon (alle 1.-6.-klassinger i Molde, Kristiansund, Averøy, Sunndal og Surnadal). Med 2688 ferdigutfylte TRF-skjemaer av 4685 mulige hadde studien en svarprosent på 62 %. Rapporten inneholdt gjennomsnittlige Total- Internalisering- og Eksternaliseringskårer for hele utvalget, samt fordelt på alder og kjønn.
Gjennomsnittsforskjellene i skårer mellom de to utvalgene har ikke vært testet statistisk, men det kan se ut som utvalget fra Møre og Romsdal gjennomgående hadde lavere skårer enn det nasjonale utvalget. Store standardavvik vitner om stor variasjon innen utvalgene.
Tabell 2. Gjennomsnitt (M) og standardavvik (SD), generelle populasjoner
Referanse |
Populasjon |
N |
Totalskåre |
Internalisering |
Eksternalisering |
|||
M |
SD |
M |
SD |
M |
SD |
|||
Larsson & Drugli, 2011 |
Norske barn i alderen 6-13 år |
858 |
17,3 |
21,6 |
4,2 |
8,2 |
4,1 |
4,8 |
Lurie, 2006 |
6-12-åringer i Møre og Romsdal |
2688 |
10,6 |
15,2 |
2,8 |
4,3 |
3,5 |
6,6 |
Validitet
Tre artikler rapporterte sammenfallende og diskriminant begrepsvaliditet, målt som korrelasjoner mellom TRF-skårer og skårer fra tilsvarende tester (Hanssen-Bauer et al., 2010; Javo et al., 2009; Zeiner, 1997).
Hanssen-Bauer og kolleger (2010)undersøkte forholdet mellom TRF-skalaer og skalaene i Health of the Nation Outcome Scales for Children and Adolescents (HoNOSCA). Korrelasjonskoeffisienten mellom TRF Totalskåre og HoNOSCA Totalskåre var 0,32 (p < 0,001). Når det gjaldt de øvrige skalaene varierte korrelasjonene fra -0,37 (p < 0,001) for TRF Oppmerksomhetsproblemer og HoNOSCA Emosjonelle symptomer til 0,62 (p <0,001) for TRF Eksternalisering og HoNOSCA Aggressiv atferd. Javo og kolleger (2009) undersøkte forholdet mellom TRF-skalaer og tilsvarende skalaer i Child Behavior Checklist (CBCL), som er foreldreversjonen i ASEBA-pakken. Korrelasjonskoeffisientene for Totalskåre var 0,27 (p < 0,05) i det samiske utvalget og 0,58 i det norske utvalget (p < 0,001). De øvrige skalaene korrelerte fra -0,07 (ikke-signifikant) for Tankeproblemer til 0,75 (p < 0,001) for kriminell atferd. Zeiner (1997) rapporterte den gjennomsnittlige Phi-koeffisienten for korrelasjoner mellom testleddene i Oppmerksomhetsskalaen i et lite utvalg. Koeffisienten var 0,22.
I et svensk utvalg med ekstremt for tidlig fødte 11-åringer varierte korrelasjonskoeffisientene mellom TRF- og CBCL-subskalaer fra 0,30 til 0,55 (Farooqi et al., 2007). Forfatterne spesifiserte ikke korrelasjonskoeffisientene for hver enkelt skala.
Vi fant ingen artikler som rapporterte mål på kriterievaliditet.
Reliabilitet
Fire artikler rapporterte indre konsistens for en eller flere TRF-skalaer (Drugli et al., 2007; Javo et al., 2009; Kjøbli & Ogden, 2009; Larsson & Drugli,2011). Den indre konsistensen var god for Internalisering og svært god for Totalskåre og Eksternalisering (Tabell 3). Cronbachs alfa varierte lite på tvers av studiene, og var beregnet på store utvalgsstørrelser.
De to svenske studiene rapporterte Cronbachs alfaer fra 0,71 til 0,93 (Farooqi et al., 2007; Nisell et al., 2009).
Ingen studier rapporterte test-retest reliabilitet for noen av de skandinaviske TRF-versjonene, men én norsk studie hadde undersøkt endringssensitiviteten ved Internalisering og Eksternalisering: henholdsvis 0,63 og 0,89 (Kjøbli & Ogden, 2009). I følge forfatterne var disse koeffisientene innenfor det akseptable, men det er uklart hva slags design og analyser de benyttet.
De to svenske studiene rapporterte Cronbachs alfaer fra 0,71 til 0,93 (Farooqi et al., 2007; Nisell et al., 2009).
Ingen studier rapporterte test-retest reliabilitet for noen av de skandinaviske TRF-versjonene, men én norsk studie hadde undersøkt endringssensitiviteten ved Internalisering og Eksternalisering: henholdsvis 0,63 og 0,89 (Kjøbli & Ogden, 2009). I følge forfatterne var disse koeffisientene innenfor det akseptable, men det er uklart hva slags design og analyser de benyttet.
Tabell 3. Indre konsistens (Cronbachs alfa)
Skala |
Drugli et al., 2007 |
Javo et al., 2009 |
Javo et al., 2009 |
Kjøbli & Ogden, 2009 |
Larsson & Drugli, 2011 |
(n=127) |
(n=71)[1] |
(n=77)[2] |
(n=323) |
(n=858) |
|
Totalskåre |
0,96 |
0,97 |
|
0,97 |
|
Internalisering |
0,87 |
0,87 |
0,84 |
0,85 |
0,85 |
Eksternalisering |
0,95 |
0,95 |
0,96 |
0,95 |
[1] Samiske barn
[2] Norske barn
Diskusjon og konklusjon
Den norske versjonen av TRF har vært brukt i en rekke publiserte studier, som gir nyttig informasjon om måleegenskaper som normer og indre konsistens. De nasjonale normene gjelder aldersgruppen 6-13 år. Normer for ungdommer i alderen 14-18 år foreligger foreløpig ikke. Det kunne se ut som barn fra det nasjonale utvalget generelt skåret høyere på TRF enn barn fra Møre og Romsdal. Det ville være interessant å undersøke om disse forskjellene er reelle, og i så tilfelle hva årsaken til forskjellene er. Hvis det er store regionale forskjeller i TRF-skårene til norske barn er nasjonale normer mindre relevant, og bør erstattes av regionale normer.
Med Cronbachs alfa på 0,84 til 0,97 kan den indre konsistensen til Totalskåren, Internalisering og Eksternalisering sies å være god til svært god. Dette vil si at det er godt samsvar mellom testleddene i de ulike skalaene. Det er neppe nødvendig med ytterligere forskning for å bekrefte disse funnene.
TRF-skårene korrelerte i varierende grad med skårer fra tilsvarende instrumenter, som HoNOSCA og CBCL. Korrelasjonene var imidlertid vanskelige å tolke som mål på begrepsvaliditet på grunn av uklar relevans, små utvalg fra spesielle populasjoner og små koeffisienter.
Gitt at diagnostiske skårer skal kunne beregnes på grunnlag av TRF-problemskårene er det et problem at ingen av de inkluderte studiene hadde undersøkt de diagnostiske skårenes kriterievalidtitet, f eks ved å beregne mål på diagnostisk nøyaktighet. Vi kan altså ikke være sikre på at de diagnostiske TRF-skårene gjenspeiler enkeltindividers sanne psykiatriske diagnoser.
Test-retest reliabilitet var heller ikke dokumentert av noen av de inkluderte studiene. Vi mangler derfor kunnskap om skårenes stabilitet over tid. I en normalpopulasjon forventes skårene å holde seg stabile.
Til tross for en omfattende forskningslitteratur er dokumentasjonen av måleegenskapene til den norske versjonen av TRF mangelfull. Dette bør gjenspeiles med at det utøves skjønn i tolkningen av enkeltindividers skårer i klinisk praksis. Videre bør framtidige studier som bruker TRF fortsatt fokusere på måleegenskaper, og da særlig diagnostisk nøyaktighet, men også begrepsvaliditet, test-retest reliabilitet og normer.