Jag har funnit inte färre än 10 punkter där Flodmarkrapporten
är behäftad med allvarliga brister. Varje enskild brist är så pass allvarlig att
den väcker viktiga frågor om rapportens vederhäftighet. Samtliga brister och
fel ”drar åt samma håll", vilket bidrar till att Flodmark i rapporten underkänner samtliga internationellt
vedertagna metoder för åldersbedömning och rekommenderar att man genomför tidsödande och osäkra pilotstudier av ny teknologi. Som vi ska se är slutsatserna och rekommendationerna mycket tveksamma.
Bristerna sammanfattas nedan, med detaljerad förklaring längre ner i texten:
- Man har inte involverat relevant expertis under
arbetets gång
- Man har använt tveksamma kriterier för
vad som är en lämplig metod
- Man har missförstått samstämmighetsbegreppet
- Man har använt ett irrelevant mått på samstämmighet
- Man har utvärderat traditionella röntgenmetoder på ett
icke-rättvisande sätt
- Man har ignorerat en stor del av den tillgängliga
forskningen
- Man har ignorerat en standardmetod enligt internationella riktlinjer
- Man har använt en icke-validerad metod för metaanalys
- Man har överskattat effekten av MR-baserade metoder
- Man ger långsökta rekommendationer om pilotstudier
Brist 1: Man har
inte involverat relevant expertis under arbetets gång
Rapporten är enligt introduktionen en systematisk översikt
enligt GRADE-metoden. GRADE är ett försök att systematisera
litteraturöversikter, och en av förutsättningarna för att man ska kunna
genomföra en systematisk litteraturöversikt är att arbetet koordineras av en
multidisciplinär arbetsgrupp bestående av sakkunniga. Dessvärre har ingen av de
personer som ingår i den här rapportens arbetsgrupp några forskningsmeriter inom
radiologisk åldersbedömning (åtminstone hade de inte det när rapporten
färdigställdes). Ingen svensk eller internationell expert på radiologisk
åldersbedömning förefaller heller ha haft inflytande på arbetet, även om flera
internationella forskningsgrupper kontaktades avseende litteratursökningen.
Man
har inte motiverat beslutet att författa en vetenskaplig översikt utan att
involvera de experter på området som ändå finns i Sverige. Flodmark själv är
docent med barnfetma som forskningsområde. Han är till yttermera visso
miljöpartist och före detta ledamot i Barnläkarföreningens styrelse, den
organisation som allra mest högljutt motsatt sig alla försök att införa
radiologiskt baserad åldersbedömning i Sverige.
Flodmarks renommé som barnläkare och forskare ifrågasätter
jag inte, men som ledare för ett projekt på detta politiskt känsliga område
borde man måhända ha vinnlagt sig om att hitta någon med färre potentiella
jävsförhållanden, eller åtminstone ha säkerställt att relevant expertis var
representerad i arbetsgruppen.
Brist 2: Man har
använt tveksamma kriterier för vad som är en lämplig metod
Själva rapporten inleds med att Flodmark presenterar en rad
kriterier för vad som bedöms vara en godtagbar metod. ”Samstämmigheten” ska
vara 80%, risken för att barn felaktigt ska klassas som vuxna ska vara mindre än 10%, och
90% ska klassas ”rätt”, dvs som vuxna om de är vuxna respektive som barn om de
är barn. De här kriterierna är minst sagt diskutabla.
För det första finns det inget skäl att a priori definiera kriterier
för vad som är en ”tillräckligt bra” metod om man gör en neutral vetenskaplig
översikt. Det är rimligen en fråga som rymmer andra aspekter än de rent
medicinska (etiska, juridiska, politiska etc). För det andra är kriterierna
helt godtyckliga (ingen referens anges) och högst kontroversiella. Är det
verkligen acceptabelt med 90% säkerhet att ett barn inte felaktigt klassas som
vuxen? Vissa skulle säkert kunna argumentera för att man ska uppnå 95% säkerhet.
Och varför ska 90% av alla undersökta klassas ”rätt” (som varande under eller
över 18)? Det viktiga är väl trots allt att barn inte klassas som vuxna? Om
vuxna klassas som barn är det långt mindre allvarligt, eftersom det inte medför
någon nackdel för den enskilde. En metod som klassar 80% rätt totalt med 2% av
undersökta barn felklassade som vuxna förefaller mer attraktiv än en metod som
klassar 92% rätt i hela gruppen men klassar 10% av undersökta barn som vuxna –
etc. De kriterier som Flodmark slår fast i början av rapporten motiveras inte
på något sätt.
Intrycket att kriterierna är helt godtyckliga och dessutom tveksamma
förstärks av att Flodmark själv, pikant nog, redan har hunnit ändra sig sedan
rapporten publicerades i april! Tre månader senare, i en intervju med Ekot 11/7, uppgav han
nämligen att Socialstyrelsen vill ha 95% säkerhet – trots att han själv i
rapporten ”bara” kräver 90%!
Brist 3: Man har
missförstått samstämmighetsbegreppet
Samstämmighet är i det här fallet ett mått på i hur hög grad
två olika radiologer (till exempel) bedömer samma bild likadant. Om två
radiologer bedömer samma bild ska de naturligtvis helst ge bilden samma ”poäng”
eller stadium på skalan. Flodmark säger sig kräva 80% samstämmighet för att en
metod ska vara acceptabel. Men ingenstans preciserar han vilken samstämmighet det
rör sig om, och det är av stor betydelse.
Den mest använda skalan för bedömning av tandröntgenbilder är
Demirjian. Demirjianskalan har åtta steg: A-H. Betyder ”samstämmighet” att 80%
av alla bilder ska få exakt samma klassificering av två olika bedömare? I så
fall har Flodmark hämtat fel data från de artiklar som ingår i översikten, för
där redovisas inte denna typ av samstämmighet utan ett mer vedertaget mått:
”kappa” (bokstaven ’k’ i det grekiska alfabetet, förenklat (och med reservation
för att jag inte är statistiker) är detta ett sätt att korrigera för slumpmässig
överensstämmelse). När Flodmark kräver ”80% samstämmighet” har han alltså ingen
möjlighet att utvärdera detta med den data han har samlat in, för de
publikationer han refererar anger bara kappakoefficienterna. Flodmark har av
misstag översatt kappakoefficienterna rakt av till procentuell samstämmighet, vilket är
helt fel.
Ett möjligt försvar mot denna invändning är att man hela
tiden menade ”kappa minst 0,80” och inte ”minst 80% samstämmighet” men valde
att förenkla för en mindre tekniskt bevandrad publik. Det här håller inte heller som ursäkt, eftersom ett kappavärde på 0,70 inte på något sätt utesluter en
samstämmighet på 80% - det beror på hur stor den slumpmässiga överensstämmelsen
mellan bedömarna är. Att ställa upp ett absolut krav på att en metod ska uppnå en viss kappakoefficient är således inte särskilt meningsfullt (mer om det senare).
Brist 4: Man har
använt ett irrelevant mått på samstämmighet
En än viktigare brist är att Flodmarks mått på
samstämmighet (oavsett om det är procent eller kappa) egentligen inte har
någonting med undersökningarnas pålitlighet att göra, åtminstone inte som de
ska användas i det här sammanhanget. Samstämmigheten i publikationerna ("kappakoefficienterna") bedöms
nämligen utifrån hur väl bedömarnas bedömning är samstämmig över hela skalans spektrum (exempelvis
A-A, C-C, F-F etc), men när det gäller att bedöma 18-årsgränsen är det bara
stadium H och möjligtvis G som är av intresse (när det gäller den mest använda Demirjianmetoden).
Det är alltså strängt taget fullständigt ointressant om två
olika bedömare har svårt att enas kring huruvida en viss röntgenplåt motsvarar stadium
B, C eller D, då samtliga dessa stadier är förenliga med att den undersökte är
under 18 (eller rättare, att inget av dessa stadier är förenliga med slutsatsen
att den undersökte sannolikt är över 18).
Eftersom extremerna på en sådan här skala oftast eller alltid
är lättare att enas kring än intermediärstadierna finns det goda skäl att anta
att samstämmigheten gällande ”stadium H eller ej” är väsentligt högre än för skalan
som helhet från A till H. Det finns i alla händelser inget som helst skäl att
bedöma en metod som otillförlitlig avseende 18-årsgränsen utan att man har
bedömt samstämmigheten för det stadium som är relevant för just 18-årsgränsen.
Även detta är en helt fundamental brist.
Jag har frågat rapportförfattarna
om de känner till någon studie där samstämmigheten för tandröntgen avseende
18-årsgränsen (alltså den bedömning de anser att tandröntgen inte har
tillräckligt god samstämmighet för) har prövats, men de har inte gett mig några
sådana exempel. Jag har emellertid hittat två sådana studier: Galic, 2015 och
Cameriere, 2014. Här har samstämmighet för 18-årsgränsen bedömts med
tandröntgen (”Maturity Index”, mer om detta senare) och i en av studierna är
samstämmigheten avseende 18-årsgränsen helt
perfekt (kappakoefficient 1,0) och i den andra är den extremt hög (0,89).
Det finns alltså inget som helst stöd för Flodmarks slutsats att tandröntgen inte kan användas för att bedöma 18-årsgränsen på grund av bristande samstämmighet mellan olika bedömare. De studier han åberopar har inte studerat frågan, och de studier som har studerat frågan visar i princip perfekt samstämmighet.
Brist 5: Man har
utvärderat traditionella röntgenmetoder på ett icke-rättvisande sätt
Flodmark avfärdar sedan åldersbedömning med tandröntgen på
grund av att ”samstämmigheten” är så låg som 60-85% (i själva verket
kappakoefficient 0,60-0,85). Notera att jag i detta kapitel bemöter Flodmarks
kritik mot tandröntgenmetodernas samstämmighet som om den vore relevant – det
är den alltså inte, vilket framgick ovan. Jag går honom till mötes för att det
är ett så utmärkt exempel på hur data konsekvent tolkas till de traditionella, internationellt
accepterade, metodernas nackdel.
Granskar man rapportens bilaga 7 (nedan) framgår tydligt att de
flesta studier har mycket god samstämmighet för tandröntgen! Det är bara Scheurerstudien som faller ur ramen
med ett kappavärde på 0,58-0,60. Alla andra ligger väsentligt högre.
När så
många studier som utvärderar och dokumenterar en metod har genomförts är det
fullständigt orimligt att avfärda metoden utifrån vad den absolut sämsta
studien visar. Om två forskargrupper, X och Y, med två radiologer i varje,
använder samma metod och grupp X får klart sämre resultat än grupp Y, så är den
mest närliggande slutsatsen inte att metoden är opålitlig. Eftersom grupp Y uppenbarligen kan uppnå goda resultat med samma metod är den mest rimliga slutsatsen att grupp X har minst en radiolog som behöver mer träning!
Dessutom har Scheurerstudien en helt annan ålderssammansättning än
de övriga. Man undersökte nämligen uteslutande ungdomar i åldern 17,5-18,5. Med ett så
snävt spann kommer även tandmognaden att vara mer samlad runt ett färre antal stadier än om man inkluderat 12- och 25-åringar, varför också siffrorna för
samstämmighet kommer att vara sämre.
Att av denna enda studie dra slutsatsen att samstämmigheten
är dålig för tandröntgen (när det finns ett stort antal studier med en mer
relevant population som har mycket bättre samstämmighet) är alltså direkt
orimligt.
Det är också värt att notera att ett kappavärde i intervallet
0,6-0,8 normalt anses klart godkänt (”substantial agreement”). Det är oklart
varför Flodmark redan innan rapporten skrevs bestämde sig för att kräva 0,80.
Inte bara när det gäller samstämmigheten missgynnar rapporten
de internationellt accepterade röntgenmetoderna. Även resultaten från studier
som undersöker dessa metoder framställs som sämre än de är, eller
misstolkas på ett sätt som får dem att framstå som sämre än de är. Ett flagrant
exempel på detta är resultaten för tandröntgen i figur 3, sidan 14. Där står
att tandröntgen medför 12% risk att barn klassas som vuxna. Denna siffra gäller
dock endast Kullmanmetoden.
Som framgår av sidan 13 (nedan) visar Flodmarks egen
metaanalys att risken för att barn klassas som vuxna med (den mer vedertagna) Demirjianmetoden är 5%!
Så varför presenteras inte dessa resultat i figuren?
Varför presenteras bara Kullmanresultaten i figuren och i sammanfattningen
(sidan 7)?
Där står inte ett ord om att
Demirjianmetoden har mycket bättre resultat än Kullmanmetoden, fullt jämförbara
med de resultat som presenteras för MR!
Ett mer utstuderat exempel återfinns i samma stycke ovan. Det står ”När det gäller andelen barn som klassats som barn ligger risken att
klassificera rätt ofta under 90% enligt den vanligaste metoden Demirjian [26,
29, 35, 39, 40].” Detta skapar naturligtvis ett intryck av att de fem studier
som refereras efter påståendet visar att Demirjians metod klassar barn som barn
i mindre än 90% av fallen. (Jag antar här att Flodmark egentligen menar ”Sannolikheten att en undersökt som klassas som vuxen faktiskt är vuxen", eftersom det är den andelen han presenterar för övriga metoder i rapporten. Andelen barn som klassas som barn är faktiskt något annat (positivt prediktivt värde vs sensitivitet), även om andelen i de flesta fall kommer att vara snarlik.)
Referens nr 26 är Babburi et al. I tabell 3 i denna studie
framgår att 10:e percentilen för stadium H är 18,78 år för pojkar, 17,84 för
flickor. För pojkar är sannolikheten att den undersökte är 18 år fyllda alltså
över 90% om stadium H har nåtts.
Referens nr 29 är Cameriere et al
2008. Här anges sannolikheten att den undersökte är 18 vid stadium
H till 96 resp 98% (män/kvinnor). (Tabell 5)
Referens 35 är Liversidge et al 2010. Här är sannolikheten
95,1% vid stadium H. (Tabell 6)
Referens 39 är Scheurer et al 2011, dvs studien där man bara
undersökte personer mellan 17,5 och 18,5 års ålder. Den återger vad jag kan se inga sådana siffror, och är hur som helst direkt olämplig att
jämföra med studier med bredare intervall (vanligen studeras personer i
åldersspannet 15-25 – att fler blir felklassificerade när man bara inkluderar
personer som ligger inom sex månader från 18-årsgränsen är självklart!).
Referens 40 är Streckbein et al, 2014. Varför man refererar
denna studie är oklart, eftersom man där undersökt sannolikheten för att en individ
är över 18 om alla fyra visdomständerna är fullt utvecklade, och finner att den
är över 99%.
Till Flodmarks försvar ska det nämnas att det finns ett antal studier som visar <90% (Kasper,
Garamendi, möjligen fler), men ingen av dessa studier refereras av Flodmark. Majoriteten av
studierna visar omkring 95% eller mer, liksom Socialstyrelsens egen metaanalys.
Och om man ändå tänker basera sin bedömning av metoden utifrån de absolut sämsta
resultat som någonsin uppnåtts, varför då göra en metaanalys?
Notera taktiken, liksom i fallet för
samstämmighet ovan, att gå igenom ett antal studier och sedan diskvalificera
metoden på grundval av vad de sämsta studierna visar, snarare än bevisningen
som helhet.
Flodmark nämner sedan att en modifierad metod (”Maturity
Index”) har utvecklats av en italiensk grupp, och tillstår att denna metod
förefaller vara bättre. Han underkänner emellertid även Maturity Index, av det
enkla skälet att man endast bedömt samstämmighet på en delmängd av det totala
materialet (Cameriere, 2008). Men detta är närmast standardförfarande på det
här området, och flera andra publikationer bekräftar att samstämmigheten är
utmärkt! Åtminstone två av dessa publikationer (Galic 2015 och Cameriere 2014)
är emellertid inte inkluderade i Flodmarkrapporten, trots att de registrerades i Medline före
Deitos-studien (som inkluderades). Det finns säkert en bra förklaring på det, men det är inte tydligt utifrån de sökkriterier som använts.
Galicstudien visar för övrigt att Maturity Index som enda studerade metod uppfyller samtliga de krav Flodmark ställer upp, då kappakoefficienten/samstämmigheten var 0,90, över 90% klassades rätt och mer
än 95% av alla som hade ett "positivt" test var över 18 år. Liknande resultat sågs
i Cameriere 2014 (92,5% resp 94,4% (pojkar)). Det finns alltså ett antal publikationer som visar både utmärkt samstämmighet och övertygande resultat för
Maturity Index, men ändå avfärdas metoden med hänvisning till en ren teknikalitet.
Brist 6: Man har
ignorerat en stor del av den tillgängliga forskningen
När det gäller skelettröntgen är Flodmark om möjligt ännu mer
orättvis mot materialet. För handledsröntgen väljer han att bara inkludera
studier där man automatiserat bildtolkningen, och bortser därmed helt sonika
från det enorma forskningsmaterial som utgörs av studier där man använt sig av
manuell tolkning av bilder! Betänk nu att röntgen av handled och tänder är
huvudmetoderna i radiologisk åldersbedömning. Hur kan man kalla rapporten en
litteraturöversikt när man bara gjort halva jobbet? Motiveringen, att tiden
inte räckte till, är inte imponerande. Man kan alltså inte påstå att Flodmark
underkänner dokumentationen bakom radiologisk åldersbedömning, det vore mer
korrekt att säga att han konstaterar att han inte har haft tid att lösa uppgiften!
I princip kokar Flodmarks granskning av hundratals studier av
skelettröntgen ner till en enda studie; Thodbergstudien. Som framgår av publikationen
är resultaten för Thodbergs metod inte särskilt långt från kraven som ställs
upp av Flodmark i början av rapporten (87,5% vs 90% (testet anger vuxen och den
undersökte är vuxen), 79,6% rätt klassificerade mot 90%). Samstämmigheten är
100% eftersom tolkningen är automatiserad. Snubblande nära, således, men
Thodbergmetoden avfärdas ändå utan vidare spisning.
Brist 7: Man har
helt ignorerat en standardmetod enligt internationella riktlinjer
Tandröntgen och handledsröntgen är alltså de två viktigaste
undersökningsmetoderna enligt internationell praxis och riktlinjer. Den tredje
mest relevanta metoden, datortomografi av nyckelben, tas överhuvudtaget inte upp av Flodmark, trots att detta alltså är en
metod som rekommenderas av internationella riktlinjer! Motiveringen till detta (enligt
en debattartikel i Läkartidningen)
är att undersökning av nyckelben med MR
(MR, nota bene!) är behäftad med rörelseartefakter som försvårar tolkningen!
Datortomografi är dock en helt annan metod, där bildhämtningen går betydligt
snabbare och rörelseartefakterna följaktligen är mycket mindre.
Det är därför
de främsta internationella riktlinjerna rekommenderar datortomografi av nyckelben som
tredjehandsundersökning, och det är därför mycket märkligt att Flodmark inte med
ett ord tar upp denna metod i sin rapport.
(Kommentar: Ser i efterhand att metoden faktiskt nämns, på sidan 11:
Detta är bara ett problem med detta. Flodmark har läst fel i publikationen han hänvisar till. Vieth, som han hänvisar till, skriver nämligen
"A total of 304 medial clavicular epiphyses were evaluated in 152 test persons. An ossification stage was determined in 225 clavicles. 79 clavicles were not evaluable due to norm variants (61 cases) or movement artefacts (18 cases). "
Det är alltså inte 61 av 152 individer som inte kan värderas, det är 61+18 nyckelben. Men eftersom de flesta individer har två nyckelben kunde ändå 127 av 152 individer åldersbedömas i denna studie.)
Brist 8: Man har
använt en icke-validerad metod för metaanalys - och tillmäter denna analys större betydelse än de faktiska studieresultaten
MR-metoderna har i Flodmarkrapporten analyserats och jämförts
med tandröntgenmetoderna med hjälp av metaanalys. Metaanalys innebär att man
lägger ihop data från olika studier för att få ett större material. Detta kan i
sin tur göras på olika sätt.
Flodmark har valt att beräkna genomsnittsålder och standardavvikelse
för varje ben- eller tandmognadsstadium och utifrån detta uppskatta andelen
fel- respektive rättklassade. Man har alltså inte utgått från vad de enskilda
studierna visar, utan modellerat resultaten. Problemet med denna metod är att
den förutsätter att åldersfördelningen inom varje mognadsstadium är
normalfördelad utan skevhet. Det är inte visat att det är så, och sannolikt är fördelningen
ordentligt positivt skev, åtminstone för tandröntgen (baserat på data från den omfattande Streckbeinstudien).
Det tandstadium som är mest relevant för 18-årsgränsen, Demirjians stadium H,
är ett ändstadium och ålderssammansättningen i det mognadsstadiumet är definitivt inte
normalfördelad.
En annan sak som skaver är att denna metod för att bedöma
metodernas tillförlitlighet är helt ovaliderad, och ändå tillmäts de modellerade
resultaten större betydelse än studiernas faktiska resultat. Ett exempel på
detta är Streckbeinstudien. Streckbeinstudien visar att av 2360
undersökta hade 870 personer samtliga fyra visdomständer i Demirjianstadium H, och inte en enda var under 18 år gammal.
Men i Flodmarks metaanalys med modellerade (dvs antagna) resultat utifrån medelvärde och
standardavvikelse finns det ändå en inte obetydlig andel som enligt modellen felklassas som vuxna fast de är under 18 (till vänster om gröna strecket nedan) –
tvärtemot vad studien faktiskt visar!
Detta borde förstås ha väckt frågan om Flodmarks metod var rimlig.
Lustigt nog hade det hade varit fullt möjligt - och extremt enkelt - att validera
Flodmarkmetoden, exempelvis med data från Cameriere, 2008 (för tandröntgen).
Här presenteras nämligen genomsnittsålder och standardavvikelse för varje stadium, och
hur många som klassas rätt respektive fel om man bedömer ålder utifrån Demirjians stadium H. Här hade man snabbt kunnat se om Flodmarks "medelvärde-standardavvikelse"-metod gav tillförlitliga resultat (liknande övning hade
kunnat göras med Dedouits data för MR). Hade Flodmark testat sin modell med denna data hade
man omedelbart kunnat utvärdera om den var tillförlitlig. Jag antar att man
hade funnit att den inte var tillförlitlig, just eftersom
ålderssammansättningen i de olika mognadsstadierna inte är perfekt normalfördelade.
Det är oklart varför man inte ens tycks ha reflekterat över
varför de modellerade resultaten avviker från de faktiska – och varför man ändå
valde att tro på modellen istället för verkligheten.
Brist 9: Man har
överskattat effekten av MR-baserade metoder
I metaanalysen har Flodmark alltså modellerat en
ålderssammansättning för varje mognadsstadium utifrån ett antagande om
normalfördelning. Sedan har han (rimligt nog) begränsat resultaten för en tänkt
grupp i åldern 16-22. Det är denna figur som visas på rapportens sida 14.
Men om man tittar på kurvorna och lägger ihop
procentsiffrorna för varje ålder ser man att 16- och 17-åringar är kraftigt
överrepresenterade jämfört med undersökta i åldersspannet 18-22.
Spelar det någon roll? Ja, det gör det, eftersom 16- och 17-åringar nästan
alltid klassas rätt som varande ”under 18”. 18-22-åringar står för den absolut
största delen av felklassificeringarna totalt sett (det är mycket vanligare att 18-19-åringar klassas som under 18 än att 16-17-åringar klassas som över 18, oavsett metod).
I Thodbergstudien och de två ingående
tandröntgenstudierna är åldersfördelningen helt jämn (Thodberg) eller väldigt jämn
(tandröntgenstudierna). Detta gör att de metodernas resultat på intet sätt kan
jämföras med MR-studiernas, så som görs i figur 3.
När Flodmark hävdar att MR knäled klassar 3% resp 7% av
pojkar/flickor som vuxna och 29% av vuxna som barn gör han det alltså utifrån
en tänkt grupp undersökta, inte utifrån vad studierna faktiskt visar. Resultaten
kan därför inte alls jämföras med de andra metodernas resultat eftersom
(den tänkta) MR-gruppens ålderssammansättning är helt olik de övriga
gruppernas.
Ett annat exempel på hur Flodmark föredrar modellerade
resultat framför faktiska finns på sidan 10-11:
Det stämmer förvisso att de aktuella knäledsstudierna inte direkt
återger andelen som klassats rätt med MR knäled - "Andelen är inte uppmätt", som Flodmark korrekt noterar. Men en av de tre studierna (Dedouit) presenterar faktiskt mognadsstadium
för varje ålder i det relevanta intervallet (15-21 eller 16-22), så andelen rätt klassificerade kan mycket enkelt beräknas (istället för att modelleras)!
Om man utgår från dessa faktiska resultat (istället för
Flodmarks antagna) ser man att risken för att en undersökt som klassats som
vuxen i själva verket är barn (dvs falskt positiva) är 17% eller 14% med MR knäled (beroende på om man
inkluderar spannet 15-21 som i Thodberg eller spannet 16-22 som Flodmark gjort
i sin rapport)! Detta är alltså sämre än Thodberg (12,5%) och mycket sämre än
tandundersökning enligt Demirjian (runt 5%). Med MR knäled klassas bara 66%
av alla undersökta i relevant åldersspann rätt (inte ens nära de 90% som
Flodmark själv kräver och alltså sämre än Thodbergmetodens 80%). Samtliga
siffror för MR är väsentligt sämre än
de publicerade resultaten för tandröntgen med bedömning av Maturity Index ad
modum Cameriere.
De modellerade resultaten för MR är alltså skapliga, om än inte särskilt mycket bättre än resultaten för skelettröntgen eller tandröntgen. Men de resultat som MR-metoden faktiskt visat stöder knappast hypotesen att MR knäled är mer lovande än de övriga metoderna. De faktiska resultaten för MR är klart sämre än för de traditionella metoderna.
Varför Flodmark endast presenterar modellerade resultat och förbigår de faktiska resultaten med tystnad är ytterst oklart.
Brist 10: Man ger långsökta rekommendationer om pilotstudier
Vad mynnar då Flodmarks rapport ut i? Givet litteraturstudiens resultat hade man kunnat föreställa sig en rekommendation att
undersöka hur man kan kombinera exempelvis Thodbergmetoden och tandröntgen för att
nå bättre resultat, eller en rekommendation att studera samstämmigheten i bedömningen
av slutstadierna för olika metoder för bedömning av tandröntgen (Demirjian och Maturity Index).
Märkligt nog rekommenderar Flodmark istället att man helt sonika skrotar alla de traditionella metoder som
används i snart sagt hela världen och istället studerar MR av fyra olika
kroppsdelar i en (sannolikt) flerårig pilotstudie inkluderande invandrare i
första, andra och tredje generationen med flera studiegrupper baserade på
självrapporterad etnicitet.
Angående Thodbergmetoden nämns bara i förbigående att man kan
överväga att studera denna vidare, men först efter det att MR-studierna är genomförda. Man ställer sig frågan
varför en studie av Thodbergmetoden inte kan inledas innan MR-studien är
färdig. Thodbergmetoden är ju väl så bra som MR när studiepopulationerna är
jämförbara, och kan införas direkt. Metoden finns och är av allt att döma
kommersiellt tillgänglig.
Som invändning mot Maturity Index anförs endast att
samstämmigheten är otillräckligt undersökt. Förutom att det inte stämmer, vilket jag visat ovan, hade det varit en smal sak att göra en studie där två
rättsodontologer fick bedöma några hundra röntgenbilder vardera. Då skulle man få en god bild
av huruvida olika bedömare kan uppnå samstämmighet inom ett par veckor – varför
rekommenderas inte en sådan studie? Resultaten för Maturity Index uppfyller ju till
och med Flodmarks alla kriterier, något MR knäled inte är i närheten
av att göra om ålderssammansättningen av de undersökta är någorlunda rimlig. Varför föreslås inte ens en studie där man undersöker om den goda samstämmigheten för Maturity Index kan bekräftas?
Socialstyrelsens tidigare riktlinjer (från 2012)
rekommenderar både tand- och handledsröntgen. Att kombinera metoder är
standardförfarande även enligt internationella riktlinjer. Varför ignorerar
Flodmark detta? Varför ska det inte ens undersökas?
Det är sammantaget en fullständig gåta att MR bedöms som så
pass mycket mer lovande än traditionell tand- och skelettröntgen att man
rekommenderar att de sistnämnda inte ska göras överhuvudtaget och att MR ska
undersökas i ett ambitiöst studieprogram. Ingenting
tyder ju på att MR kan något de andra metoderna inte kan! Kostnaderna, förseningen
och osäkerheten är alla betydande.
Sammanfattning
Samtliga dessa 10 brister är så pass allvarliga att de sammantaget gör att rapportens slutsatser och rekommendationer måste ifrågasättas i grunden. Tyvärr används rapporten ändå helt okritiskt i debatten, och – vad värre är – den har åberopats i aktuella rättsfall!
Detta är i sanning anmärkningsvärt. Om Flodmarkrapporten med alla dessa brister används som ursäkt för att försena införandet av medicinsk åldersbedömning i asylärenden är det diskutabelt i sig, men om den även används för att skapa osäkerhet om medicinsk åldersbedömning i rättsprocesser kan konsekvenserna bli förödande. Alla misstänkta brottslingar med oklart födelsedatum kan då åberopa lägre ålder än den verkliga, och på detta sätt i värsta fall slippa rättslig påföljd helt. Strategin har redan använts, bland annat i det uppmärksammade Fåfänganmålet. Hade rätten lyssnat på Flodmarkrapportens slutsatser i det här fallet hade alltså en vuxen man som deltagit i en gruppvåldtäkt fått en mycket lindrigare påföljd – eller kanske helt sluppit straff. Även om HD inte gick på den linjen i det här fallet, med de omständigheter som rådde just här, kan liknande frågor mycket väl dyka upp i rättssalarna igen.
Oavsett vilken åsikt man har i migrationsdebatten och huruvida det är lämpligt att bedöma åldern på ensamkommande med radiologiska metoder torde det vara ytterligt svårt att acceptera att våldtäktsmän och mördare ges möjligheten att undvika straff genom att ljuga om sin ålder.
Därför borde det ligga i allas intresse att Flodmarkrapporten i bästa fall dras tillbaka, men som ett absolut minimum får genomgå en oberoende granskning av internationella experter.
Ändringar efter publicering: Tillägg om Streckbeinstudien, 870 med Demirjian stadium H. Infogat kommentar om nyckelbensstudien. Rättat "positivt prediktivt värde" till "falskt positiva" i punkt 9.
Referenser
Babburi, S., Nelakurthi, H., Aparna, V., Soujanya, P., Kotti,
A. B., & Ganipineni, K. (2015). Radiographic
Estimation of Chronological Age using Mineralization of Third Molars in Coastal
Andhra, India. Journal of international oral health: JIOH, 7(5), 49.
Cameriere, R., Ferrante, L.,
De Angelis, D., Scarpino, F., & Galli, F. (2008). The comparison between
measurement of open apices of third molars and Demirjian stages to test
chronological age of over 18 year olds in living subjects. International
journal of legal medicine, 122(6), 493-497.
Cameriere, R., Santoro, V.,
Roca, R., Lozito, P., Introna, F., Cingolani, M., ... &
Ferrante, L. (2014). Assessment
of legal adult age of 18 by measurement of open apices of the third molars:
study on the Albanian sample. Forensic science international, 245, 205-e1.
Dedouit, F., Auriol, J.,
Rousseau, H., Rougé, D., Crubézy, E., & Telmon, N. (2012). Age assessment
by magnetic resonance imaging of the knee: a preliminary study. Forensic
science international, 217(1), 232-e1.
Deitos, A. R., Costa, C.,
Michel-Crosato, E., Galić, I., Cameriere, R., & Biazevic, M. G. H. (2015).
Age estimation among Brazilians: Younger or older than 18?. Journal of forensic
and legal medicine, 33, 111-115.
Galić, I., Lauc, T., Brkić,
H., Vodanović, M., Galić, E., Biazevic, M. G. H., ... &
Cameriere, R. (2015). Cameriere's
third molar maturity index in assessing age of majority. Forensic science
international, 252, 191-e1.
Garamendi PM, Landa MI, Ballesteros J, Solano MA. Reliability of the methods applied to assess age minority in living subjects around 18 years old. A survey on a Moroccan origin population. Forensic Sci Int. 2005 Nov 10;154(1):3-12.
Kasper et al. Reliability of Third Molar Development for Age Estimation in a Texas Hispanic Population: A Comparison Study. J Forensic Sci. 2009 May;54(3):651-7.
Krämer, J. A., Schmidt, S.,
Jürgens, K. U., Lentschig, M., Schmeling, A., & Vieth, V. (2014). Forensic
age estimation in living individuals using 3.0 T MRI of the distal femur.
International journal of legal medicine, 128(3), 509-514.
Liversidge, H. M., &
Marsden, P. H. (2010). Estimating age and the likelihood of having attained 18
years of age using mandibular third molars. British dental journal, 209(8),
E13-E13.
Saint-Martin, P., Rérolle, C.,
Pucheux, J., Dedouit, F., & Telmon, N. (2015). Contribution of distal femur
MRI to the determination of the 18-year limit in forensic age estimation.
International journal of legal medicine, 129(3), 619.
Scheurer, E., Quehenberger,
F., Mund, M. T., Merkens, H., & Yen, K. (2011). Validation of reference
data on wisdom tooth mineralization and eruption for forensic age estimation in
living persons. International journal of legal medicine, 125(5), 707-715.
Streckbein, P., Reichert, I.,
Verhoff, M. A., Bödeker, R. H., Kähling, C., Wilbrand, J. F., ... & May,
A. (2014). Estimation of legal age using
calcification stages of third molars in living individuals. Science
& Justice, 54(6), 447-450.