Åsiktsfacit

torsdag 6 juli 2017

Journalistens klagan

Journalisten Martin Klepke satt i Almedalen och lyssnade på Rättsmedicinalverkets seminarium om medicinsk åldersbedömning. Därefter kved han en drapa i Arbetet om att nyttan av åldersbedömningarnas måste ifrågasättas. Han kände sig nämligen inte övertygad.

Han hade snappat upp att RMV sade sig vara beredda att revidera metoder och utlåtanden efterhand som ny data blir tillgänglig. Hur rättssäkert är det om allting kan ändras med ny forskning, undrade han. Det är naturligtvis en fråga man kan ställa sig, men bara om man inte har förstått att grunden för all vetenskap är att kunskapen inte är stationär, den ändras allteftersom nya observationer görs.

Ibland förkastas gammalt vetande (”Jorden är platt” -> ”Jorden är rund”), oftast modifieras det (”Jorden är rund” -> ”Jorden är i princip rund men tillplattad vid polerna”). Samma sak kommer att ske med metoderna för åldersbedömning. Vad vi vet nu är att ca 5-10% av 17-åringarna (och 0% av 15-åringarna) kan komma att klassas som ”sannolikt över 18” med tandröntgen, men om nya studier visar mer eller mindre kommer denna siffra att modifieras. Det är emellertid extremt osannolikt att den ändras radikalt. Denna ödmjukhet från RMV är på intet sätt ett tecken på ovetenskaplighet, tvärtom.

Dessutom hade Klepke noterat att RMV inte kunde ge ett rakt svar på HUR säkra metoderna är eftersom den sanna åldern på alla de som åldersbedöms inte är känd. Man kan nästan höra Klepke utbrista ”Gotcha!”. Om RMV inte vet hur säkra metoderna är, hur vetenskapligt och rättssäkert är det då?

Förklaringen är emellertid (relativt) enkel. Metodernas säkerhet kan uttryckas på olika sätt. En del av dessa mått på säkerhet påverkas av den undersökta gruppens ålderssammansättning. Ett av de mest använda måtten är ”positivt prediktivt värde” (PPV). PPV är i detta sammanhang ett uttryck för sannolikheten att en individ som har mogen visdomstandrot faktiskt är över 18 år. I snart sagt samtliga studier som presenterar denna sannolikhet (>30 studier totalt sett) är den över 90%, oftast 95% eller mer. Men detta baseras på att man i samtliga dessa studier undersökt individer med känd ålder, oftast jämnt fördelade i spannet 16-22 eller dylikt.

Om man bara undersöker 17-18-åringar blir PPV förstås lägre (eftersom det kommer att vara större andel 17-åringar (som oftare har mogen visdomstandrot) än om man har en jämn fördelning av individer 16-22), och om det är fler överåriga bland de som undersöks än det var i studierna blir PPV högre. Eftersom vi inte vet hur gamla de som hittills åldersbedömts av RMV faktiskt är kan man inte exakt säga hur högt eller lågt PPV är när just denna grupp undersöks.

Men, och detta är viktigt, andelen individer med mogna tandrötter i en viss ålder påverkas inte av ålderssammansättningen. 5-10% av 17-åringarna har mogna tandrötter, och 0% av 15-åringarna (ca 3% av 16-åringarna). Eftersom drygt hälften av de som hittills undersökts har mogna tandrötter är det väldigt osannolikt att de uppgivna åldrarna (ca hälften säger sig vara 17 år, den andra hälften ännu yngre, några få procent uppger sig vara 18+) stämmer.

Men man kan alltså, som RMV säger, inte fastslå just PPV för en tandröntgen om inte den faktiska åldern är känd. Men mogen tandröntgen talar alltså ändå starkt (mitt ordval, inte RMVs) för att individen är över 18 eftersom andelen under 18 års ålder som har mogna tandrötter är så låg.

Det som slår mig gång på gång i den här debatten är att så många som helt saknar fackkunskaper kritiserar tekniker och metoder de inte förstår – eller ens ansträngt sig att förstå. Klepke är tyvärr inget undantag.

torsdag 15 juni 2017

... men SvD vill inte vara sämre (bättre)

Jag kritiserade precis DN för att ha gått vilse om resultatet från RMVs åldersbedömningar. Storstadskollegan SvD slår dock tillbaka med en artikel som är i samma kategori.

Med påståendet att "minst 1400 barn kan felaktigt bedömas som vuxna" i ingressen sätts tonen.
Notera den svårtolkade formuleringen "minst 1400 ... kan". Vad betyder det? Att det är minst 1400, men samtidigt inte behöver vara någon alls? Att det är minst 1400 som riskerar felbedömning? Varför då inte gå hela vägen och säga att alla riskerar felbedömning? Jag gör själv bedömningen att SvD kan ha haft minst en korrekturläsare för lite inkopplad.

Hur som helst har man utgått från att RMV tidigare har meddelat att för ungdomar som ligger nära 18-årsgränsen kan upp till 10% bedömas som sannolikt över 18. Detta är helt korrekt, 17-åringar bedöms som "sannolikt över 18" med tandröntgen i ca 10% av fallen. Då har journalisten tagit det totala antalet som ska åldersbedömas (kanske 14000) och utifrån 10% risk för felbedömning landat i 1400.

Ingen kan förstås säga att det är helt omöjligt att 1400 barn kommer att felbedömas som vuxna, men det är extremt osannolikt, av två skäl.

För det första förutsätter beräkningen ovan att ALLA som ska åldersbedömas är ungdomar som är mellan 17 och 18 år. Det är det få som tror. Inte ens de sökande själva, vilket framgår av statistiken rörande de första 580 åldersbedömningarna (kan begäras ut från Migrationsverket). Där är det 280 som uppger ålder mellan 17 och 18, dvs knappt hälften. Och detta är uppgiven ålder, nota bene! Hur många är faktiskt mellan 17 och 18 när bara knappt hälften ens själva uppger denna ålder? 10%? 30%? Ingen vet, men det är rimligt att anta att lejonparten av alla som uppger felaktig ålder är i denna kategori, varför den verkliga andelen mellan 17 och 18 sannolikt är bra mycket lägre än knappt 50%.

För det andra visar resultaten från de första 580 undersökningarna att ca 280 undersökta (igen knappt hälften) hade nått "vuxenstadiet" både i knäled/lårben och visdomstand. Detta indikerar med mycket hög sannolikhet att åldern är över 18, snarare uppemot 20-25. Om denna första kohort är representativ för resten är det alltså knappt 50% som ska räknas bort direkt - av dessa är det endast en försvinnande liten andel (om ens någon) som är felbedömda. Siffran 10% felbedömda av 17-åringarna gäller som sagt bara med en av metoderna (tandröntgen). Med MR knäled vet vi inte exakt andelen, men den är sannolikt snarlik (Socialstyrelsen tror att den är lägre, jag tror inte att det är någon större skillnad).

Det rör sig alltså av allt att döma om en liten bråkdel av de "minst 1400" som kommer att felbedömas. Tragiskt, förstås, men låt oss då, parentetiskt, komma ihåg att man får uppehållstillstånd om man har skyddsskäl även om man är 18 år. Denna diskussion gäller alltså i praktiken endast ungdomar som saknar asylskäl.

För att återgå till artikeln är författaren förvånansvärt väl insatt i de "senaste rönen" som visar att stress kan påskynda flickors pubertet och därmed kroppslig mognad, som framförts av Inge Axelsson i Läkartidningen (även om de inte direkt citeras). Detta är dock ingenting nytt, det rapporterades till exempel redan 2007 av Costello och medarbetare, som även rapporterade att man inte fann någon effekt på pojkar.

Jag har tidigare flaggat för MÅB-kritikernas återkomst efter en stunds stiltje. Det är uppenbart att offensiven inletts och att RMV kommer att utmanas på bred front. Återstår att se om man står emot trycket.

måndag 12 juni 2017

Hur kan åldersbedömningarna visa olika åldrar?

I en artikel om RMVs åldersbedömningar gick DN igår ut med den braskande rubriken "Röntgen visar olika åldrar - ensamkommande bedöms som vuxna". Man hade granskat statistiken från de 581 första åldersbedömningarna och noterat att ensamkommande ofta bedömdes som vuxna trots att tandröntgen och MR knäled i många fall (38%) visade olika stadier. Denna diskrepans ledde till en hel artikel. Resultatet borde dock inte vara förvånande för den som har hängt med i debatten. I denna text ska jag försöka förklara varför.

Både tandröntgen och MR knäled bedöms med RMVs metod utefter huruvida ett visst mognadsstadium nåtts eller inte. Det aktuella stadiet indikerar med hög säkerhet vuxen ålder. Det betyder i klartext att om man har nått något av dessa utvecklingsstadier så är man med hög sannolikhet över 18. Problemet, eftersom man hellre friar än fäller, är att man måste acceptera att många individer i gruppen 18-20 år felaktigt frias. Detta på grund av den stora individuella variationen i hur vi människor utvecklas och mognar. Ett "negativt" resultat säger alltså väldigt lite i förhållande till ett "positivt" resultat när det gäller att bedöma huruvida en individ har fyllt 18 år eller inte. Man kan vara över 18 och ha ett negativt resultat, men det är väldigt ovanligt att man är under 18 och har ett positivt resultat.

För både tandröntgen och MR knäled gäller alltså att en stor andel (i många studier så många som hälften) av 18-20-åringarna felaktigt frias (i gengäld bedöms alltså väldigt få 15-17-åringar som över 18). Eftersom skelett och tänder utvecklas åtminstone hyfsat oberoende (Gelbrich et al) kan den snabbtänkte ganska snabbt lista ut att DNs avslöjande egentligen bara är en ofrånkomlig konsekvens av individuell variation och två olika undersökningsmetoder.

Låt oss ta ett praktiskt exempel:

Låt oss anta att RMV åldersbedömer 100 personer i åldersspannet 18-20 år. I detta pedagogiska men helt hypotetiska exempel är samtliga undersökta alltså vuxna.

1. Tandröntgen visar moget stadium för 50 av dem (dvs mycket sannolikt över 18), och för de övriga 50 omoget stadium.

2. Sedan genomgår samma 100 personer MR knäled. För 50 av dem visar undersökningen moget stadium (dvs mycket sannolikt över 18), och för de övriga 50 omoget stadium.

Då kommer det samlade resultatet att se ut någonting i stil med (antaget oberoende tand- och skelettutveckling enligt Gelbrich):

25 individer har moget stadium i både knäled och visdomstand.

Detta indikerar ålder >18

25 individer har moget stadium i knäled men ej visdomstand.

Detta indikerar ålder >18

25 individer har moget stadium i visdomstand men ej knäled.

Detta indikerar ålder >18

25 individer har inte nått moget stadium i endera knäled eller visdomstand.

Detta betyder att undersökningarna inte tillåter slutsatsen att den undersökte sannolikt fyllt 18 år.

75% av individerna fångas korrekt av någon eller båda undersökningarna. Men i 50% av fallen "överensstämmer" alltså inte resultatet av tandröntgen och MR knäled, men det är ändå högst sannolikt att den undersökte är över 18. Och, märk väl, i 25% av fallen frias den undersökte alltså av båda undersökningarna trots att den sanna åldern är 18-20 (i detta hypotetiska exempel!).

En kritisk läsare kanske undrar varför DN inte frågade någon kunnig person som kunde ha förklarat detta i reportaget. Så oerhört komplicerat är det ändå inte.

Det märkliga är att man gjorde just detta, och fick en fullständigt adekvat och pedagogisk förklaring från Elias Palm på RMV kring varför det blir så här, och varför det inte är något att förvånas över. Möjligen borde man ha reflekterat över detta och kanske rentav låtit sig nöja med denna fullgoda förklaring, även om det hade betytt att publiceringen uteblev.

lördag 11 mars 2017

Varför "individuell variation" inte är ett argument mot åldersbedömning

Den vanligaste kritiken mot röntgenmetoder för medicinsk åldersbedömning är att metoderna "har för stor osäkerhet", "för stor felmarginal", "för stor individuell variation" eller andra varianter på det temat.

Det är ett nonsensargument, och det är faktiskt inte heller särskilt svårt att förstå att det är nonsens.

För att tandröntgen ska kunna användas för att bedöma huruvida en undersökt individ nått 18 års ålder eller inte måste visdomständernas rötter (en eller flera) ha nått det sista mognadsstadiet på röntgen. Vid 23 års ålder har i princip alla människor helt mogna visdomstandrötter på röntgen. När det gäller 18-åringar är det ungefär 50-50%. När det gäller ungdomar under 18 år är det dock väldigt få som har fullt mogna tandrötter, och i princip inga 15- eller 16-åringar har fullt mogna tandrötter.

Kritiken att röntgen (underförstått det sista mognadsstadiet) uppvisar för stor variation bygger på ett antal studier där man undersökt en befolkning i exempelvis 16-25 års ålder och beräknat genomsnittsålder och standardavvikelse för individer som uppnått det sista mognadsstadiet. Snittålder och standardavvikelse är i några studier 20 +/- 3 år, i andra 22,5 +/- 4 år etc.

Det låter i förstone inte särskilt betryggande, och det verkar som om kritikerna har en poäng. Problemet är att de uppmätta snittåldrarna och standardavvikelserna är helt beroende av den övre åldersgräns man satt i de olika studierna. Detta eftersom (i princip) ALLA över 23 har helt mogna tandrötter. Om man skulle inkludera 40-åringar som undertecknad i en sådan studie skulle snittåldern stiga och variationen (oftast uttryckt som standardavvikelse) öka. Det gör det omöjligt att fastslå en exakt ålder, men säger ingenting om hur säker eller osäker metoden är för att bedöma huruvida någon fyllt 18 eller inte.

För att bedöma det krävs ett annat statistiskt mått. Det mest använda är "positivt prediktivt värde", som svarar på frågan "Hur många individer, av alla som har nått det sista utvecklingsstadiet, är i själva verket över 18 år gamla?". Det positiva prediktiva värdet för tandröntgen är med enstaka undantag över 90% i de studier som har gjorts världen över. I klartext betyder det att om man undersöker en slumpmässigt utvald person av manligt kön i åldern 16-22, och finner att han har åtminstone en visdomstand i underkäken i fullmoget stadium, så är sannolikheten att han har fyllt 18 mellan 90 och 100%.

Att debattörer utan vetenskaplig skolning missar detta kan man måhända förlåta. Men varför gör Carl-Erik Flodmark samma fel i Socialstyrelsens riktlinjer?

fredag 18 november 2016

Mer skåpmat i åldersbedömningsdebatten

Häromdagen dök en ny aktör upp i åldersbedömningsdebatten. Ett antal arkeologer/osteologer dammade av snart sagt alla de argument mot åldersbedömning som redan hörts ad nauseam.

"Det går inte att exakt bestämma ålder" - Tack, vi vet.

"Nutrition och etnicitet..." - Tack, vi vet. Alla vet. Eller i alla fall borde veta.

Varför har det blivit så här? Varför återkommer dessa debattinlägg med exakt samma invalida argument, som vore de tagna ur ett manus?

Det som förundrar mig är att vetenskapligt skolade, högt kompetenta personer ägnar sig åt detta. Varför har de inte bemödat sig om att ens försöka sätta sig in i debattens elementa? Varför dagtingar de med sin trovärdighet på det här sättet? Vad är det som gör det så viktigt för osteologerna att uttala sig tvärsäkert om röntgenbaserade metoder som de överhuvudtaget inte är insatta i? Varför misstror de alla experter i så hög grad att de söker sig till SvD:s debattsida istället för att fråga expertisen direkt om hur dessa undersökningar går till?

Jag vet inte hur rättsmedicinare och -odontologer normalt arbetar, men jag föreställer mig att det hör till ovanligheterna att de skriver debattinlägg i DN och SvD där de basunerar ut för hela Sverige att det är meningslöst att gräva ut Pompeji.

Även om arkeologerna högg i sten förde det det goda med sig att ortopeden och handkirurgen Nenad Zeba, expert på medicinsk åldersbedömning, föranleddes att sätta ner foten ordentligt. Det var inte en dag för tidigt.

måndag 24 oktober 2016

SVT gör ett magplask om åldersbedömningarna

SVT håller igång debatten om medicinska åldersbedömningar (MÅB) med artikeln "Åldersbedömningar är ovetenskapliga", som aptitretare inför ett reportage som kommer i veckan. På sätt och vis borde man vara tacksam - debatten varken är eller ska vara över.

Problemet med SVT:s artikel är att den uppvisar en viktig brist som nyhet betraktad - det är inget nytt i den. Professorerna Cole och Cameron, vars utsagor är artikelns fundament, är kända MÅB-kritiker. Hela artikeln är i princip en uppradning av samma gamla missförstånd som jag och många andra bemött tidigare: "Man kan inte bedöma ålder exakt" (Nej, det har ingen påstått.); "Felmarginalerna är för stora" (Felmarginalerna är ointressanta eftersom syftet inte är att bestämma exakt ålder utan sannolikheten att den undersökte är över 18); "Mognaden påverkas av kost, trauma etc" (Ja, men alla dessa faktorer försenar mognaden, vilket gynnar den undersökte). Et cetera. Inget nytt för den som följt med i debatten.

Den främste MÅB-kritikern (kanske i världen), Cole, är statistiker och har gedigen forskningsbakgrund på området. Hans tes är att metoderna är för osäkra för att användas, rent statistiskt, eftersom de "klassar fel" så ofta, uppemot 30% av fallen eller mer. I artikeln säger han att det är många som är över 18 som inte har nått sista stadiet i visdomstandutvecklingen, och det gör att många klassas fel. Det har han en poäng i.

Men det är en konsekvens av att man till varje pris vill undvika att klassa barn som vuxna! Höjer man kraven för vad man betraktar som "säkert över 18" betyder det ofrånkomligen att man tvingas acceptera att förhållandevis många vuxna klassas som barn. Av de 30% som klassas fel är kanske 3-5%-enheter barn som klassas som vuxna, och 25-27%-enheter är vuxna som klassas som barn. Det går utmärkt att minska andelen vuxna som klassas som barn och därmed klassa fler "rätt" totalt sett, men det sker då till priset av att fler barn klassas som vuxna, och det vill vi undvika eftersom osäkerhet ska gynna (inte drabba) den enskilde.

Notera att resonemanget gäller enskilda metoder. Olika metoder ska, som jag har påpekat tidigare, kombineras för att nå ännu högre säkerhet!

Dessutom vore det intressant att se om Cole har ändrat hållning till tandröntgens vetenskaplighet. Så sent som 2015, i en artikel i Annals of Human Biology, skrev han nämligen så här om tandröntgen (Demirjian):

Så vad är det ovetenskapliga? Det vore förstås ovetenskapligt att bedöma någon i stadium F som "säkert över 18", men det är mig veterligen ingen som gör det, så det är oklart vad problemet egentligen är.

Eftersom det är stadium H som används som indikator för uppnådd myndighetsålder förefaller Cole alltså vara rörande överens med internationell rättsmedicinsk expertis om att det är "very likely" att en person som nått stadium H är minst 18 år.

Det är märkligt att SVT kör ut gammal skåpmat på det här sättet, och det bådar förstås inte gott inför reportaget som helhet.

tisdag 30 augusti 2016

Flodmarks rapport leder Socialstyrelsen ut på ett gungfly

Den som följt mitt bloggande om medicinsk åldersbedömning minns att jag ”förutspådde” resultatet av Flodmarks genomgång av metoder för radiologisk åldersbedömning. Nu, några månader senare, har jag haft tid att sätta mig in i rapporten lite mer noggrant. Det har varit mycket lärorikt.

Jag har funnit inte färre än 10 punkter där Flodmarkrapporten är behäftad med allvarliga brister. Varje enskild brist är så pass allvarlig att den väcker viktiga frågor om rapportens vederhäftighet. Samtliga brister och fel ”drar åt samma håll", vilket bidrar till att Flodmark i rapporten underkänner samtliga internationellt vedertagna metoder för åldersbedömning och rekommenderar att man genomför tidsödande och osäkra pilotstudier av ny teknologi. Som vi ska se är slutsatserna och rekommendationerna mycket tveksamma.

Bristerna sammanfattas nedan, med detaljerad förklaring längre ner i texten:

Man har inte involverat relevant expertis under arbetets gång

Man har använt tveksamma kriterier för vad som är en lämplig metod

Man har missförstått samstämmighetsbegreppet

Man har använt ett irrelevant mått på samstämmighet

Man har utvärderat traditionella röntgenmetoder på ett icke-rättvisande sätt

Man har ignorerat en stor del av den tillgängliga forskningen

Man har ignorerat en standardmetod enligt internationella riktlinjer

Man har använt en icke-validerad metod för metaanalys

Man har överskattat effekten av MR-baserade metoder

Man ger långsökta rekommendationer om pilotstudier

Brist 1: Man har inte involverat relevant expertis under arbetets gång

Rapporten är enligt introduktionen en systematisk översikt enligt GRADE-metoden. GRADE är ett försök att systematisera litteraturöversikter, och en av förutsättningarna för att man ska kunna genomföra en systematisk litteraturöversikt är att arbetet koordineras av en multidisciplinär arbetsgrupp bestående av sakkunniga. Dessvärre har ingen av de personer som ingår i den här rapportens arbetsgrupp några forskningsmeriter inom radiologisk åldersbedömning (åtminstone hade de inte det när rapporten färdigställdes). Ingen svensk eller internationell expert på radiologisk åldersbedömning förefaller heller ha haft inflytande på arbetet, även om flera internationella forskningsgrupper kontaktades avseende litteratursökningen.

Man har inte motiverat beslutet att författa en vetenskaplig översikt utan att involvera de experter på området som ändå finns i Sverige. Flodmark själv är docent med barnfetma som forskningsområde. Han är till yttermera visso miljöpartist och före detta ledamot i Barnläkarföreningens styrelse, den organisation som allra mest högljutt motsatt sig alla försök att införa radiologiskt baserad åldersbedömning i Sverige.

Flodmarks renommé som barnläkare och forskare ifrågasätter jag inte, men som ledare för ett projekt på detta politiskt känsliga område borde man måhända ha vinnlagt sig om att hitta någon med färre potentiella jävsförhållanden, eller åtminstone ha säkerställt att relevant expertis var representerad i arbetsgruppen.

Brist 2: Man har använt tveksamma kriterier för vad som är en lämplig metod

Själva rapporten inleds med att Flodmark presenterar en rad kriterier för vad som bedöms vara en godtagbar metod. ”Samstämmigheten” ska vara 80%, risken för att barn felaktigt ska klassas som vuxna ska vara mindre än 10%, och 90% ska klassas ”rätt”, dvs som vuxna om de är vuxna respektive som barn om de är barn. De här kriterierna är minst sagt diskutabla.

För det första finns det inget skäl att a priori definiera kriterier för vad som är en ”tillräckligt bra” metod om man gör en neutral vetenskaplig översikt. Det är rimligen en fråga som rymmer andra aspekter än de rent medicinska (etiska, juridiska, politiska etc). För det andra är kriterierna helt godtyckliga (ingen referens anges) och högst kontroversiella. Är det verkligen acceptabelt med 90% säkerhet att ett barn inte felaktigt klassas som vuxen? Vissa skulle säkert kunna argumentera för att man ska uppnå 95% säkerhet. Och varför ska 90% av alla undersökta klassas ”rätt” (som varande under eller över 18)? Det viktiga är väl trots allt att barn inte klassas som vuxna? Om vuxna klassas som barn är det långt mindre allvarligt, eftersom det inte medför någon nackdel för den enskilde. En metod som klassar 80% rätt totalt med 2% av undersökta barn felklassade som vuxna förefaller mer attraktiv än en metod som klassar 92% rätt i hela gruppen men klassar 10% av undersökta barn som vuxna – etc. De kriterier som Flodmark slår fast i början av rapporten motiveras inte på något sätt.

Intrycket att kriterierna är helt godtyckliga och dessutom tveksamma förstärks av att Flodmark själv, pikant nog, redan har hunnit ändra sig sedan rapporten publicerades i april! Tre månader senare, i en intervju med Ekot 11/7, uppgav han nämligen att Socialstyrelsen vill ha 95% säkerhet – trots att han själv i rapporten ”bara” kräver 90%!

Brist 3: Man har missförstått samstämmighetsbegreppet

Samstämmighet är i det här fallet ett mått på i hur hög grad två olika radiologer (till exempel) bedömer samma bild likadant. Om två radiologer bedömer samma bild ska de naturligtvis helst ge bilden samma ”poäng” eller stadium på skalan. Flodmark säger sig kräva 80% samstämmighet för att en metod ska vara acceptabel. Men ingenstans preciserar han vilken samstämmighet det rör sig om, och det är av stor betydelse.

Den mest använda skalan för bedömning av tandröntgenbilder är Demirjian. Demirjianskalan har åtta steg: A-H. Betyder ”samstämmighet” att 80% av alla bilder ska få exakt samma klassificering av två olika bedömare? I så fall har Flodmark hämtat fel data från de artiklar som ingår i översikten, för där redovisas inte denna typ av samstämmighet utan ett mer vedertaget mått: ”kappa” (bokstaven ’k’ i det grekiska alfabetet, förenklat (och med reservation för att jag inte är statistiker) är detta ett sätt att korrigera för slumpmässig överensstämmelse). När Flodmark kräver ”80% samstämmighet” har han alltså ingen möjlighet att utvärdera detta med den data han har samlat in, för de publikationer han refererar anger bara kappakoefficienterna. Flodmark har av misstag översatt kappakoefficienterna rakt av till procentuell samstämmighet, vilket är helt fel.

Ett möjligt försvar mot denna invändning är att man hela tiden menade ”kappa minst 0,80” och inte ”minst 80% samstämmighet” men valde att förenkla för en mindre tekniskt bevandrad publik. Det här håller inte heller som ursäkt, eftersom ett kappavärde på 0,70 inte på något sätt utesluter en samstämmighet på 80% - det beror på hur stor den slumpmässiga överensstämmelsen mellan bedömarna är. Att ställa upp ett absolut krav på att en metod ska uppnå en viss kappakoefficient är således inte särskilt meningsfullt (mer om det senare).

Brist 4: Man har använt ett irrelevant mått på samstämmighet

En än viktigare brist är att Flodmarks mått på samstämmighet (oavsett om det är procent eller kappa) egentligen inte har någonting med undersökningarnas pålitlighet att göra, åtminstone inte som de ska användas i det här sammanhanget. Samstämmigheten i publikationerna ("kappakoefficienterna") bedöms nämligen utifrån hur väl bedömarnas bedömning är samstämmig över hela skalans spektrum (exempelvis A-A, C-C, F-F etc), men när det gäller att bedöma 18-årsgränsen är det bara stadium H och möjligtvis G som är av intresse (när det gäller den mest använda Demirjianmetoden).

Det är alltså strängt taget fullständigt ointressant om två olika bedömare har svårt att enas kring huruvida en viss röntgenplåt motsvarar stadium B, C eller D, då samtliga dessa stadier är förenliga med att den undersökte är under 18 (eller rättare, att inget av dessa stadier är förenliga med slutsatsen att den undersökte sannolikt är över 18).

Eftersom extremerna på en sådan här skala oftast eller alltid är lättare att enas kring än intermediärstadierna finns det goda skäl att anta att samstämmigheten gällande ”stadium H eller ej” är väsentligt högre än för skalan som helhet från A till H. Det finns i alla händelser inget som helst skäl att bedöma en metod som otillförlitlig avseende 18-årsgränsen utan att man har bedömt samstämmigheten för det stadium som är relevant för just 18-årsgränsen. Även detta är en helt fundamental brist.

Jag har frågat rapportförfattarna om de känner till någon studie där samstämmigheten för tandröntgen avseende 18-årsgränsen (alltså den bedömning de anser att tandröntgen inte har tillräckligt god samstämmighet för) har prövats, men de har inte gett mig några sådana exempel. Jag har emellertid hittat två sådana studier: Galic, 2015 och Cameriere, 2014. Här har samstämmighet för 18-årsgränsen bedömts med tandröntgen (”Maturity Index”, mer om detta senare) och i en av studierna är samstämmigheten avseende 18-årsgränsen helt perfekt (kappakoefficient 1,0) och i den andra är den extremt hög (0,89).

Det finns alltså inget som helst stöd för Flodmarks slutsats att tandröntgen inte kan användas för att bedöma 18-årsgränsen på grund av bristande samstämmighet mellan olika bedömare. De studier han åberopar har inte studerat frågan, och de studier som har studerat frågan visar i princip perfekt samstämmighet.

Brist 5: Man har utvärderat traditionella röntgenmetoder på ett icke-rättvisande sätt

Flodmark avfärdar sedan åldersbedömning med tandröntgen på grund av att ”samstämmigheten” är så låg som 60-85% (i själva verket kappakoefficient 0,60-0,85). Notera att jag i detta kapitel bemöter Flodmarks kritik mot tandröntgenmetodernas samstämmighet som om den vore relevant – det är den alltså inte, vilket framgick ovan. Jag går honom till mötes för att det är ett så utmärkt exempel på hur data konsekvent tolkas till de traditionella, internationellt accepterade, metodernas nackdel.

Granskar man rapportens bilaga 7 (nedan) framgår tydligt att de flesta studier har mycket god samstämmighet för tandröntgen! Det är bara Scheurerstudien som faller ur ramen med ett kappavärde på 0,58-0,60. Alla andra ligger väsentligt högre.

När så många studier som utvärderar och dokumenterar en metod har genomförts är det fullständigt orimligt att avfärda metoden utifrån vad den absolut sämsta studien visar. Om två forskargrupper, X och Y, med två radiologer i varje, använder samma metod och grupp X får klart sämre resultat än grupp Y, så är den mest närliggande slutsatsen inte att metoden är opålitlig. Eftersom grupp Y uppenbarligen kan uppnå goda resultat med samma metod är den mest rimliga slutsatsen att grupp X har minst en radiolog som behöver mer träning!

Dessutom har Scheurerstudien en helt annan ålderssammansättning än de övriga. Man undersökte nämligen uteslutande ungdomar i åldern 17,5-18,5. Med ett så snävt spann kommer även tandmognaden att vara mer samlad runt ett färre antal stadier än om man inkluderat 12- och 25-åringar, varför också siffrorna för samstämmighet kommer att vara sämre.

Att av denna enda studie dra slutsatsen att samstämmigheten är dålig för tandröntgen (när det finns ett stort antal studier med en mer relevant population som har mycket bättre samstämmighet) är alltså direkt orimligt.

Det är också värt att notera att ett kappavärde i intervallet 0,6-0,8 normalt anses klart godkänt (”substantial agreement”). Det är oklart varför Flodmark redan innan rapporten skrevs bestämde sig för att kräva 0,80.

Inte bara när det gäller samstämmigheten missgynnar rapporten de internationellt accepterade röntgenmetoderna. Även resultaten från studier som undersöker dessa metoder framställs som sämre än de är, eller misstolkas på ett sätt som får dem att framstå som sämre än de är. Ett flagrant exempel på detta är resultaten för tandröntgen i figur 3, sidan 14. Där står att tandröntgen medför 12% risk att barn klassas som vuxna. Denna siffra gäller dock endast Kullmanmetoden.

Som framgår av sidan 13 (nedan) visar Flodmarks egen metaanalys att risken för att barn klassas som vuxna med (den mer vedertagna) Demirjianmetoden är 5%!

Så varför presenteras inte dessa resultat i figuren? Varför presenteras bara Kullmanresultaten i figuren och i sammanfattningen (sidan 7)?

Där står inte ett ord om att Demirjianmetoden har mycket bättre resultat än Kullmanmetoden, fullt jämförbara med de resultat som presenteras för MR!

Ett mer utstuderat exempel återfinns i samma stycke ovan. Det står ”När det gäller andelen barn som klassats som barn ligger risken att klassificera rätt ofta under 90% enligt den vanligaste metoden Demirjian [26, 29, 35, 39, 40].” Detta skapar naturligtvis ett intryck av att de fem studier som refereras efter påståendet visar att Demirjians metod klassar barn som barn i mindre än 90% av fallen. (Jag antar här att Flodmark egentligen menar ”Sannolikheten att en undersökt som klassas som vuxen faktiskt är vuxen", eftersom det är den andelen han presenterar för övriga metoder i rapporten. Andelen barn som klassas som barn är faktiskt något annat (positivt prediktivt värde vs sensitivitet), även om andelen i de flesta fall kommer att vara snarlik.)

Referens nr 26 är Babburi et al. I tabell 3 i denna studie framgår att 10:e percentilen för stadium H är 18,78 år för pojkar, 17,84 för flickor. För pojkar är sannolikheten att den undersökte är 18 år fyllda alltså över 90% om stadium H har nåtts.

Referens nr 29 är Cameriere et al 2008. Här anges sannolikheten att den undersökte är 18 vid stadium H till 96 resp 98% (män/kvinnor). (Tabell 5)

Referens 35 är Liversidge et al 2010. Här är sannolikheten 95,1% vid stadium H. (Tabell 6)

Referens 39 är Scheurer et al 2011, dvs studien där man bara undersökte personer mellan 17,5 och 18,5 års ålder. Den återger vad jag kan se inga sådana siffror, och är hur som helst direkt olämplig att jämföra med studier med bredare intervall (vanligen studeras personer i åldersspannet 15-25 – att fler blir felklassificerade när man bara inkluderar personer som ligger inom sex månader från 18-årsgränsen är självklart!).

Referens 40 är Streckbein et al, 2014. Varför man refererar denna studie är oklart, eftersom man där undersökt sannolikheten för att en individ är över 18 om alla fyra visdomständerna är fullt utvecklade, och finner att den är över 99%.

Till Flodmarks försvar ska det nämnas att det finns ett antal studier som visar <90% (Kasper, Garamendi, möjligen fler), men ingen av dessa studier refereras av Flodmark. Majoriteten av studierna visar omkring 95% eller mer, liksom Socialstyrelsens egen metaanalys. Och om man ändå tänker basera sin bedömning av metoden utifrån de absolut sämsta resultat som någonsin uppnåtts, varför då göra en metaanalys?

Notera taktiken, liksom i fallet för samstämmighet ovan, att gå igenom ett antal studier och sedan diskvalificera metoden på grundval av vad de sämsta studierna visar, snarare än bevisningen som helhet.

Flodmark nämner sedan att en modifierad metod (”Maturity Index”) har utvecklats av en italiensk grupp, och tillstår att denna metod förefaller vara bättre. Han underkänner emellertid även Maturity Index, av det enkla skälet att man endast bedömt samstämmighet på en delmängd av det totala materialet (Cameriere, 2008). Men detta är närmast standardförfarande på det här området, och flera andra publikationer bekräftar att samstämmigheten är utmärkt! Åtminstone två av dessa publikationer (Galic 2015 och Cameriere 2014) är emellertid inte inkluderade i Flodmarkrapporten, trots att de registrerades i Medline före Deitos-studien (som inkluderades). Det finns säkert en bra förklaring på det, men det är inte tydligt utifrån de sökkriterier som använts.

Galicstudien visar för övrigt att Maturity Index som enda studerade metod uppfyller samtliga de krav Flodmark ställer upp, då kappakoefficienten/samstämmigheten var 0,90, över 90% klassades rätt och mer än 95% av alla som hade ett "positivt" test var över 18 år. Liknande resultat sågs i Cameriere 2014 (92,5% resp 94,4% (pojkar)). Det finns alltså ett antal publikationer som visar både utmärkt samstämmighet och övertygande resultat för Maturity Index, men ändå avfärdas metoden med hänvisning till en ren teknikalitet.

Brist 6: Man har ignorerat en stor del av den tillgängliga forskningen

När det gäller skelettröntgen är Flodmark om möjligt ännu mer orättvis mot materialet. För handledsröntgen väljer han att bara inkludera studier där man automatiserat bildtolkningen, och bortser därmed helt sonika från det enorma forskningsmaterial som utgörs av studier där man använt sig av manuell tolkning av bilder! Betänk nu att röntgen av handled och tänder är huvudmetoderna i radiologisk åldersbedömning. Hur kan man kalla rapporten en litteraturöversikt när man bara gjort halva jobbet? Motiveringen, att tiden inte räckte till, är inte imponerande. Man kan alltså inte påstå att Flodmark underkänner dokumentationen bakom radiologisk åldersbedömning, det vore mer korrekt att säga att han konstaterar att han inte har haft tid att lösa uppgiften!

I princip kokar Flodmarks granskning av hundratals studier av skelettröntgen ner till en enda studie; Thodbergstudien. Som framgår av publikationen är resultaten för Thodbergs metod inte särskilt långt från kraven som ställs upp av Flodmark i början av rapporten (87,5% vs 90% (testet anger vuxen och den undersökte är vuxen), 79,6% rätt klassificerade mot 90%). Samstämmigheten är 100% eftersom tolkningen är automatiserad. Snubblande nära, således, men Thodbergmetoden avfärdas ändå utan vidare spisning.

Brist 7: Man har helt ignorerat en standardmetod enligt internationella riktlinjer

Tandröntgen och handledsröntgen är alltså de två viktigaste undersökningsmetoderna enligt internationell praxis och riktlinjer. Den tredje mest relevanta metoden, datortomografi av nyckelben, tas överhuvudtaget inte upp av Flodmark, trots att detta alltså är en metod som rekommenderas av internationella riktlinjer! Motiveringen till detta (enligt en debattartikel i Läkartidningen) är att undersökning av nyckelben med MR (MR, nota bene!) är behäftad med rörelseartefakter som försvårar tolkningen! Datortomografi är dock en helt annan metod, där bildhämtningen går betydligt snabbare och rörelseartefakterna följaktligen är mycket mindre.

Det är därför de främsta internationella riktlinjerna rekommenderar datortomografi av nyckelben som tredjehandsundersökning, och det är därför mycket märkligt att Flodmark inte med ett ord tar upp denna metod i sin rapport.

(Kommentar: Ser i efterhand att metoden faktiskt nämns, på sidan 11:

Detta är bara ett problem med detta. Flodmark har läst fel i publikationen han hänvisar till. Vieth, som han hänvisar till, skriver nämligen

"A total of 304 medial clavicular epiphyses were evaluated in 152 test persons. An ossification stage was determined in 225 clavicles. 79 clavicles were not evaluable due to norm variants (61 cases) or movement artefacts (18 cases). "

Det är alltså inte 61 av 152 individer som inte kan värderas, det är 61+18 nyckelben. Men eftersom de flesta individer har två nyckelben kunde ändå 127 av 152 individer åldersbedömas i denna studie.)

Brist 8: Man har använt en icke-validerad metod för metaanalys - och tillmäter denna analys större betydelse än de faktiska studieresultaten

MR-metoderna har i Flodmarkrapporten analyserats och jämförts med tandröntgenmetoderna med hjälp av metaanalys. Metaanalys innebär att man lägger ihop data från olika studier för att få ett större material. Detta kan i sin tur göras på olika sätt.

Flodmark har valt att beräkna genomsnittsålder och standardavvikelse för varje ben- eller tandmognadsstadium och utifrån detta uppskatta andelen fel- respektive rättklassade. Man har alltså inte utgått från vad de enskilda studierna visar, utan modellerat resultaten. Problemet med denna metod är att den förutsätter att åldersfördelningen inom varje mognadsstadium är normalfördelad utan skevhet. Det är inte visat att det är så, och sannolikt är fördelningen ordentligt positivt skev, åtminstone för tandröntgen (baserat på data från den omfattande Streckbeinstudien). Det tandstadium som är mest relevant för 18-årsgränsen, Demirjians stadium H, är ett ändstadium och ålderssammansättningen i det mognadsstadiumet är definitivt inte normalfördelad.

En annan sak som skaver är att denna metod för att bedöma metodernas tillförlitlighet är helt ovaliderad, och ändå tillmäts de modellerade resultaten större betydelse än studiernas faktiska resultat. Ett exempel på detta är Streckbeinstudien. Streckbeinstudien visar att av 2360 undersökta hade 870 personer samtliga fyra visdomständer i Demirjianstadium H, och inte en enda var under 18 år gammal.

Men i Flodmarks metaanalys med modellerade (dvs antagna) resultat utifrån medelvärde och standardavvikelse finns det ändå en inte obetydlig andel som enligt modellen felklassas som vuxna fast de är under 18 (till vänster om gröna strecket nedan) – tvärtemot vad studien faktiskt visar!

Detta borde förstås ha väckt frågan om Flodmarks metod var rimlig.

Lustigt nog hade det hade varit fullt möjligt - och extremt enkelt - att validera Flodmarkmetoden, exempelvis med data från Cameriere, 2008 (för tandröntgen). Här presenteras nämligen genomsnittsålder och standardavvikelse för varje stadium, och hur många som klassas rätt respektive fel om man bedömer ålder utifrån Demirjians stadium H. Här hade man snabbt kunnat se om Flodmarks "medelvärde-standardavvikelse"-metod gav tillförlitliga resultat (liknande övning hade kunnat göras med Dedouits data för MR). Hade Flodmark testat sin modell med denna data hade man omedelbart kunnat utvärdera om den var tillförlitlig. Jag antar att man hade funnit att den inte var tillförlitlig, just eftersom ålderssammansättningen i de olika mognadsstadierna inte är perfekt normalfördelade.

Det är oklart varför man inte ens tycks ha reflekterat över varför de modellerade resultaten avviker från de faktiska – och varför man ändå valde att tro på modellen istället för verkligheten.

Brist 9: Man har överskattat effekten av MR-baserade metoder

I metaanalysen har Flodmark alltså modellerat en ålderssammansättning för varje mognadsstadium utifrån ett antagande om normalfördelning. Sedan har han (rimligt nog) begränsat resultaten för en tänkt grupp i åldern 16-22. Det är denna figur som visas på rapportens sida 14.

Men om man tittar på kurvorna och lägger ihop procentsiffrorna för varje ålder ser man att 16- och 17-åringar är kraftigt överrepresenterade jämfört med undersökta i åldersspannet 18-22. Spelar det någon roll? Ja, det gör det, eftersom 16- och 17-åringar nästan alltid klassas rätt som varande ”under 18”. 18-22-åringar står för den absolut största delen av felklassificeringarna totalt sett (det är mycket vanligare att 18-19-åringar klassas som under 18 än att 16-17-åringar klassas som över 18, oavsett metod).

I Thodbergstudien och de två ingående tandröntgenstudierna är åldersfördelningen helt jämn (Thodberg) eller väldigt jämn (tandröntgenstudierna). Detta gör att de metodernas resultat på intet sätt kan jämföras med MR-studiernas, så som görs i figur 3.

När Flodmark hävdar att MR knäled klassar 3% resp 7% av pojkar/flickor som vuxna och 29% av vuxna som barn gör han det alltså utifrån en tänkt grupp undersökta, inte utifrån vad studierna faktiskt visar. Resultaten kan därför inte alls jämföras med de andra metodernas resultat eftersom (den tänkta) MR-gruppens ålderssammansättning är helt olik de övriga gruppernas.

Ett annat exempel på hur Flodmark föredrar modellerade resultat framför faktiska finns på sidan 10-11:

Det stämmer förvisso att de aktuella knäledsstudierna inte direkt återger andelen som klassats rätt med MR knäled - "Andelen är inte uppmätt", som Flodmark korrekt noterar. Men en av de tre studierna (Dedouit) presenterar faktiskt mognadsstadium för varje ålder i det relevanta intervallet (15-21 eller 16-22), så andelen rätt klassificerade kan mycket enkelt beräknas (istället för att modelleras)!

Om man utgår från dessa faktiska resultat (istället för Flodmarks antagna) ser man att risken för att en undersökt som klassats som vuxen i själva verket är barn (dvs falskt positiva) är 17% eller 14% med MR knäled (beroende på om man inkluderar spannet 15-21 som i Thodberg eller spannet 16-22 som Flodmark gjort i sin rapport)! Detta är alltså sämre än Thodberg (12,5%) och mycket sämre än tandundersökning enligt Demirjian (runt 5%). Med MR knäled klassas bara 66% av alla undersökta i relevant åldersspann rätt (inte ens nära de 90% som Flodmark själv kräver och alltså sämre än Thodbergmetodens 80%). Samtliga siffror för MR är väsentligt sämre än de publicerade resultaten för tandröntgen med bedömning av Maturity Index ad modum Cameriere.

De modellerade resultaten för MR är alltså skapliga, om än inte särskilt mycket bättre än resultaten för skelettröntgen eller tandröntgen. Men de resultat som MR-metoden faktiskt visat stöder knappast hypotesen att MR knäled är mer lovande än de övriga metoderna. De faktiska resultaten för MR är klart sämre än för de traditionella metoderna.

Varför Flodmark endast presenterar modellerade resultat och förbigår de faktiska resultaten med tystnad är ytterst oklart.

Brist 10: Man ger långsökta rekommendationer om pilotstudier

Vad mynnar då Flodmarks rapport ut i? Givet litteraturstudiens resultat hade man kunnat föreställa sig en rekommendation att undersöka hur man kan kombinera exempelvis Thodbergmetoden och tandröntgen för att nå bättre resultat, eller en rekommendation att studera samstämmigheten i bedömningen av slutstadierna för olika metoder för bedömning av tandröntgen (Demirjian och Maturity Index).

Märkligt nog rekommenderar Flodmark istället att man helt sonika skrotar alla de traditionella metoder som används i snart sagt hela världen och istället studerar MR av fyra olika kroppsdelar i en (sannolikt) flerårig pilotstudie inkluderande invandrare i första, andra och tredje generationen med flera studiegrupper baserade på självrapporterad etnicitet.

Angående Thodbergmetoden nämns bara i förbigående att man kan överväga att studera denna vidare, men först efter det att MR-studierna är genomförda. Man ställer sig frågan varför en studie av Thodbergmetoden inte kan inledas innan MR-studien är färdig. Thodbergmetoden är ju väl så bra som MR när studiepopulationerna är jämförbara, och kan införas direkt. Metoden finns och är av allt att döma kommersiellt tillgänglig.

Som invändning mot Maturity Index anförs endast att samstämmigheten är otillräckligt undersökt. Förutom att det inte stämmer, vilket jag visat ovan, hade det varit en smal sak att göra en studie där två rättsodontologer fick bedöma några hundra röntgenbilder vardera. Då skulle man få en god bild av huruvida olika bedömare kan uppnå samstämmighet inom ett par veckor – varför rekommenderas inte en sådan studie? Resultaten för Maturity Index uppfyller ju till och med Flodmarks alla kriterier, något MR knäled inte är i närheten av att göra om ålderssammansättningen av de undersökta är någorlunda rimlig. Varför föreslås inte ens en studie där man undersöker om den goda samstämmigheten för Maturity Index kan bekräftas?

Socialstyrelsens tidigare riktlinjer (från 2012) rekommenderar både tand- och handledsröntgen. Att kombinera metoder är standardförfarande även enligt internationella riktlinjer. Varför ignorerar Flodmark detta? Varför ska det inte ens undersökas?

Det är sammantaget en fullständig gåta att MR bedöms som så pass mycket mer lovande än traditionell tand- och skelettröntgen att man rekommenderar att de sistnämnda inte ska göras överhuvudtaget och att MR ska undersökas i ett ambitiöst studieprogram. Ingenting tyder ju på att MR kan något de andra metoderna inte kan! Kostnaderna, förseningen och osäkerheten är alla betydande.

Sammanfattning

Samtliga dessa 10 brister är så pass allvarliga att de sammantaget gör att rapportens slutsatser och rekommendationer måste ifrågasättas i grunden. Tyvärr används rapporten ändå helt okritiskt i debatten, och – vad värre är – den har åberopats i aktuella rättsfall!

Detta är i sanning anmärkningsvärt. Om Flodmarkrapporten med alla dessa brister används som ursäkt för att försena införandet av medicinsk åldersbedömning i asylärenden är det diskutabelt i sig, men om den även används för att skapa osäkerhet om medicinsk åldersbedömning i rättsprocesser kan konsekvenserna bli förödande. Alla misstänkta brottslingar med oklart födelsedatum kan då åberopa lägre ålder än den verkliga, och på detta sätt i värsta fall slippa rättslig påföljd helt. Strategin har redan använts, bland annat i det uppmärksammade Fåfänganmålet. Hade rätten lyssnat på Flodmarkrapportens slutsatser i det här fallet hade alltså en vuxen man som deltagit i en gruppvåldtäkt fått en mycket lindrigare påföljd – eller kanske helt sluppit straff. Även om HD inte gick på den linjen i det här fallet, med de omständigheter som rådde just här, kan liknande frågor mycket väl dyka upp i rättssalarna igen.

Oavsett vilken åsikt man har i migrationsdebatten och huruvida det är lämpligt att bedöma åldern på ensamkommande med radiologiska metoder torde det vara ytterligt svårt att acceptera att våldtäktsmän och mördare ges möjligheten att undvika straff genom att ljuga om sin ålder.

Därför borde det ligga i allas intresse att Flodmarkrapporten i bästa fall dras tillbaka, men som ett absolut minimum får genomgå en oberoende granskning av internationella experter.

Ändringar efter publicering: Tillägg om Streckbeinstudien, 870 med Demirjian stadium H. Infogat kommentar om nyckelbensstudien. Rättat "positivt prediktivt värde" till "falskt positiva" i punkt 9.

Referenser

Babburi, S., Nelakurthi, H., Aparna, V., Soujanya, P., Kotti, A. B., & Ganipineni, K. (2015). Radiographic Estimation of Chronological Age using Mineralization of Third Molars in Coastal Andhra, India. Journal of international oral health: JIOH, 7(5), 49.

Cameriere, R., Ferrante, L., De Angelis, D., Scarpino, F., & Galli, F. (2008). The comparison between measurement of open apices of third molars and Demirjian stages to test chronological age of over 18 year olds in living subjects. International journal of legal medicine, 122(6), 493-497.

Cameriere, R., Santoro, V., Roca, R., Lozito, P., Introna, F., Cingolani, M., ... & Ferrante, L. (2014). Assessment of legal adult age of 18 by measurement of open apices of the third molars: study on the Albanian sample. Forensic science international, 245, 205-e1.

Dedouit, F., Auriol, J., Rousseau, H., Rougé, D., Crubézy, E., & Telmon, N. (2012). Age assessment by magnetic resonance imaging of the knee: a preliminary study. Forensic science international, 217(1), 232-e1.

Deitos, A. R., Costa, C., Michel-Crosato, E., Galić, I., Cameriere, R., & Biazevic, M. G. H. (2015). Age estimation among Brazilians: Younger or older than 18?. Journal of forensic and legal medicine, 33, 111-115.

Galić, I., Lauc, T., Brkić, H., Vodanović, M., Galić, E., Biazevic, M. G. H., ... & Cameriere, R. (2015). Cameriere's third molar maturity index in assessing age of majority. Forensic science international, 252, 191-e1.

Garamendi PM, Landa MI, Ballesteros J, Solano MA. Reliability of the methods applied to assess age minority in living subjects around 18 years old. A survey on a Moroccan origin population. 2005 Nov 10;154(1):3-12.

Kasper et al. Reliability of Third Molar Development for Age Estimation in a Texas Hispanic Population: A Comparison Study. 2009 May;54(3):651-7.

Krämer, J. A., Schmidt, S., Jürgens, K. U., Lentschig, M., Schmeling, A., & Vieth, V. (2014). Forensic age estimation in living individuals using 3.0 T MRI of the distal femur. International journal of legal medicine, 128(3), 509-514.

Liversidge, H. M., & Marsden, P. H. (2010). Estimating age and the likelihood of having attained 18 years of age using mandibular third molars. British dental journal, 209(8), E13-E13.

Saint-Martin, P., Rérolle, C., Pucheux, J., Dedouit, F., & Telmon, N. (2015). Contribution of distal femur MRI to the determination of the 18-year limit in forensic age estimation. International journal of legal medicine, 129(3), 619.

Scheurer, E., Quehenberger, F., Mund, M. T., Merkens, H., & Yen, K. (2011). Validation of reference data on wisdom tooth mineralization and eruption for forensic age estimation in living persons. International journal of legal medicine, 125(5), 707-715.

Streckbein, P., Reichert, I., Verhoff, M. A., Bödeker, R. H., Kähling, C., Wilbrand, J. F., ... & May, A. (2014). Estimation of legal age using calcification stages of third molars in living individuals. Science & Justice, 54(6), 447-450.