Skip to main content

Kunstig intelligens til diagnostik af hudsygdomme

Kenneth Thomsen1, Andreas Pihl2, 3, Lars Iversen1, Ole Winther4, 5, Hans Bredsted Lomholt6 & Simon Francis Thomsen7

15. feb. 2021
12 min.

Hudsygdomme ses hos næsten en ud af fem danskere [1]. Det estimeres, at der er flere end 3.000 dermatologiske diagnoser [2], og alle læger stifter i deres karriere bekendtskab med hudsygdomme, som kan være svære at skelne mellem for ikkedermatologer.

Fakta

Hovedbudskaber

Det er estimeret, at henvendelser med hudsymptomer i almen praksis udgør mellem 12% [3] og 37% [4]. MedComs database viser, at mere end en ud af fire (26,4%) henvisninger fra de praktiserende læger går til dermatologer, og dermatologi er vel at mærke kun et af 39 lægefaglige specialer.

Danske privatpraktiserende dermatologer har ofte lang ventetid, men globalt set er manglen på dermatologer så omfattende, at befolkninger i landområder flere steder i verden ikke kan forvente at konsultere en hudlæge.

Nye teknologiske landvindinger med hurtigere processeringshastighed og dataopbevaring har banet vejen for kunstig intelligens (AI), der har adskillige anvendelsesmuligheder inden for dermatologien. For at forstå disse teknologier er det nødvendigt for sundhedspersonale at have en basal viden om AI-teknologier (Figur 1 og Figur 2).

Et systematisk litteraturstudie, der blev udført fra januar 2012 til oktober 2018, viste, at diagnostik af malignt melanom (MM) har været det primære fokus for AI til diagnostik af hudsygdomme [5].

Traditionelt har man vurderet kvaliteten af software til diagnostisk beslutningsstøtte, også kaldet computer-aided diagnosis (CAD)-værktøjer, på baggrund af en intern validering af præcisionen på 20% af data reserveret til validering og test af algoritmen. En publikation fra 2017 i Nature ændrede det internationale fokus for effektmål til head to head-analyser (altså sammenligning) mellem CAD og læger [6], dette effektmål kan bedre end præcisionsvalidering ekstrapoleres til kliniske forhold.

Fokusskiftet ses i de mest citerede artikler på feltet i de seneste tre år [6-9], hvor tilgangen bedst kan beskrives som »man vs machine«. Tendensen i nye studier er at inkludere et mål for samarbejdet mellem man and machine [10-12], hvor der ofte opnås synergi og dermed de bedste resultater. Alle disse studier er overvejende af retrospektiv karakter, hvorfor ekstrapolerbarheden til kliniske forhold stadig er tvivlsom. Før overvejelser om klinisk implementering af AI-baserede CAD-modeller efterspørges der nu reelle kliniske studiedesign bredt i litteraturen [13, 14].

I denne artikel ønsker vi at belyse den nyeste viden inden for AI samt fordele og dilemmaer ved AI i dermatologi. Vi har valgt at inddele sygdomme i enkeltlæsionshudsygdomme (overvejende dermoskopidiagnosticerede) og generaliserede hudsygdomme.

ENKELTLÆSIONSHUDSYGDOMME

At interessen fortsat er massiv for diagnostik af MM bekræftes af, at der i 2020 var 3.314 forskningsgrupper tilmeldt den årlige The International Skin Image Collaboration (ISIC)-konkurrence i automatiseret diagnostik af MM [15].

CAD-værktøjer trænet på dermoskopibilleder er dominerende i litteraturen (Tabel 1).

I både simpel binær klassifikation (benign vs. malign) af MM og naevi på billeder samt i mere kompliceret multiclass-klassifikation (mere end to kategorier som outcome) er det flere gange påvist, at CAD er klinikere overlegne. F.eks. kunne et CAD-værktøj finde MM bedre end 136 af 157 dermatologer [7], ligesom toptrealgoritmer fra den føromtalte ISIC-2018’s konkurrence i klassifikation af syv differentialdiagnoser inklusive MM [16] var overlegne i denne multiclass-opgave sammenlignet med 511 læger med varierende grad af selvrapporteret dermoskopierfaring. I det sidstnævnte studie indgik patientbilleder fra Østrig, Australien [19], Sverige, Argentina og Tyrkiet i testen, og ikke overraskende havde algoritmerne særlige udfordringer ved kliniske billeder fra et andet datasæt, end det, de var trænet i. Dette sætter spørgsmålstegn ved reproducerbarheden af resultaterne af head to head-studier. Det er et udbredt problem ved flere AI-modeller, hvilket benævnes AI-chasm.

Hekler et al undersøgte i 2019 samspillet mellem man and machine, samarbejdet mellem dermatologer og maskine viste den højeste diagnostiske præcision, men ikke signifikant bedre resultater end CAD-værktøjet alene [12]. Flere studier har vist, at der netop ved samarbejdet mellem læge og software opstår synergi.

I et nyt studie undersøgte man både et kollaborativt man and machine-fokus og præcisionen af teledermatologiske tjenester ved CAD-værktøjer [17]. Det viste, at lægernes erfaringsniveau spillede en rolle for patientsikkerheden under anvendelse af CAD.

Læger med stor diagnostisk erfaring i MM forringede deres præstation ved uselekteret brug af CAD, men havde til gengæld gavn af værktøjet, når de var usikre på deres diagnose. Derimod kunne læger med en lille diagnostisk erfaring i MM forbedre deres præstation ved uselekteret brug.

Tschandl et al publicerede i 2019 resultaterne af en undersøgelse, hvor man kombinerede to separate dybe neurale netværksalgoritmer (Figur 2) trænet på henholdsvis dermoskopibilleder og kliniske close up-fotos [18]. Foruden at AI-modellen havde en præcision på linje med dermatologer, viste studiet, den havde en højere præcision i at identificere malignitet ud fra dermoskopiske billeder. Modsat var der en højere præcision i at diagnosticere benigne læsioner ud fra de kliniske fotos.

I et studie fra 2020, undersøgte man CAD-modeller brugt ved diagnosticering af læsioner med en specifik lokalisation. Her kunne værktøjet binært skelne maligne fra benigne læsioner på læber på niveau med dermatologer [11]. Særligt interessant var det, at algoritmen præsterede dårligere på data indsamlet fra andre hospitaler i Sydkorea end på data fra det hospital, som algoritmen var trænet i. Det er et kendt fænomen, at reproducerbarheden i disse studier ofte er lav, hvilket fordrer enten test på eksterne datasæt, eller at algoritmerne bliver gjort offentligt tilgængelige. Begge dele er en sjældenhed i dermatologi såvel som i andre specialer [5, 20].

GENERALISEREDE HUDSYGDOMME

En forskningsgruppe associeret med Google Health udgav i 2020 et studie i computerassisteret diagnostisk af generaliserede hudsygdomme og enkeltlæsionshudsygdomme [8]. Studiet var baseret på 17.777 cases med 71.017 kliniske fotos og samhørende metadata fordelt på 26 hudsygdomme.

Outcome for Google-algoritmen var bl.a. en toptrediagnose, der præsterede en sensitivitet på 90%. I head to head-analyser opnåede dermatologer en sensitivitet på 75%.

Generelt så man, at CAD-værktøjet var mere præcist end alment praktiserende læger og sygeplejersker. Men når data blev delt op i tre binære underkategorier, scorede dermatologerne højere i sensitivitet end algoritmen i to af de tre kategorier, nemlig maligne vs. benigne læsioner og androgent hårtab vs. alopecia areata.

På tværs af alle hudtyper i studiet (Fitzpatrick-hudtype I-V) så man sammenlignelige præstationer for CAD-værktøjet, dog med stor statistisk usikkerhed ved hudtype I og V pga. lav datamængde. Det er et tilbagevendende problem, at størstedelen af de AI-modeller, der bliver udviklet, er mindre egnet til diagnostik på ikkehvid hud pga. såkaldt AI-bias, der er et resultatet af homogene datasæt [21].

Algoritmer til udredning af negleforandringer har også været i fokus. Senest er der rapporteret om et CAD-værktøj, som kan skelne neglesvamp fra anden form for negledystrofi på niveau med dermatologer i head to head-analyser [9]. Dette studie udmærker sig ved til dato at være det eneste prospektive kliniske head to head-studie inden for feltet.

Telemedicinske tjenester inden for dermatologi er udbredt som hjælp til diagnostik af hudsygdomme i bl.a. primærsektoren.

DISKUSSION

I denne artikel har vi beskrevet brugen af AI i dermatologien begrænset til studier i konventionel dermatologisk diagnostik. Det gavnlige sundhedsøkonomiske potentiale i AI har resulteret i mange spændende ideer til anvendelsesområder som f.eks. monitorering af sår eller dermatopatologi, som ikke er belyst her.

AI er allerede på den internationale sundhedspolitiske dagsorden, men med nye teknologiske landvindinger (bl.a. kvaliteten af kamera og dermatoskoper) er refleksion og forsigtighed vigtige grundprincipper, så effektivitet ikke koster i kvalitet og patientsikkerhed [22].

MM er særligt i fokus, da teknologiske fremskridt kan redde liv, og sammenlignet med kliniske billeder taget med et almindeligt kamera er dermoskopiske billeder et yderst standardiseret materiale med lav kompleksitet.

De nuværende studier i MM har dog begrænsninger. Den kliniske ekstrapolerbarhed er generelt vanskelig (Tabel 1), den demografiske diversitet er ofte begrænset til en kaukasid population eller ubelyst, og et head to head-studie viste, at eksperter kan nedsætte deres præcision ved ukritisk brug af CAD.

For nuværende virker det dog fortsat fjernt med AI-baseret beslutningsstøtte til diagnosticering af generaliserede hudsygdomme, da kompleksitetsniveauet i billedmaterialet er stort. Der er ikke store open source-billedmaterialer tilgængelige, og differentialdiagnostikken er bred. Google har inkluderet patienthistorik og flere metadata som parametre i deres bidrag på dette felt [8].

Sådanne supplerende anamnestiske og objektive oplysninger og på længere sigt biokemi og patologi kan formentligt kompensere for kompleksiteten i kliniske billeder af generaliserede hudsygdomme og måske være nøglen til højpræcisionsdiagnostik.

KUNSTIG INTELLIGENS I KLINIKKEN

Vi ser allerede nu, at kommercielt tilgængelige smartphone-apps giver brugeren mulighed for at tage billeder af modermærker og få momentant svar på, om læsionen vurderes at være malign eller benign. F.eks. har man til appen Skinvision publiceret flotte sensitivitets- (95%) og specificitetsresultater (78%) [23, 24], disse tal kan dog være overestimerede [25]. Enkelte apps er CE-mærkede, men det er endnu ikke lykkedes at opnå FDA-godkendelse til nogen dermatologialgoritme.

Når den almindelige borger skal have adgang til avancerede AI-algoritmer og selv anvende dem, kan det medføre etiske problemstillinger, som skal håndteres.

Hvordan håndterer alment praktiserende læger de patienter, som møder i klinikken med en kræftdiagnose, som er stillet af en algoritme? Hvem har ansvaret for et falsk negativt resultat? Er lægen uenig i diagnosen, forudser flere eksperter, at denne »bring your own algorithm«-tilgang kan erodere tilliden mellem lægen og patienten [26]. Omvendt mener andre at kunne se en tendens til, at patienters brug af Google kan medføre en bedre fælles forståelse for symptomer og diagnose mellem patienten og lægen [27].

Hvis patienter uselekteret tager billeder af godartede modermærker, vil der være et stort antal falsk positive svar, pga. algoritmernes lave positive prædiktive værdi ved MM.

Dette kan medføre et øget pres på overflødig udredning af naevi og udfordre primærsektorens gatekeeperfunktion.

Det er således vigtigt at gøre sig klart, hvem den optimale slutbruger er til de konkrete AI-baserede modeller, baseret på faktorer som intenderet brug, algoritmens datagrundlagsekvivalens med det kliniske brugsmiljø samt potentielle samfundsøkonomiske og biostatistiske konsekvenser.

Samtidig er det vigtigt, at klinikere, der arbejder med AI, kan forstå, hvornår det er brugbart, fortolke de svar de modtager samt forklare og kommunikere resultaterne.

P.t. er muligheden for at lave sammenligninger mellem studierne begrænset, og man efterlades ofte med en bekymrende skepsis efter gennemlæsning af store studier udgivet i velrenommerede tidsskrifter som Nature og The Lancet. Derfor arbejder internationale konsensusgrupper på guidelines for rapportering af diagnostisk præcision tilpasset AI-intervention. Forhåbentlig kan det føre til konsensus om studieopbygning og rapportering af outcomes [14].

KONKLUSION

Der er i Danmark og mange steder i verden lang ventetid på dermatologisk udredning, dette vil potentielt kunne afhjælpes med effektive CAD-værktøjer. Der arbejdes intenst på dette, og flere modeller kan nu bedre end dermatologer skelne MM fra naevi på billedmateriale. Der er fortsat langt til effektiv hjælp til bred diagnostik af generaliserede hudsygdomme.

Der mangler erfaring i brug af algoritmerne i den almindelige klinik, viden om, hvorvidt data fra studierne er ekstrapolerbare, og en fælles konsensus for rapportering af resultater.

Det bliver en udfordring for sundhedsvæsenet i de kommende år bedst muligt at implementere modellerne, og det er vigtigt, at klinikere klædes på til at håndtere og kommunikere resultaterne.



Korrespondance Andreas Pihl. E-mail: afpihl@health.sdu.dk
Antaget 11. januar 2021
Publiceret på ugeskriftet.dk 15. februar 2021
Interessekonflikter Der er anført potentielle interessekonflikter. Forfatternes ICMJE-formularer er tilgængelige sammen med artiklen på ugeskriftet.dk
Referencer findes i artiklen publiceret på ugeskriftet.dk
Artikelreference Ugeskr Læger 2021;183:V10200761

Summary

Artificial intelligence in diagnosing skin diseases

Kenneth Thomsen, Andreas Pihl, Lars Iversen, Ole Winther, Hans Bredsted Lomholt & Simon Francis Thomsen

Ugeskr Læger 2021;183:V10200761

Dermatology is a visual speciality suited for implementation of computer-aided diagnostic (CAD) systems as summarised in this review. There has been great progress in CAD melanoma detection, whereas the detection of multiple lesion skin diseases has proved more difficult. We need data on clinical implementation of CAD systems in order to know, how data from studies can be extrapolated to real-world clinical settings. Good clinical test designs and common standards for reporting and monitoring efficacy are needed. Implementation of CAD in the best possible way will be a challenge for health systems and clinicians in the coming years.

Referencer

Referencer

  1. Miller IM, Zarchi K, Ellervik C, Jemec GBE. Self-reported skin morbidity in Denmark: a population-based cross-sectional study. Eur J Dermatol 2016;26:281-6.

  2. Lim HW, Collins SAB, Resneck JS Jr et al. The burden of skin disease in the United States. J Am Acad Dermatol 2017;76:958-72.e2.

  3. Verhoeven EWM, Kraaimaat FW, van Weel C et al. Skin diseases in family medicine: prevalence and health care use. Ann Fam Med 2008;6:349-54.

  4. Lowell BA, Froelich CW, Federman DG, Kirsner RS. Dermatology in primary care: prevalence and patient disposition. J Am Acad Dermatol 2001;45:250-5.

  5. Thomsen K, Iversen L, Titlestad TL, Winther O. Systematic review of machine learning for diagnosis and prognosis in dermatology. J Dermatolog Treat 2020;31:496-510.

  6. Esteva A, Kuprel B, Novoa RA et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017;542:115-8.

  7. Brinker TJ, Hekler A, Enk AH et al. Deep learning outperformed 136 of 157 dermatologists in a head-to-head dermoscopic melanoma image classification task. Eur J Cancer 2019;113:47-54.

  8. Liu Y, Jain A, Eng C et al. A deep learning system for differential diagnosis of skin diseases. Nat Med 2020;26:900-8.

  9. Kim YJ, Han SS, Yang HJ, Chang SE. Prospective, comparative evaluation of a deep neural network and dermoscopy in the diagnosis of onychomycosis. PLoS One 2020;15:e0234334.

  10. Breitbart EW, Choudhury K, Andersen AD et al. Improved patient satisfaction and diagnostic accuracy in skin diseases with a visual clinical decision support system – a feasibility study with general practitioners. PLoS One 2020;15:e0235410.

  11. Cho SI, Sun S, Mun JH et al. Dermatologist‐level classification of malignant lip diseases using a deep convolutional neural network. Br J Dermatol 2020;182:1388-94.

  12. Hekler A, Utikal JS, Enk AH et al. Superior skin cancer classification by the combination of human and artificial intelligence. Eur J Cancer 2019;120:114-21.

  13. Esteva A, Topol E. Can skin cancer diagnosis be transformed by AI? Lancet 2019;394:1795.

  14. Sounderajah V, Ashrafian H, Aggarwal R et al. Developing specific reporting guidelines for diagnostic accuracy studies assessing AI interventions: The STARD-AI Steering Group. Nat Med 2020;26:807-8.

  15. Goldblum AVR. ISIC melanoma classification. Kaggle. https://www.kaggle.com/c/siim-isic-melanoma-classification/discussion/154271 (21. aug 2020).

  16. Tschandl P, Codella N, Akay BN et al. Comparison of the accuracy of human readers versus machine-learning algorithms for pigmented skin lesion classification: an open, web-based, international, diagnostic study. Lancet Oncol 2019;20:938-47.

  17. Tschandl P, Rinner C, Apalla Z et al. Human–computer collaboration for skin cancer recognition. Nat Med 2020;26:1229-34.

  18. Tschandl P, Rosendahl C, Akay BN RP et al. Expert-level diagnosis of nonpigmented skin cancer by combined convolutional neural networks. JAMA Dermatol 2019;155:58-65.

  19. Tschandl P, Rosendahl C, Kittler H. The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions Scientific Data, 2018. http://dx.doi.org/10.1038/sdata.2018.161 (2. aug 2020).

  20. Elhakim MT, Graumann O, Larsen LB et al. Kunstig intelligens til cancerdiagnostik i brystkræftscreening. Ugeskr Læger 2020;182:V06200423.

  21. Adamson AS, Smith A. Machine learning and health care disparities in dermatology. JAMA Dermatology 2018;154:1247.

  22. Esteva A, Robicquet A, Ramsundar B et al. A guide to deep learning in healthcare. Nat Med 2019;25:24-9.

  23. Thissen M, Udrea A, Hacking M et al. mHealth app for risk assessment of pigmented and nonpigmented skin lesions – a study on sensitivity and specificity in detecting malignancy. Telemed J E Health 2017;23:948-54.

  24. Udrea A, Mitra GD, Costea D et al. Accuracy of a smartphone application for triage of skin lesions based on machine learning algorithms. J Eur Acad Dermatol Venereol 2020;34:648-55.

  25. Deeks JJ, Dinnes J, Williams HC. Sensitivity and specificity of SkinVision are likely to have been overestimated. J Eur Acad Dermatol Venereol 2020;34:e582-e583.

  26. Nov O, Aphinyanaphongs Y, Lui YW et al. The transformation of patient-clinician relationships with AI-based medical advice: a“ bring your own algorithm” era in healthcare. arXiv preprint arXiv, 2008 https://arxiv.org/abs/2008.05855 (21. aug 2020).

  27. van Riel N, Auwerx K, Debbaut P et al. The effect of Dr Google on doctor-patient encounters in primary care: a quantitative, observational, cross-sectional study. BJGP Open 2017;1(2):bjgpopen17X100833.