Преценетата АИ, алгоритмите се всушност подобрите медицински професионалци

Во минатото, постојано се појавуваше впечаток дека вештачката интелигенција може да открие болести исто како и искусен лекар - ако не и подобро. Насловите како „Гугл вели дека нејзината вештачка интелигенција може да открие рак на белите дробови една година пред лекарот“ несомнено предизвикува големи очекувања. Ова обично вклучува проценка на дигитални датотеки со слики со користење на алгоритми за длабоко учење или искусен медицински професионалец, на пример при дијагностицирање на рак на белите дробови или кожата или при дијагностицирање на различни фази на слепило. Миура Нагендран од Империјал колеџ во Лондон и неговите колеги прашуваат во „Британскиот медицински журнал“ дали квалитетот на досега објавените студии е навистина доволен за да се покаже дека тестираните алгоритми се на исто ниво со лекарите.

Авторите на статијата, во која се вклучени истакнати личности како Ерик Топол од Институтот за преведувачки истражувања Скрипс и Johnон Јоанидис од Универзитетот Стенфорд, го критикуваат фактот дека повеќето студии што ги оценија се со слаб научен квалитет и нетранспарентно. Тие во основа не го доведуваат во прашање потенцијалот на вештачката интелигенција и не сакаат да го забават нејзиниот развој, но бараат студиите што треба да ја докажат дијагностичката точност на алгоритмите да бидат извршени според високи научни стандарди и униформни правила. Студиите со малку докази ја ставаат на ризик безбедноста на пациентот, велат авторите.

Архитектурата на мрежите за длабоко учење се заснова на нервните мрежи на човечкиот мозок. Главно, нервните конвулутивни мрежи, т.н. конвулутивни нервни мрежи, се користат за препознавање на слики. Овие автоматски извлекуваат обрасци од збир на податоци за слика, на пример, заснован на дијагноза на белодробна криза или рак. Во тој процес, тие учат модели што се претпоставува дека ги поврзуваат со рак на белите дробови или кожата, без корисникот да мора да стори нешто. Потоа мрежите самостојно ја класифицираат секоја нова слика со поврзување на научените обрасци со обучената задача за рак на белите дробови и кожата. Досега, сепак, главно не беше можно да се разбере како е донесена соодветната одлука затоа што мрежите ја извршуваат својата класификација без надворешно влијание. Како резултат, никој не знае кои шеми биле користени за да се донесе одлуката за мрежата и дали искусен лекар ќе постапува сосема поинаку со својата одлука или ќе користи слични обрасци како алгоритмот за длабоко учење. Нервната конволуциона мрежа е затоа црна кутија. Можеме да судиме само за одлуката, а не за тоа како таа настанала.

Отрезни резултати од студијата

Нагендран и неговите колеги сега испитале колку е висок квалитетот на студиите објавени во изминатите десет години и колку се заклучоците засновани на докази. Анализата беше отрезнувачка. Научниците откриле дека се објавени само две високо-квалитетни, рандомизирани клинички испитувања помеѓу 2010 и 2019 година, и двете во изминатата година. И двете се произведени во Кина. Во моментов течат осум рандомизирани испитувања, вклучително и едно во САД. Како и да е, 16 алгоритми за длабоко учење за проценка на податоците за медицинската слика се веќе одобрени од Американската администрација за храна и лекови.

Рандомизираните клинички испитувања се најдобриот начин да се споредат два пристапа. Во двете рандомизирани студии објавени до денес, искусните лекари во едната студиска група донеле свои одлуки, а во другата студија биле поддржани од алгоритмот. Од 81 не-рандомизирани студии кои ги исполнија критериумите за вклучување, само девет студии имаа потенцијален дизајн. Во ваквите студии, не се формираат и споредуваат групи, туку податоците за одредено прашање се собираат и проценуваат со текот на времето. Сепак, само шест од овие потенцијални студии се одвиваа под секојдневни клинички услови и на тој начин имаа потенцијал да кажат што било за дијагностичкиот квалитет на тестираните алгоритми во рутински услови. 58 од 81 студии биле многу пристрасни. Тие имале инфериорна студија или отстапувале од признаените стандарди.

Претерани тврдења

Како и да е, вкупно 61 студија дошле до заклучок дека перформансите на алгоритмите се споредливи или уште подобри со перформансите на искусните лекари. Само во 31 студија, директорите на студиите биле толку самокритични што побарале понатамошни студии за да ги потврдат своите наоди кога ги сумираат или дискутираат за нивните резултати. Нагендран и неговите колеги исто така се жалат дека во просек учествувале само четворица искусни лекари во секоја студија. Со оглед на фактот дека дури и искусните лекари се на различно ниво, групата треба да биде поголема за статистички да го потврди резултатот. За многу малку студии, пристапот до необработените податоци и кодот беше можен. Ова значи дека алгоритмот не може да се провери од други специјалисти.

Сепак, авторите се самокритични кон сопствената студија и ги истакнуваат нејзините слабости. На пример, не можете да исклучите дека сте занемариле релевантни студии. Вие се фокусиравте на препознавање на слики преку длабоко учење. Вашето обвинување дека многу студии не се со потребниот квалитет може да биде различно во другите области во кои се користи вештачката интелигенција во медицината. Од нивната анализа, Нагендран и неговите колеги доаѓаат до заклучок дека многу од претходните тврдења се претерани. Тие дури сметаат дека ова е потенцијален ризик за здравјето на пациентите и предупредуваат да не се користат претерани формулации за да се направат студии склони кон погрешни толкувања и да се предизвика несоодветна реклама. На полето е потребна висококвалитетна и транспарентна база на докази - што било друго не му служи на пациентот.