The quality of artificial intelligence algorithms for identifying manifestations of multiple sclerosis on magnetic resonance imaging (systematic review)
- Authors: Chernyaeva G.N.1, Morozov S.P.1, Vladzimirskyy A.V.1,2
-
Affiliations:
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
- I.M. Sechenov First Moscow State Medical University (Sechenov University)
- Issue: Vol 15, No 4 (2021)
- Pages: 54-65
- Section: Reviews
- Submitted: 07.05.2020
- Published: 23.12.2021
- URL: https://annaly-nevrologii.com/journal/pathID/article/view/647
- DOI: https://doi.org/10.54101/ACEN.2021.4.6
- ID: 647
Cite item
Full Text
Abstract
A systematic review was undertaken to summarize the data regarding accuracy and effectiveness of artificial intelligence algorithms for identifying MRI manifestations of multiple sclerosis. The review included 39 papers, whose authors put forth a multitude of corresponding algorithms and mathematical models. However, quality assessment of these developments was limited by retrospective testing on repeat data sets. Clinical test results were almost entirely absent, and there were no prospective independent studies of accuracy and applicability. The relatively high values obtained for the main measures (similarity, sensitivity and specificity coefficients, which were 75–85%) were offset by the methodological errors when creating the baseline data sets, and lack of validation using independent data. Due to small sample sizes and methodological errors when measuring the result accuracy, most of the studies did not meet the criteria for evidence-based research. Studies with the highest methodological quality had algorithms that achieved a sensitivity of 51.6–77.0%, with a Sørensen–Dice coefficient of 53.5–56.0%. These numbers are not high, but they indicate that automatic identification of multiple sclerosis manifestations on magnetic resonance imaging may be achievable. Further development of computer-aided analysis requires the creation of clinical use scenarios and testing methodology, and prospective clinical testing.
Full Text
Введение
Среди хронической патологии центральной нервной сис-темы особое место занимает рассеянный склероз (РС) — неизлечимое, аутоиммунное и нейродегенеративное заболевание, являющееся одной из основных причин стойкой утраты трудоспособности у лиц молодого возраста. В последнее время отмечается глобальный рост распространённости РС [1–3]. Далеко не последнюю роль в увеличении выявляемости РС играет интенсивное развитие диагностической нейровизуализации. Во многих странах Европы, Юго-Восточной Азии, Северной Америки наблюдается прогрессивный рост оснащённости систем здравоохранения компьютерными и магнитно-резонансными томографами с параллельным увеличением числа исследований. Однако количество диагностических процедур не всегда коррелирует с качеством диагностики. Ряд авторов полагает, что увеличение распространённости РС ошибочно и обусловлено гипердиагностикой этого состояния в 10–31% случаев [4–6]. Опубликованные процитированными авторами данные свидетельствуют о низком качестве диагностики РС на первичном уровне здравоохранения, причём эта ситуация носит глобальный характер. Гипердиагностика приводит к бессмысленному, высокозатратному лечению, психологическим расстройствам, стигматизации. А гиподиагностика, наоборот, задерживает начало специфической терапии, приближает инвалидизацию, ухудшает прогноз. В связи с этим поиск путей повышения качества и точности диагностики РС на первичном уровне медицинской помощи является актуальной задачей.
С учётом уровня развития цифровых технологий представляется потенциально возможным применять алгоритмы искусственного интеллекта (ИИ) для автоматизированного анализа медицинской информации и поддержки принятия решений врачами-радиологами [7].
Предварительный анализ литературы позволил установить, что разработки в сфере ИИ для диагностики РС ведутся с 1990-х гг. [8–14]: предлагались различные математические модели и методы анализа данных, однако валидация этих разработок практически полностью отсутствовала, а стандартные метрики точности не публиковались. Период исследования проблемы с 1990-х до 2010-х гг. внёс вклад в развитие математики и компьютерных наук, но не медицины.
Позднее для скрининга и прогнозирования течения болезни предлагались:
- Алгоритмы обработки естественного языка для анализа медицинской документации (истории болезни, результаты лабораторных исследований, антропологические и демографические данные и пр.) [15–18]. Во всех указанных работах авторы заявляли о хороших результатах, но независимого тестирования, масштабирования и клинической апробации этих разработок не проводилось. Иногда такие разработки дополнялись средствами анализа магнитно-резонансных изображений, что обеспечивало чувствительность и специфичность метода на уровне 71% и 68% соответственно [19].
- Алгоритмы анализа результатов электроэнцефалографии [20–22]. С точки зрения автоматизации, это направление является бесперспективным, т.к. электроэнцефалография не позволяет провести диагностику РС в соответствии с критериями McDonald. Лидирующим методом, безусловно, является магнитно-резонансная томография (МРТ).
- Алгоритмы анализа результатов МРТ посредством различных математических методов, в основном нейронных сетей. Именно это направление представляется наиболее перспективным и требующим углубленного изучения.
Цель исследования — систематизировать данные о точности и результативности применения алгоритмов ИИ для диагностики РС по результатам МРТ.
Материалы и методы
Выполнен систематический обзор с описанием по методологии «PRISMA» [23].
Поиск публикаций проводился на двух языках (русском и английском) с использованием ресурсов Научной электронной библиотеки РФ (www.elibrary.ru), Национальной медицинской библиотеки США (www.pubmed.org), коллекции препринтов Корнеллского университета, Итака, США (www.arxiv.org).
Поисковые запросы на английском языке включали термины (медицинские предметные заголовки (Medical Subject Headings — MeSH)): «multiple sclerosis», «artificial intelligence», «machine learning». Поисковые запросы на русском языке включали термины: «рассеянный склероз», «искусственный интеллект», «автоматизированный анализ», «машинное обучение».
Стратегия поиска представлена на рисунке. Обзор актуален по состоянию на 01.04.2020.
Критерии включения публикации:
1) соответствие теме систематического обзора;
2) оригинальное исследование (дизайн диагностического исследования);
3) статья в рецензируемом журнале, серии рецензируемых сборников, препринт;
4) в обучающий дата-сет включены результаты обследований пациентов исключительно с РС и лиц без патологии головного мозга;
5) алгоритм проводит анализ только результатов МРТ головного мозга (сегментация структур, выявление очагов);
6) приведены объективные данные о валидации, диагностической точности, иных метриках эффективности алгоритмов;
7) для объективизации диагностической точности использованы стандартные метрики (чувствительность, специфичность, площадь под характеристической кривой, коэффициент Дайса–Сёренсена).
Стратегия отбора публикаций для систематического обзора. / Article selection process for the systematic review.
Далее из каждой публикации были извлечены необходимые данные:
- имя автора, год публикации;
- цель, дизайн исследования;
- данные о наборе данных (дата-сете), методике проведения МРТ;
- результат оценки точности и эффективности;
- общие результаты.
Перечисленные сведения были систематизированы и проанализированы.
Результаты и обсуждение
В обзор были включены 39 статей и препринтов. Подав-ляющая их часть представляет собой детальное описание математических аспектов разработки алгоритмов (моделей) для автоматизированного выявления признаков РС на МРТ; при этом процесс и результаты оценки точности приводятся крайне лаконично. Нами не выявлено ни одного исследования, в котором алгоритм применялся бы в условиях клинической апробации или для проспективного анализа изображений. Все статьи, подходящие по критериям включения, имели ретроспективный дизайн. В публикациях отсутствовали данные о клинических результатах, поэтому мы ограничились систематизацией вопросов, связанных с наборами данных (дата-сетами), методикой и результатами ретроспективной оценки диагностической точности. Обобщённая информация приведена в таблице 1.
Обобщение данных об алгоритмах ИИ для выявления признаков PC на МРТ / Summarizing data on AI algorithms to detect signs of multiple sclerosis in MRI
Автор, год публикации Author, year of publication | Набор данных Data set | Метрики точности Precision metrics | Примечание Comments | ||||||
источник source | число пациентов c PC number of patients with MS | число пациентов без PC number of patients without MS | коэффициент Дайса-Сёренсена Sorensen-Dice coefficient | чувствительность sensitivity | специфичность specificity | общая точность general accuracy | иное other |
| |
Salem M. et al., 2017 [43] | Собственный Own | 36 | - | 0,77 ± 0,23, 0,56 ±0,23 | 74,30 ± 28,70 | 11,86 ±18,40 |
|
|
|
Brosch T. et al., 2016 [37] | «MICCAI 2008», «ISBI 2015» Собственный Own | 377 | - |
| 51,6 |
|
| 51,3* | Тестирование на новых данных Tested with updated data |
Gabr R.E. et al., 2019 [36] | Собственный Own | 1008 | - | 0,82 (95% ДИ 0,61-1,0) | 76,0-79,0 |
|
|
| Мультицентровое исследование (данные из 68 организаций). Максимальная чувствительность > 91% достигается для очагов объёмом не менее 70 мм3 Multicenter study (data provided by 68 organizations) Highest responsiveness value > 91 % was observed for focal areas of at least 70 mm3 |
Wang S.H. et al., 2018 [24] | To же Ibid | 38 | 26 | 98,77 ± 0,35 | 98,76 ± 0,58 |
| 98,77 ± 0,39 | 98,75 ±0,58** |
|
Zurita M. et al., 2018 [25] | -"- | 104 | 46 |
|
|
| 89,0 ±2,0, 63,0 ±5,0 |
| Сравнение пациентов с разной степенью неврологического дефицита Comparison of patients with varied neurologic deficit |
Yoo Y. et al., 2017 [26] | -"- | 55 | 44 |
| 87,3 ±12,9 | 88,6 ±12,5 | 87,9 ± 8,4 | 88,0 ±8,5*** |
|
Valverde S. et al., 2017 [38] | «MICCAI 2008» Собственный Own | 105 | - | 53,5; 56,0 | 55,5-68,7; 77,0; 68,2 |
|
| 70,3; 73,0** | Тестирование на новых данных Tested with updated data |
Goldberg- Zimring D. et al., 1998 [41] | Собственный Own | 14 | - |
| 0,87 | 0,96 |
|
|
|
Boudraa A.O. et al., 2000 [44] | Собственный Own | 10 | - |
|
|
|
| 0,65-0,87**** |
|
Geremia E. et al., 2010 [45] | «MICCAI 2008» | 20 | - |
| 0,23-0,49 |
|
| 0,28-0,78 ** |
|
Yamamoto D. et al., 2010 [40] | Собственный Own | 3 | - |
| 81,5 |
|
|
|
|
Shiee N. et al., 2010 [46] | To же Ibid | 10 | - | 0,633 | 0,712 |
|
|
|
|
Garcia-Lorenzo D. et al., 2009 [47] | -"- | 10 | - | 0,63 |
|
|
|
|
|
Cabezas M. et al., 2014 [35] | -"- | 45 | - | 0,44-0,56 |
|
|
|
| Мультицентровое исследование (данные из 3 организаций) Multicenter study (data provided by 3 organizations) |
Crimi A. et al., 2014 [31] | -"- | 25 | - |
|
|
|
| 0,80 ±0,13, 0,90 ±0,05 (коэффициент детерминации / R2 coefficient) | Мультицентровое исследование (данные из 5 организаций) Multicenter study (data provided by 5 organizations) |
Theocharakis P. et al., 2009 [30] | -"- | 11 | 18 |
|
|
| 88,46% |
| В дата-сет включены исследования с сосудистыми очагами Dataset includes data on focal areas of high vascular density |
Khayati R. et al., 2008 [49] | -"- | 20 | - | 0,74 ± 0,05 |
|
|
| 0,75 ±0,03**** |
|
Weiss N. et al., 2013 [50] | «MICCAI 2008» | 20 | - | 63,0-71,0 | 33,0 |
|
| 37,0** |
|
Gao J. et al., 2014 [51] | «MICCAI 2008» | 20 | - | 0,55-0,59 |
| 0,98-0,99 |
|
|
|
Nakamura К. etal., 2009 [27] | Собственный Own | 3 | 3 |
|
|
|
| 0,836**** |
|
Bijar A. etal., 2013 [52] | To же Ibid | 20 | - |
|
|
|
| 0,7132- 0,8262**** |
|
Cerasa A. etal., 2012 [53] | -"- | 11 | - | 19,7 ±12,01 |
|
|
|
|
|
Hackmack K. etal., 2012 [28] | -"- | 41 | 26 |
| 92,68 | 96,15 | 94,42 |
|
|
Aymerich F.X. etal., 2011 [54] | -"- | 4 | - |
| 0,760 |
|
|
|
|
Bendfeldt K. etal., 2012 [42] | -"- | 50 | - |
| 76,9-82,3 | 76,9-88,2 |
|
| Сравнение пациентов, получающих и не получающих медикаментозную терапию Comparison of patients who received drug therapy versus watch-and-wait patients |
Kuwazuru J. etal., 2012 [56] | -"- | 3 | - |
| 75,0-86,3 |
|
| 0,17-0,49**** |
|
Jain S. etal., 2016 [34] | -"- | 22 | - | 0,60-0,89 | 0,42-0,57 |
|
| 0,25-0,48* | В дата-сет включены исследования, выполненные на 3 разных томографах. Данный алгоритм входит в программное обеспечение «Icometrix», сертифицированное в США как медицинское изделие The data set included images obtained from 3 different CT scanners. This algorithm is used by Icometrix software, certified as a medical device in the USA |
Kanber B. etal., 2019 [56] | -"- | 124 | - |
| 77,7 (95% ДИ 77,2-78,3) | 77,8 (95% ДИ 77,3-78,2) | 86,5 | 0,890*** |
|
Wei W, et al., 2018 [8] | -"- | 18 | 10 | 0,83 |
|
|
|
|
|
Freire P.G.L. et al., 2018 [57] | -"- | 5 | - | 0,9860 ±0,0012 |
|
|
|
|
|
Feng Y. et al., 2018 [58] | «ISBI 2015» | 14 | - | 0,684 | 0,648 |
|
| 0,832** |
|
Kazancli E. et al., 2018 [59] | Собственный Own | 9 | - | 57,5 ±12,4 | 59,7 ±14,6 |
|
|
|
|
Roy S. et al., 2018 [60] | «ISBI 2015» собственный Own | 100 | - | 0,5639 |
|
|
| 0,6040** | Тестирование на новых данных Tested with updated data |
Sacca V. et al., 2019 [61] | Собственный Own | 18 | 19 |
| 46,6-100,0 | 46,6-100,0 | 56,5-85,7 |
|
|
Zhang H. et al., 2020 [62] | To же Ibid | 43 | - | 66,011 |
|
|
|
|
|
Gheshlaghi S.H. et al., 2019 [63] | -"- | 35 | 35 |
|
|
| 0,99 |
|
|
McKinley R. et al., 2019 [33] | «Bernese MS cohort databank» | 50 | - |
| 0,38-1,00 |
| 0,52-0,94 | 0,77-0,99*** | Мультицентровое исследование (данные из 2 организаций). Тестирование на новых данных Multicenter study (data provided by 2 organizations). Tested with updated data |
Aslani S. et al., 2019 [32] | «ISBI 2015» Собственный Own | 56 | - | 0,6655-0,7067 |
|
|
| 0,6844-0,8032** |
|
Salem M. et al., 2020 [48] | Собственный Own | 60 | - | 0,83 | 83,09 |
|
| 9,36* |
|
Примечание. *Частота ложноположительных случаев; **предсказательная ценность положительного результата; ***площадь под характеристической кривой; ****коэффициент подобия.
Note. *Frequency of false-positive outcomes; **prognostic value of positive findings; ***area under H and D curve; ****similarity index.
Наборы данных (дата-сеты)
Для разработки алгоритмов выявления РС по результатам МРТ группы исследователей использовали собственные и публичные наборы данных. Из числа публичных дата-сетов наиболее часто использовался «MICCAI 2008» — с ним работали 5 групп разработчиков, «ISBI 2015» — 3, «MS-100», «ISBI-61», «Bernese MS cohort» — по 1.
В выборки включались данные пациентов обоих полов старше 18 лет. Информация о демографических данных лиц, чьи исследования были включены в дата-сеты, представлена в 18 (46,2%) статьях, сведения о типе и клинических особенностях основного заболевания — в 13 (33,3%). При этом ремиттирующий и первично-прогрессирующий варианты течения встречались примерно в равном количестве статей.
В результате анализа публикаций установлена характерная ситуация: большинство разработчиков в наборы данных включали только целевые случаи с РС. Можно сказать, что их алгоритмы «оставались в неведении» о существовании изображений без признаков РС. Такой подход является грубейшей методической ошибкой. Лишь 8 (20,5%) разработчиков использовали наборы данных, включающие результаты МРТ здоровых лиц или исследования с сосудистыми очагами [24–30]. В наборы данных были включены следующие режимы сканирования: Т1-взвешенные изображения (Т1-ВИ), Т2-ВИ, Т2-ВИ с подавлением сигнала от свободной жидкости (англ. Fluid Attenuation Inversion Recovery (FLAIR)), изображения, взвешенные по протонной плотности (англ. Proton Density Weighted (PDW)). Большинство разработчиков использовали 3 вида изображений (Т1-ВИ, Т2-ВИ, FLAIR) — 12 (30,8%), только FLAIR — 6 (15,4%), все 4 вида изображений — 7 (18,0%). Сочетание FLAIR только с Т1-ВИ или только с Т2-ВИ сочли оптимальным 6 (15,4%) разработчиков. Т1-ВИ и Т2-ВИ применили 7 (18,0%). Остальные руководствовались иными сочетаниями видов изображений (однократные случаи). Одна группа авторов ограничилась только Т1-ВИ.
Примерно в равном количестве статей использованы результаты МРТ с толщиной срезов 1 или 3 мм.
В 15 (38,5%) работ исследования проводились на томографах с напряжённостью магнитного поля 3 Т, в 10 (25,7%) — 1,5 Т (большинство этих работы выполнены до 2013 г.). 5 (12,8%) исследователей в дата-сетах смешали исследования с аппаратов 1,5 и 3 Т. В 9 (23,0%) статьях данные о характеристиках томографов не представлены.
Данные об аппаратах, проекциях, иных деталях выполнения МРТ авторами статей приведены хаотично, что не позволяет выполнить обобщение.
Диагностическая точность
Подавляющее большинство авторов — 34 (87,2%) — использовали подход «leave-one-out», суть которого состоит в разделении имеющегося набора данных на выборку для обучения и выборку для оценки точности. При этом общий объём наборов данных колебался от 3 до 150 клинических случаев (в среднем 38 случаев при значениях медианы 23,5 и моды 20); 3 (7,7%) разработчика использовали более 100 случаев, 9 (23,1%) — 10 и менее.
Только 5 групп разработчиков использовали дата-сеты, сформированные из данных нескольких медицинских организаций: A. Crimi и соавт. — 25 случаев из 5 клиник [31], S. Aslani и соавт. — 56 случаев из собственного и из публичного дата-сета [32], R. McKinley и соавт. — 50 случаев из 2 медицинских организаций [33], S. Jain и соавт. — 22 случая с 3 разных томографов [34], М. Cabezas и соавт. — 45 случаев из 3 клиник [35].
Валидация алгоритмов на независимых данных проведена 5 (12,8%) разработчиками; причём для обучения алгоритмов использованы наиболее значительные объёмы данных (100 и более случаев). Для разработки и валидации R.E. Gabr и соавт. использовали набор данных из 1008 случаев, собранных из 68 медицинских организаций [36]. Отметим, что это самый объёмный дата-сет, использованный для обучения и валидации алгоритмов ИИ, направленных на выявление РС. R. McKinley и соавт. применяли два различных дата-сета из двух клиник: один — для обучения, второй — для тестирования [33]. Три группы исследователей использовали собственные наборы (37, 60 и 77 случаев) для обучения, а релевантные дата-сеты, находящиеся в открытом доступе (MICCAI 2008, ISBI 2015) — для тестирования точности [32, 37, 38].
Таким образом, доказательность показателей диагностической точности, заявляемых 87,2% разработчиков, крайне сомнительна. Вызывает недоумение использование для обу-чения и валидации дата-сетов из 3, 4, 5, 9, 10, 11, 14 случаев, а также исключительное обучение на результатах исследований с признаками РС. В таких ситуациях происходит фактически экспериментальная разработка алгоритмов, совершенно «оторванная» от реальных клинических условий. Минимальное количество разработчиков (5 (12,8%)) осознали необходимость мультицентрового подхода, т.е. формирования дата-сетов из данных нескольких медицинских организаций, тестирования разработок на независимых (новых для алгоритма) изображениях.
Оценку диагностической точности авторы статей проводили путем вычисления следующих показателей:
- коэффициенты сходства (Дайса–Сёренсена, индекс сходства);
- чувствительность и специфичность;
- общая точность;
- предсказательная ценность положительного или отрицательного результата;
- частота ложноположительных случаев (false positive rate);
- площадь под характеристической кривой;
- коэффициент детерминации.
Вместе с тем ни в одной статье не был соблюдён дизайн диагностического исследования [39]. Вычисления метрик авторы проводят бессистемно, дискретно. Например, приводятся данные о чувствительности, но отсутствует специфичность. Иногда есть попытки ввести собственные коэффициенты, видоизменить стандартные формулы. Такой подход нарушает принципы выполнения биомедицинских исследований. Для медицинской аудитории доказательность соответствующих публикаций минимальна. Большинство авторов (n = 20; 51,3%) использовали коэффициент Дайса–Сёренсена. Еще в 6 работах использован индекс сходства. Корректно привели данные о чувствительности и специфичности только 9 (23,1%) групп исследователей. Площадь под характеристической кривой использовали только 2 группы авторов. В целом для алгоритмов выявления РС на МРТ значения коэффициентов сходства колеблются в очень широком диапазоне (0,44–0,99); аналогичная ситуация для чувствительности (0,23–0,99), специфичности (0,12–0,99), общей точности (0,58–0,99).
С учётом методических дефектов и нерепрезентативности большинства дата-сетов (как было показано выше) проводить математическую обработку и метаанализ этих данных не имеет смысла.
Таким образом, качество включённых в обзор статей с позиций дизайна является низким. Представление показателей диагностической точности не соответствует принципам доказательной медицины. Довольно высокие уровни основных метрик (коэффициенты сходства, чувствительность, специфичность) нивелируются методическими ошибками при формировании исходных дата-сетов, отсутствием валидации на независимых данных. В силу малых объемов выборок и методических дефектов оценки точности результаты подавляющего большинства статей не отвечают критериям доказательности.
Одна из наиболее методически качественных работ — статья S. Valverde и соавт. [38]. Авторы предложили каскад свёрточных нейронных сетей для сегментации белого вещества и выявления типичных для РС поражений головного мозга. Для обучения модели и ее тестирования «leave-one-out» использован «экспериментальный» набор данных (публично доступный дата-сет «MICCAI 2008»; n = 45), а для независимой валидации — два собственных «клинических» набора (n = 35; n = 25), которые не были «известны» модели до тестирования. Чувствительность алгоритма на «экспериментальном» дата-сете составила 55,5–68,7%, на «клинических» — 77,0 и 68,2% соответственно. Значения коэффициента Дайса–Сёренсена для «клинических» наборов данных составили 53,5 и 56,0%, превосходя результаты для тестирования на «экспериментальном» дата-сете. Также авторы сравнили собственные результаты и данные литературы [38]. Полученные сведения наглядно продемонстрировали не только превосходство модели над аналогами, но и хорошую воспроизводимость результатов работы алгоритма. С клинической точки зрения, достигнутые значения метрик точности низки и вряд ли позволяют говорить даже об апробации в условиях практического здравоохранения; явно требуется дополнительное обучение модели. Но авторы придерживаются очень правильного методического подхода как к разработке алгоритмов, так и к их тестированию. Аналогичный подход применили T. Brosch и соавт., использовав собственный дата-сет для обучения, а два публичных («MICCAI 2008» и «ISBI 2015») — для тестирования своего алгоритма на новых данных [17]. Всего авторы использовали 377 случаев, достигнув чувствительность 51,6% и предсказательную ценность отрицательного результата 51,3%.
R.E. Gabr и соавт. реализовали модель на основе свёрточной нейронной сети с полностью связанными слоями [36]. В мультицентровом исследовании авторы использовали дата-сет из 1008 случаев, собранных из 68 медицинских организаций. Разработчики смогли получить значение коэффициента Дайса–Сёренсена 0,82 (95% ДИ 0,61–1,0). Особый интерес, с точки зрения методологии разработки и применения алгоритмов ИИ для выявления РС, представляет следующий факт. Авторы смогли убедительно доказать, что наибольшая чувствительность алгоритма (91% и более) достигается для очагов объемом 70 мм3.
Примечательно, что в описанных работах получены довольно скромные значения метрик диагностической точности. При этом в исследованиях по принципу «leave-one-out» чувствительность достигает 81,5% (обучение и тестирование на 3 случаях) [40], 87,0% (на 14 случаях) [41], 92,68% (на 67 случаях) [28], 98,77 (на 64 случаях) [24]. Аналогичная ситуация и с коэффициентами сходства. Без проверки точности на новых данных, без независимой валидации результатов у разработчиков создаётся иллюзия высокого качества алгоритмов, возможности «замены рентгенологов» с их помощью. Особо удивляет такая позиция при обучении и одновременной валидации алгоритмов на 3–9 изображениях. Принцип «leave-one-out» подходит для предварительной оценки точности на начальных этапах разработки, но по мере эволюции алгоритма для его тестирования надо обязательно применять новые данные, полученные на разных диагностических устройствах и в разных медицинских организациях.
Особо надо отметить две статьи, в которых сравнивались работы алгоритмов у разных групп пациентов: получавших или не получавших медикаментозную терапию препаратами, изменяющими течение РС [42]; имеющих различную степень неврологического дефицита по расширенной шкале оценки степени инвалидизаций Куртцке (англ. Expanded Disability Status Scale) [25]. В обоих исследованиях достигнуты средние уровни точности, свидетельствующие о необходимости дальнейшей работы над обучением алгоритмов. Однако выделение авторами разных клинических групп является правильным и перспективным подходом.
Выводы
- Над задачей выявления РС путём автоматизированного анализа МРТ работает значительное число исследователей; предложено большое количество математических методик.
- Предварительные результаты обнадёживают. Значения ключевых метрик диагностической точности в среднем достигают 75–85%. Это позволяет говорить о потенциальной реализуемости задачи автоматизированного выявления признаков РС на МРТ, а также о необходимости углублённых исследований.
- Вместе с тем на момент подготовки обзора отсутствуют результаты клинической апробации алгоритмов ИИ для выявления РС, нет проспективных научных исследований точности и применимости. Независимое тестирование алгоритмов осуществляется только в единичных исследованиях; тогда как валидация на новых данных должна быть рутинной частью процесса разработки.
- Для дальнейшего качественного развития алгоритмов ИИ для выявления и мониторинга РС требуется разработка клинических сценариев их применения, формирование методологии объективного тестирования (на принципах доказательной медицины, со стандартизацией критериев), проведение проспективных клинических апробаций.
- Требуется обоснование стандартных требований к наборам данных, используемых для обучения алгоритмов, включая вопросы стандартизации, методологии подготовки (разметки) изображений, юридические аспекты.
- Применение алгоритмов ИИ в контексте проблемы РС может рассматриваться по следующим направлениям:
- поддержка принятия решений по результатам первого МРТ (выявление характерных признаков РС, определение типа патологического процесса, прогнозирование);
- дифференциальная диагностика в сложных случаях (возможно с использованием клинических данных);
- подбор и оценка результативности терапии, выявление ранних признаков осложнений;
- контроль динамики патологического процесса.
Перечисленные направления должны быть разделены на отдельные проблемы, что, в том числе, будет являться предметом наших дальнейших исследований.
About the authors
Galina N. Chernyaeva
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: a.vladzimirsky@npcmr.ru
https://orcid.org/0000-0002-5066-5997
junior researcher
Россия, MoscowSergey P. Morozov
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies
Email: a.vladzimirsky@npcmr.ru
ORCID iD: 0000-0001-6545-6170
https://orcid.org/0000-0001-6545-6170
D. Sci. (Med), Prof., Director
Россия, MoscowAnton V. Vladzimirskyy
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies; I.M. Sechenov First Moscow State Medical University (Sechenov University)
Author for correspondence.
Email: a.vladzimirsky@npcmr.ru
ORCID iD: 0000-0002-2990-7736
https://orcid.org/0000-0002-2990-7736
D. Sci. (Med), Deputy Director for R&D
Россия, Moscow; MoscowReferences
- Abdurakhmanova R.F., Izzatov Kh.N., Khadibaeva G.R. et al. Multiple sclerosis: etiology, pathogenesis and clinics (part I). Vestnik poslediplomnogo obrazo- vaniya v sfere zdravookhraneniya. 2016;(3):68-74. (In Russ).
- Popova E.V., Boyko A.N., Barabanova M.A. et al. Primary progressive multiple sclerosis: current issues of timely diagnosis. Zhurnal nevrologii i psikhiatrii im. S.S. Korsakova. 2017;117(10-12):35-40. (In Russ). doi: 10.17116/jnev- ro201711710235-40.
- Howard J., Trevick S., Younger D.S. Epidemiology of multiple sclerosis. Neurol Clin. 2016;34(4):919-939. doi: 10.1016/j.ncl.2016.06.016. PMID: 27720001.
- Borodin A.V. Differential diagnostics of multiple sclerosis. Prakticheskaya meditsina. 2018;(10):59-63. (In Russ).
- Siva A. Common clinical and imaging conditions misdiagnosed as multiple sclerosis: a current approach to the differential diagnosis of multiple sclerosis. Neurol Clin. 2018;36(1):69-117. doi: 10.1016/j.ncl.2017.08.014. PMID: 29157405.
- Solomon A.J., Naismith R.T., Cross A.H. Misdiagnosis of multiple sclerosis: impact of the 2017 McDonald criteria on clinical practice. Neurology. 2019;92(1):26-33. doi: 10.1212/WNL.0000000000006583. PMID: 30381369.
- Morozov S.P., Vladzymyrsky A.V., Klyashtorny V.G. et al. Clinical studies of intelligence technology-based software (radiology). Moscow, 2019. 33 p. (In Russ).
- Udupa J.K., Wei L., Samarasekera S., Miki Y. et al. Multiple sclerosis lesion quantification using fuzzy-connectedness principles. IEEE Trans Med Imaging. 1997;16(5):598-609. doi: 10.1109/42.640750. PMID: 9368115.
- Datta S., Sajja B.R., He R. et al. Segmentation and quantification of black holes in multiple sclerosis. Neuroimage. 2006;29(2):467-474. DOI: 10.1016/j. neuroimage.2005.07.042. PMID: 16126416.
- He R., Sajja B.R., Narayana P.A. Implementation of high-dimensional feature map for segmentation of MR images. Ann Biomed Eng. 2005;33(10):1439- 1448. doi: 10.1007/s10439-005-5888-3. PMID: 16240091.
- Kawa J., Pietka E. Kernelized fuzzy c-means method in fast segmentation of demyelination plaques in multiple sclerosis. Conf Proc IEEE Eng Med Biol Soc. 2007;2007:5616-5619. doi: 10.1109/IEMBS.2007.4353620. PMID: 18003286.
- Ait-Ali L.S., Prima S., Hellier P. et al. STREM: a robust multidimensional parametric method to segment MS lesions in MRI. Med Image Comput Comput Assist Interv. 2005; 8(Pt 1):409-416. doi: 10.1007/11566465_51. PMID: 16685872.
- Raff U., Newman F.D. Automated lesion detection and lesion quantitation in MR images using autoassociative memory. Med Phys. 1992;19(1):71-77. doi: 10.1118/1.596853. PMID: 1620061.
- Raff U., Newman F.D. Lesion detection in radiologic images using an autoassociative paradigm: preliminary results. Med Phys. 1990; 17(5):926-928. doi: 10.1118/1.596449. PMID: 2233581.
- Chase H.S., Mitrani L.R., Lu G.G., Fulgieri D.J. Early recognition of multiple sclerosis using natural language processing of the electronic health record. BMC Med Inform Decis Mak. 2017;17(1):24. doi: 10.1186/s12911-017-0418-4.
- Nelson R.E., Butler J., LaFleur J. et al. Determining multiple sclerosis phenotype from electronic medical records. J Manag Care Spec Pharm. 2016;22(12):1377-1382. doi: 10.18553/jmcp.2016.22.12.1377. PMID: 27882837.
- Davis M.F., Sriram S., Bush W.S. et al. Automated extraction of clinical traits of multiple sclerosis in electronic medical records. J Am Med Inform Assoc. 2013;20(e2):e334-e340. doi: 10.1136/amiajnl-2013-001999. PMID: 24148554.
- Wottschel V., Alexander D.C., Kwok P.P. et al. Predicting outcome in clinically isolated syndrome using machine learning. Neuroimage Clin. 2014;7:281-287. doi: 10.1016/j.nicl.2014.11.021. PMID: 25610791.
- Zhao Y., Healy B.C., Rotstein D. et al. Exploration of machine learning techniques in predicting multiple sclerosis disease course. PLoS One. 2017;12(4):e0174866. doi: 10.1371/journal.pone.0174866. PMID: 28379999.
- Wu F.Y., Slater J.D., Honig L.S. et al. A neural network design for event-related potential diagnosis. Comput Biol Med. 1993;23(3):251-264. doi: 10.1016/0010-4825(93)90024-u. PMID: 8334865.
- Ahmadi A., Davoudi S., Daliri M.R. Computer Aided Diagnosis System for multiple sclerosis disease based on phase to amplitude coupling in covert visual attention. Comput Methods Programs Biomed. 2019;169:9-18. DOI: 10.1016/j. cmpb.2018.11.006. PMID: 30638593.
- Kiiski H., Jollans L., Donnchadha S.O. et al. Machine learning EEG to predict cognitive functioning and processing speed over a 2-year period in multiple sclerosis patients and controls. Brain Topogr. 2018;31(3):346-363. doi: 10.1007/s10548-018-0620-4. PMID: 29380079.
- Liberati A., Altman D.G., Tetzlaff J. et al. The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate health care interventions: explanation and elaboration. J Clin Epidemiol. 2009;62(10):e1- e34. doi: 10.1016/j.jclinepi.2009.06.006. PMID: 19631507.
- Wang S.H., Tang C., Sun J. et al. Multiple sclerosis identification by 14-layer convolutional neural network with batch normalization, dropout, and stochastic pooling. Front Neurosci. 2018;12:818. doi: 10.3389/fnins.2018.00818. PMID: 30467462.
- Zurita M., Montalba C., Labbe T. et al. Characterization of relapsing-remitting multiple sclerosis patients using support vector machine classifications of functional and diffusion MRI data. Neuroimage Clin. 2018;20:724-730. doi: 10.1016/j.nicl.2018.09.002. PMID: 30238916.
- Yoo Y., Tang L.Y.W., Brosch T. et al. Deep learning of joint myelin and T1w MRI features in normal-appearing brain tissue to distinguish between multiple sclerosis patients and healthy controls. Neuroimage Clin. 2017;17:169-178. doi: 10.1016/j.nicl.2017.10.015. PMID: 29071211.
- Nakamura K., Fisher E. Segmentation of brain magnetic resonance images for measurement of gray matter atrophy in multiple sclerosis patients. Neuroimage. 2009;44(3):769-776. doi: 10.1016/j.neuroimage.2008.09.059. PMID: 19007895.
- Hackmack K., Paul F., Weygandt M. et al. Alzheimer’s disease neuroimaging initiative. Multi-scale classification of disease using structural MRI and wavelet transform. Neuroimage. 2012;62(1):48-58. doi: 10.1016/j.neuroim- age.2012.05.022. PMID: 22609452.
- Wei W., Poirion E., Bodini B. et al. Predicting PET-derived demyelination from multimodal MRI using sketcher-refiner adversarial training for multiple sclerosis. Med Image Anal. 2019;58:101546. doi: 10.1016/j.media.2019.101546. PMID: 31499318.
- Theocharakis P., Glotsos D., Kalatzis I. et al. Pattern recognition system for the discrimination of multiple sclerosis from cerebral microangiopathy lesions based on texture analysis of magnetic resonance images. Magn Reson Imaging. 2009;27(3):417-422. doi: 10.1016/j.mri.2008.07.014. PMID: 18786795.
- Crimi A., Commowick O., Maarouf A. et al. Predictive value of imaging markers at multiple sclerosis disease onset based on gadolinium- and USPIO-enhanced MRI and machine learning. PLoS One. 2014;9(4):e93024. DOI: 10.1371/ journal.pone.0093024. PMID: 24691080.
- Aslani S., Dayan M., Storelli L. et al. Multi-branch convolutional neural network for multiple sclerosis lesion segmentation. Neuroimage. 2019;196:1-15. doi: 10.1016/j.neuroimage.2019.03.068. PMID: 30953833.
- McKinley R., Wepfer R., Grunder L. et al. Automatic detection of lesion load change in Multiple Sclerosis using convolutional neural networks with segmentation confidence. Neuroimage Clin. 2020;25:102104. DOI: 10.1016/j. nicl.2019.102104. PMID: 31927500.
- Jain S., Ribbens A., Sima D.M. et al. D. Two time point MS lesion segmentation in brain MRI: an expectation-maximization framework. Front Neurosci. 2016;10:576. doi: 10.3389/fnins.2016.00576. PMID: 28066162.
- Cabezas M., Oliver A., Valverde S. et al. BOOST: a supervised approach for multiple sclerosis lesion segmentation. J Neurosci Methods. 2014;237:108-117. doi: 10.1016/j.jneumeth.2014.08.024. PMID: 25194638.
- Gabr R.E., Coronado I., Robinson M. et al. Brain and lesion segmentation in multiple sclerosis using fully convolutional neural networks: A large-scale study. Mult Scler. 2020;26(10): 1217-1226. doi: 10.1177/1352458519856843. PMID: 31190607.
- Brosch T., Tang L.Y., Youngjin Yoo et al. Deep 3D convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation. IEEE Trans Med Imaging. 2016;35(5):1229-1239. doi: 10.1109/TMI.2016.2528821. PMID: 26886978.
- Valverde S., Cabezas M., Roura E. et al. Improving automated multiple sclerosis lesion segmentation with a cascaded 3D convolutional neural network approach. Neuroimage. 2017;155:159-168. doi: 10.1016/j.neuroimage.2017.04.034. PMID: 28435096.
- Bossuyt P.M., Reitsma J.B., Bruns D.E. et al. STARD 2015: An Updated List of Essential Items for Reporting Diagnostic Accuracy Studies. Radiology. 2015;277(3):826-832. doi: 10.1148/radiol.2015151516. PMID: 26509226.
- Yamamoto D., Arimura H., Kakeda S. et al. Computer-aided detection of multiple sclerosis lesions in brain magnetic resonance images: false positive reduction scheme consisted of rule-based, level set method, and support vector machine. Comput Med Imaging Graph. 2010;34(5):404-413. DOI: 10.1016/j. compmedimag.2010.02.001. PMID: 20189353.
- Goldberg-Zimring D., Achiron A., Miron S. et al. Automated detection and characterization of multiple sclerosis lesions in brain MR images. Magn Reson Imaging. 1998;16(3):311-318. doi: 10.1016/s0730-725x(97)00300-7. PMID: 9621972.
- Bendfeldt K., Kloppel S., Nichols T.E. et al. Multivariate pattern classification of gray matter pathology in multiple sclerosis. Neuroimage. 2012;60(1):400- 408. doi: 10.1016/j.neuroimage.2011.12.070. PMID: 22245259.
- Salem M., Cabezas M., Valverde S. et al. A supervised framework with intensity subtraction and deformation field features for the detection of new T2-w lesions in multiple sclerosis. Neuroimage Clin. 2017;17:607-615. DOI: 10.1016/j. nicl.2017.11.015. PMID: 29234597.
- Boudraa A.O., Dehak S.M., Zhu Y.M. et al. Automated segmentation of multiple sclerosis lesions in multispectral MR imaging using fuzzy clustering. Comput Biol Med. 2000;30(1):23-40. doi: 10.1016/s0010-4825(99)00019-0. PMID: 10695813.
- Geremia E., Menze B.H., Clatz O. et al. Spatial decision forests for MS lesion segmentation in multi-channel MR images. Med Image Comput Comput Assist Interv. 2010;13(Pt 1):111-118. doi: 10.1007/978-3-642-15705-9_14. PMID: 20879221.
- Shiee N., Bazin P.L., Ozturk A. et al. A topology-preserving approach to the segmentation of brain images with multiple sclerosis lesions. Neuroimage. 2010;49(2):1524-1535. doi: 10.1016/j.neuroimage.2009.09.005. PMID: 19766196.
- Garcia-Lorenzo D., Lecoeur J., Arnold D.L. et al. Multiple sclerosis lesion segmentation using an automatic multimodal graph cuts. Med Image Comput Comput Assist Interv. 2009;12(Pt 2):584-591. doi: 10.1007/978-3-642-04271- 3_71. PMID: 20426159.
- Salem M., Cabezas M., Valverde S. et al. A supervised framework with intensity subtraction and deformation field features for the detection of new T2-w lesions in multiple sclerosis. Neuroimage Clin. 2017;17:607-615. DOI: 10.1016/j. nicl.2017.11.015. PMID: 29234597.
- Khayati R., Vafadust M., Towhidkhah F. et al. A novel method for automatic determination of different stages of multiple sclerosis lesions in brain MR FLAIR images. Comput Med Imaging Graph. 2008;32(2):124-133. PMID: 18055174.
- Weiss N., Rueckert D., Rao A. Multiple sclerosis lesion segmentation using dictionary learning and sparse coding. Med Image Comput Comput Assist Interv. 2013;16(Pt 1):735-742. doi: 10.1007/978-3-642-40811-3_92. PMID: 24505733.
- Gao J., Li C., Feng C. et al. Non-locally regularized segmentation of multiple sclerosis lesion from multi-channel MRI data. Magn Reson Imaging. 2014;32(8):1058-1066. doi: 10.1016/j.mri.2014.03.006. PMID: 24948583.
- Bijar A., Khayati R., Penalver Benavent A. Increasing the contrast of the brain MR FLAIR images using fuzzy membership functions and structural similarity indices in order to segment MS lesions. PLoS One. 2013;8(6):e65469. doi: 10.1371/journal.pone.0065469. PMID: 23799015.
- Cerasa A., Bilotta E., Augimeri A. et al. A Cellular Neural Network methodology for the automated segmentation of multiple sclerosis lesions. J Neurosci Methods. 2012;203(1):193-199. doi: 10.1016/j.jneumeth.2011.08.047. PMID: 21920384.
- Aymerich F.X., Sobrevilla P., Montseny E. et al. Fuzzy approach toward reducing false positives in the detection of small multiple sclerosis lesions in magnetic resonance images. Conf Proc IEEE Eng Med Biol Soc. 2011;2011:5694- 5697. doi: 10.1109/IEMBS.2011.6091378. PMID: 22255632.
- Kuwazuru J., Arimura H., Kakeda S. et al. Automated detection of multiple sclerosis candidate regions in MR images: false-positive removal with use of an ANN-controlled level-set method. Radiol Phys Technol. 2012;5(1):105-113. doi: 10.1007/s12194-011-0141-2. PMID: 22139608.
- Kanber B., Nachev P., Barkhof F. et al. High-dimensional detection of imaging response to treatment in multiple sclerosis. NPJ Digit Med. 2019;2:49. doi: 10.1038/s41746-019-0127-8. PMID: 31304395.
- Freire P.GL, Ferrari R.J. Multiple sclerosis lesion enhancement and white matter region estimation using hyperintensities in FLAIR images. arXiv. 2018:1807.09619.
- Feng Y., Pan H., Meyer C. et al. A self-adaptive network for multiple sclerosis lesion segmentation from multi-contrast MRI with various imaging protocols. arXiv. 2018:1811.07491.
- Kazancli E., Prchkovska V., Rodrigues P. et al. Multiple sclerosis lesion segmentation using improved convolutional neural networks. In: Proceedings of the 13th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VISIGRAPP 2018). 2018; 4; VISAPP: 260269. doi: 10.5220/0006540902600269.
- Roy S., Butman J.A., Reich D.S. et al. Multiple sclerosis lesion segmentation from brain MRI via fully convolutional neural networks. arXiv. 2018:1803.09172v1.
- Sacca V, Sarica A., Novellino F. et al. Evaluation of machine learning algorithms performance for the prediction of early multiple sclerosis from resting-state FMRI connectivity data. Brain Imaging Behav. 2019;13(4):1103-1114. doi: 10.1007/s11682-018-9926-9. PMID: 29992392.
- Zhang H., Zhang J., Zhang Q. et al. RSANet: Recurrent Slice-wise Attention Network for multiple sclerosis lesion segmentation. arXiv; 2020:2002.12470v1.
- Gheshlaghi S.H., Ranjbar A., Suratgar A.A. et al. A superpixel segmentation based technique for multiple sclerosis lesion detection. arXiv; 2020:1907.03109v1.