Ученым удалось разработать точные методы диагностики дисфазии — расстройство речевой и письменной речи, часто сопутствующее инсульту, болезни Паркинсона, церебральному параличу и другим неврологическим заболеваниям. Своевременная диагностика и лечение критически важны для эффективного управления этими заболеваниями и улучшения качества жизни пациентов.
Несмотря на многочисленные исследования, направленные на автоматическое выявление дисфазии с помощью машинного обучения, высокая вариативность речевых паттернов и влияние внешних факторов (например, фонового шума) приводят к значительной вероятности ложных срабатываний.
Как пишет журнал Nature, для решения этой проблемы ученые предложили модель DSR-Swinoid, основанная на архитектуре Swin-трансформера (ST). Вначале речевой сигнал преобразуется в мел-спектрограмму, визуально представляющую основные характеристики голосового сигнала.
Хотя ST эффективна для извлечения как локальных, так и глобальных признаков, она изначально ориентирована на глобальные особенности. Однако, дизартрическая речь характеризуется специфическими локальными пропусками и нерегулярностями в мел-спектрограмме, которые критически важны для точной диагностики.
В результате этих модификаций DSR-Swinoid демонстрирует существенное улучшение точности диагностики дисфазии. Экспериментальные результаты, полученные на трех общедоступных наборах данных, показывают, что DSR-Swinoid достигает точности 98,66%, превосходя существующие методы. Это подчеркивает эффективность предложенного подхода для решения проблемы ложноположительных результатов в автоматической диагностике дисфазии.
Отметим, что нарушения речи, вызванные дисфазией, имеют далеко идущие последствия. Они значительно затрудняют коммуникацию, что приводит к социальной изоляции, депрессии и ухудшению общего качества жизни.