Сегодня 22 января, 2021

Edit

последние
новости

Вычислительная модель декодирует речь, предсказывая ее

Поделиться в facebook
Поделиться в twitter
Поделиться в vk
Поделиться в odnoklassniki
Поделиться в telegram
Поделиться в whatsapp

“Активность мозга вызывает нейронные колебания, которые можно измерить с помощью электроэнцефалографии”, – начинает Анн-Лиз Жиро, профессор кафедры базовых нейронаук медицинского факультета UNIGE и со-директор NCCR Evolving Language. -“Это электромагнитные волны, которые возникают в результате когерентной электрической активности целых сетей нейронов. Существует несколько типов, определяемых по частоте. Их называют альфа, бета, тета, дельта или гамма-волны. Взятые индивидуально или наложенные, эти ритмы связаны с различными когнитивными функциями, такими как восприятие, память, внимание, бдительность и т. д”.

Тем не менее, нейробиологи еще не знают, вносят ли они активный вклад в эти функции и как. В более раннем исследовании, опубликованном в 2015 году, команда профессора Жиро показала, что тэта-волны (низкая частота) и гамма-волны (высокая частота) координируют последовательность звуковых потоков в слогах и анализируют их содержание, чтобы их можно было распознать.

На основе этих физиологических ритмов ученые из Женевы разработали компьютерную модель всплеска нейронной сети, чья производительность в секвенировании живых (онлайн) слогов была лучше, чем у традиционных систем автоматического распознавания речи.

Ритм слогов

В их первой модели тета-волны (от 4 до 8 герц) позволяли следовать ритму слогов в том виде, в каком они воспринимались системой. Гамма-волны (около 30 герц) были использованы для сегментирования слухового сигнала на более мелкие срезы и кодирования их. Это создает “фонематический” профиль, связанный с каждой звуковой последовательностью, который можно сравнить апостериорно с библиотекой известных слогов. Одним из преимуществ модели такого типа является то, что она самопроизвольно адаптируется к скорости речи, которая может варьироваться от одного человека к другому.

Прогнозирующее кодирование

В этой новой статье, чтобы оставаться ближе к биологической реальности, профессор Жиро и ее команда разработали новую модель, в которой они включают элементы из другой теоретической структуры, независимой от нейронных колебаний: “прогнозирующее кодирование”. “Эта теория гласит, что мозг функционирует так оптимально, потому что он постоянно пытается предвидеть и объяснять, что происходит в окружающей среде, используя изученные модели того, как внешние события генерируют сенсорные сигналы. В случае разговорной речи он пытается найти наиболее вероятные причины звуков, воспринимаемых ухом как речь, которые разворачиваются на основе набора ментальных представлений, изученных мозгом и постоянно им обновляющихся”, – говорит доктор Ицасо Оласагасти, специалист по вычислительной нейробиологии в команде Жиро, который руководит новой моделью реализации.

“Мы разработали компьютерную модель, которая имитирует это прогнозирующее кодирование”, – объясняет Севада Овсепян, исследователь в отделе базовых нейронаук и первый автор статьи. – “И мы реализовали её, включив колебательные механизмы”.

Проверено на 2888 слогов

Звук, поступающий в систему, сначала модулируется тэта (медленной) волной, которая напоминает то, что производят популяции нейронов. Это позволяет воссоздать сигнал из контуров слогов. Затем цепочки (быстрых) гамма-волн помогают кодировать слог, опираясь на то, как и когда он воспринимается. Во время процесса система предлагает возможные слоги и корректирует выбор при необходимости. Пройдя назад и вперед между двумя уровнями несколько раз, она обнаруживает правильный слог. Система впоследствии обнуляется в конце каждого воспринимаемого слога.

Модель была успешно протестирована с использованием 2888 различных слогов, содержащихся в 220 предложениях, на которых говорят на естественном языке на английском языке. “С одной стороны, нам удалось объединить две совершенно разные теоретические основы в одну компьютерную модель”, – объясняет профессор Жиро. – “С другой стороны, мы показали, что нейронные колебания, скорее всего, ритмично выравнивают эндогенное функционирование мозга с сигналами, поступающими извне через органы чувств. Если мы вернем это назад в теорию предсказательного кодирования, это означает, что эти колебания, вероятно, позволяют мозгу сделать правильную гипотезу в нужный момент”.

При цитировании информации активная гиперссылка на evo-rus.com обязательна.

другие новости

В Красноярском крае построят полигон для испытания ракет «Сармат»

В Китае говорят о неспособности США противостоять российским ракетам «Сармат»

На страницах китайского издания Sina появился материал, в котором описываются способности российского стратегического ракетного комплекса шахтного базирования РС-28 «Сармат». Об...