Здоровье и медицинаТехнологии

Новый интерфейс "мозг-компьютер" на основе ИИ почти мгновенно преобразует мысли в речь

Новый интерфейс мозг-компьютер, работающий на основе искусственного интеллекта, практически мгновенно переводит мысли в звуковую речь. В отличие от предыдущих технологий, алгоритм декодирует фразы в течение миллисекунд по мере их мысленного формирования, значительно сокращая задержку, которая мешала достичь естественного разговорного темпа. Эта технология, которая уже принесла пользу парализованному пациенту, участвовавшему в испытаниях, приближается к тому моменту, когда она сможет реально изменить повседневную жизнь людей, лишенных речи.

Интерфейсы мозг-компьютер (BCI) исследуются уже более двух десятилетий с целью повышения независимости и качества жизни парализованных людей. За последние годы был достигнут значительный прогресс. В настоящее время BCI позволяют некоторым парализованным пациентам самостоятельно выполнять ряд повседневных задач, таких как использование электронных устройств (компьютеров, смартфонов и т.д.) или манипулирование бытовыми предметами.

Однако, несмотря на прогресс в области преобразования мыслей в речь, существующие системы пока не способны обеспечить плавный диалог. Кристиан Херфф, нейробиолог из Маастрихтского университета (Нидерланды), сравнивает такие коммуникации с перепиской в мессенджере: «Я пишу предложение, вы отвечаете, но вам нужно время на формулировку… Это не похоже на нормальный разговор».

Другими словами, существует задержка между моментом, когда мысль сформулирована, и моментом, когда она воплощается в слова. Последние исследования показывают, что интеграция искусственного интеллекта может сделать это взаимодействие более естественным, передавая намерения пациентов более плавно. В связи с этим команда Калифорнийского университета в Беркли (UC Berkeley) разработала новый интерфейс BCI, способный переводить сигналы мозга в слышимую речь практически в режиме реального времени.

«Наш потоковый подход дает нейропротезам такую же возможность быстрого декодирования речи, как у таких устройств, как Alexa и Siri», — говорит Гопала Ануманчипалли, Роберт Э. и Беверли А. Брукс, доцент кафедры электротехники и вычислительной техники Калифорнийского университета в Беркли и один из авторов исследования, опубликованного в журнале Nature Neuroscience, в пресс-релизе. «Используя аналогичный алгоритм, мы обнаружили, что можем декодировать нейронные данные и впервые обеспечить практически синхронную передачу речи. В результате синтез речи стал более естественным и плавным». Термин «потоковая передача» здесь означает непрерывное, беспрерывное считывание данных, позволяющее транслировать их немедленно.

Модель, созданная для имитации реального голоса пациента

Устройство BCI, разработанное командой Ануманчипалли, работает путем выборки нейронных данных из моторной коры - области мозга, отвечающей за координацию артикуляционных движений. Затем оно использует алгоритм искусственного интеллекта для декодирования этих сигналов и преобразования их в звуковые высказывания. Другими словами, сигналы интерпретируются уже после того, как пациент внутренне сформулировал, что он хочет сказать, выбрал слова и решил, как артикулировать звуки. «По сути, мы перехватываем сигналы там, где мысль преобразуется в артикуляцию, в самом центре моторного контроля», — объясняет Чол Чжун Чо, соавтор исследования и докторант факультета электротехники и информатики Калифорнийского университета в Беркли.

Устройство было имплантировано парализованной пациентке по имени Энн, которая потеряла способность говорить после инсульта в стволе мозга в 2005 году. Устройство представляет собой прямоугольный имплантат, помещаемый непосредственно на поверхность коры головного мозга и оснащенный 253 электродами, способными одновременно регистрировать активность тысяч нейронов.

Чтобы собрать данные, необходимые для обучения алгоритма, исследователи попросили Энн прочитать предложения, отображаемые на экране — например, «Привет, как дела? - а затем мысленно представить их произношение. Этот метод позволил им установить соответствие между нейронными сигналами и целевым предложением, причем Энн не нужно было произносить никаких звуков.

Кроме того, поскольку у Энн не было остаточной вокализации, у исследователей не было последних аудиозаписей, с помощью которых можно было бы соотнести сигналы мозга с голосом. Поэтому они обошли эту трудность, создав модель преобразования текста в речь, предварительно обученную на голосе Энн до аварии, чтобы воспроизводить звуки, близкие к ее оригинальному голосу.

Ритм, близкий к обычному разговорному

В ходе испытаний Энн смогла произнести 100 предложений, состоящих из 1024 слов и 50 отдельных выражений. Устройство улавливало сигналы мозга каждые 80 миллисекунд, начиная за 500 миллисекунд до начала артикуляционной мысли. Таким образом, устройство могло выдавать от 47 до 90 слов в минуту, что приближается к скорости спонтанного разговора, которая обычно оценивается в 150-200 слов в минуту.

Эти результаты — явный прогресс по сравнению с предыдущей версией BCI, также протестированной Энн, которой требовалось в среднем восемь секунд для преобразования мысли в звуковое предложение. Тем не менее, возможности для совершенствования еще есть: согласно нескольким исследованиям, когда задержка превышает 50 миллисекунд, плавность обмена информацией начинает ухудшаться.

Однако исследователи считают, что эту задержку можно сократить, оптимизировав датчики и повысив точность обработки нейронных сигналов. «Мы с оптимизмом смотрим на то, что прогресс может быть достигнут на всех уровнях. Например, с инженерной стороны мы продолжим разработку алгоритма, чтобы понять, как генерировать речь эффективнее и быстрее», — говорит Чол Чжун Чо.

Кроме того, команда планирует интегрировать в создаваемый голос выразительные элементы, отражающие естественные характеристики, такие как тон, высота тона или интенсивность, характерные для каждой вокализации. «В настоящее время ведется работа по определению того, насколько эффективно мы можем декодировать эти паралингвистические характеристики, полученные из активности мозга», — объясняет Кайло Литтлджон, докторант факультета электротехники и информатики Калифорнийского университета в Беркли и соавтор исследования.

Читайте все последние новости здоровья и медицины на New-Science.ru
Читайте все последние новости технологии на New-Science.ru
Подпишитесь на нас: Вконтакте / Telegram / Дзен Новости
Back to top button