Специалисты Санкт-Петербургского федерального исследовательского центра РАН создали компьютерную программу с видеокамерой, способную распознавать речь по движению губ.
В основе разработки лежат технологии искусственного интеллекта. При этом создатели подчеркивают, что это первая нейросеть, которая понимает именно русский язык. Программа создана для цифровых ассистентов с голосовым управлением, которые могут работать в условиях шума. К примеру, как заявили в Минобрнауки, новинка может быть полезной для пилотов.
Старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько рассказал, что для повышения точности распознавания программа совмещает и анализирует информацию из двух источников. По результатам экспериментов, такая гибридная система намного эффективнее распознает команды человека в сложных и шумных условиях.
Система создавалась с использованием метода машинного обучения, проводимого по видеозаписям со звуком. Программа «заучила» несколько сотен самых распространенных команд. Затем был проведен эксперимент, в котором приняли участие водители большегрузных автомобилей. В результате нейросеть распознала 60 - 80% визуальных сигналов и 90% - звуковых.
Фото: Pixabay.com