EchoSpeech — ШІ-окуляри для читання по губах

Окуляри з ехолокатором EchoSpeech за допомогою ШІ розпізнають слова користувача з 95% точності. Про це пише видання speka.media.

Інженери з Корнельського університету розробили окуляри, здатні розпізнавати мову за рухами губ користувача, повідомляє ACM Digital Library.

Технологія дозволяє за допомогою ШІ відстежувати невеликі рухи губ та м’язів обличчя під час шепоту. У нижній частині окулярів розташована пара звукових динаміків. Вони випромінюють безперервні частотно-модульовані ультразвукові сигнали. Потім сигнали потрапляють на встановлену з протилежного боку окулярів пару мікрофонів.

ШІ-окуляри EchoSpeech дозволяють читати, що хоче сказати користувач, по губах

Системи розпізнавання мовлення з урахуванням міміки людини мають великий потенціал практичного застосування. Їх можна використовувати не лише людям з порушеннями мови, але й в ситуаціях, коли людину просто не чутно через сильний навколишній шум (у цеху заводу, наприклад), або у місцях, де не дозволяється голосно розмовляти (у бібліотеці має бути тихо).

Розробники протестували пристрій на декількох реальних сценаріях. Наприклад, вони використовували прототип EchoSpeech як додатковий пристрій введення при взаємодії з програмами на смартфоні та планшеті, а також для керування музичним плеєром — запускали та перемикали треки, змінюючи рівень гучності за допомогою шепоту.

Рівень помилок при розпізнаванні окремих слів становив, у середньому, близько 4,5% у командах та 6,1% — у безперервних послідовностях із 3-6 цифр. Ці показники можна порівняти з тим, наскільки часто люди можуть не розчути один одного під час спілкування. Крім дротової версії пристрою, яку для зручності використовували у більшості тестів, також створили бездротову, яка передає дані на смартфон через Bluetooth.