ИИ-кольцо переводит язык жестов в текст в реальном времени
Ученые под руководством Корнельского университета разработали устройство SpellRing — кольцо на основе искусственного интеллекта, оснащенное микросонарной технологией, которая может непрерывно и в режиме реального времени отслеживать движение пальцев у человека, объясняющего на жестовом языке. Машинное обучение позволило ИИ-кольцу распознавать все 26 букв американского жестового языка.

Движение пальцев с кольцом. arxiv.org/abs/2502.10830
В своем нынешнем виде SpellRing уже можно использовать для ввода текста в компьютеры или смартфоны с помощью жестового языка. Но побуквенный ввод в ASL используется далеко не всегда. Есть жесты, которые передают целые слова и даже фразы, в создании такого рода речи используются не только пальцы, но и движение верхней части тела, особенно важна мимика. Но ученые не собираются останавливаться достигнутом.
Ученые под руководством Корнельского университета разработали устройство SpellRing — кольцо на основе искусственного интеллекта, оснащенное микросонарной технологией, которая может непрерывно и в режиме реального времени отслеживать движение пальцев у человека, объясняющего на жестовом языке. Машинное обучение позволило ИИ-кольцу распознавать все 26 букв американского жестового языка. Работа размещена на сайте препринтов arXiv.

Схема распознавания жестового алфавита с помощью микросонара.
arxiv.org/abs/2502.10830
«Многие другие технологии, распознающие язык ASL, не были приняты сообществом глухих и слабослышащих, потому что оборудование громоздкое и непрактичное», — говорит соавтор работы Хёнчул Лим. — «Мы стремились разработать одно кольцо, чтобы фиксировать все тонкие и сложные движения пальцев на ASL»
Разработанное Лимом и его коллегами устройство SpellRing надевается на большой палец. Оно оснащен микрофоном и динамиком, которые работают как сонар. Динамик посылает неслышимые звуковые волны, которые отражаются от руки и пальцев говорящего, а микрофон ловит отраженные волны. В кольцо встроен гироскоп, который отслеживает движение руки.
Затем алгоритм глубокого обучения обрабатывает изображения, полученные сонаром, и предсказывает буквы, произнесенные на языке жестов, в режиме реального времени.
Разработчики оценили SpellRing с 20 опытными и начинающими пользователями языка жестов. Испытуемые общались между собой и воспроизвели с помощью пальцев в общей сложности более 20 000 слов различной длины. Точность SpellRing составляла от 82% до 92% в зависимости от сложности слов.

Движение пальцев с кольцом.https://arxiv.org/abs/2502.10830
Обучение системы искусственного интеллекта распознаванию 26 форм рук, связанных с каждой буквой алфавита, — это достаточно сложный процесс, особенно с учетом того, что люди, говорящие на языке жестов, естественным образом изменяют формы букв для скорости и плавности плавности речи. Как отмечают ученые на глаз для человека не говорящего на ASL жесты могут отличаться очень сильно, хотя и означают одно и тоже. ИИ с этой задачей справляется вполне удовлетворительно.
«Я хотела убедиться, что мы приняли все возможные меры, чтобы поступить правильно по отношению к сообществу ASL», — говорит соавтор работы Джейн Лу, — «Пальцевая азбука, хотя и сложная для отслеживания с технической точки зрения, включает в себя лишь часть ASL. Нам еще предстоит пройти долгий путь в разработке устройств для полного распознавания ASL, но эта работа — шаг в правильном направлении».
Следующая версия устройства будет использовать очки с микросонаром для захвата движений верхней части тела и мимики для более полной системы перевода ASL в текст.
«Глухие и слабослышащие люди используют для ASL не только свои руки. Они используют выражения лица, движения верхней части тела и жесты головы», — говорит Лим. — «ASL — очень сложный, комплексный, визуальный язык».

Движение пальцев с кольцом. arxiv.org/abs/2502.10830
В своем нынешнем виде SpellRing уже можно использовать для ввода текста в компьютеры или смартфоны с помощью жестового языка. Но побуквенный ввод в ASL используется далеко не всегда. Есть жесты, которые передают целые слова и даже фразы, в создании такого рода речи используются не только пальцы, но и движение верхней части тела, особенно важна мимика. Но ученые не собираются останавливаться достигнутом.
Ученые под руководством Корнельского университета разработали устройство SpellRing — кольцо на основе искусственного интеллекта, оснащенное микросонарной технологией, которая может непрерывно и в режиме реального времени отслеживать движение пальцев у человека, объясняющего на жестовом языке. Машинное обучение позволило ИИ-кольцу распознавать все 26 букв американского жестового языка. Работа размещена на сайте препринтов arXiv.

Схема распознавания жестового алфавита с помощью микросонара.
arxiv.org/abs/2502.10830
«Многие другие технологии, распознающие язык ASL, не были приняты сообществом глухих и слабослышащих, потому что оборудование громоздкое и непрактичное», — говорит соавтор работы Хёнчул Лим. — «Мы стремились разработать одно кольцо, чтобы фиксировать все тонкие и сложные движения пальцев на ASL»
Разработанное Лимом и его коллегами устройство SpellRing надевается на большой палец. Оно оснащен микрофоном и динамиком, которые работают как сонар. Динамик посылает неслышимые звуковые волны, которые отражаются от руки и пальцев говорящего, а микрофон ловит отраженные волны. В кольцо встроен гироскоп, который отслеживает движение руки.
Затем алгоритм глубокого обучения обрабатывает изображения, полученные сонаром, и предсказывает буквы, произнесенные на языке жестов, в режиме реального времени.
Разработчики оценили SpellRing с 20 опытными и начинающими пользователями языка жестов. Испытуемые общались между собой и воспроизвели с помощью пальцев в общей сложности более 20 000 слов различной длины. Точность SpellRing составляла от 82% до 92% в зависимости от сложности слов.
26 букв жестового языка

Движение пальцев с кольцом.https://arxiv.org/abs/2502.10830
Обучение системы искусственного интеллекта распознаванию 26 форм рук, связанных с каждой буквой алфавита, — это достаточно сложный процесс, особенно с учетом того, что люди, говорящие на языке жестов, естественным образом изменяют формы букв для скорости и плавности плавности речи. Как отмечают ученые на глаз для человека не говорящего на ASL жесты могут отличаться очень сильно, хотя и означают одно и тоже. ИИ с этой задачей справляется вполне удовлетворительно.
«Я хотела убедиться, что мы приняли все возможные меры, чтобы поступить правильно по отношению к сообществу ASL», — говорит соавтор работы Джейн Лу, — «Пальцевая азбука, хотя и сложная для отслеживания с технической точки зрения, включает в себя лишь часть ASL. Нам еще предстоит пройти долгий путь в разработке устройств для полного распознавания ASL, но эта работа — шаг в правильном направлении».
Следующая версия устройства будет использовать очки с микросонаром для захвата движений верхней части тела и мимики для более полной системы перевода ASL в текст.
«Глухие и слабослышащие люди используют для ASL не только свои руки. Они используют выражения лица, движения верхней части тела и жесты головы», — говорит Лим. — «ASL — очень сложный, комплексный, визуальный язык».
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.