Ученые Университета Карнеги-Меллон предложили научить модель строить по картинке 3D-изображения и отталкиваться от них, для построения трудных для интерпретации объектов, таких как человеческие руки.
Процесс сканирования и распознавания рук с помощью Hamba прошел успешно. Голубым выделены руки, воспроизведенные моделью Hamba. Carnegie Mellon University's Robotics Institute
Для того чтобы научиться рисовать пять пальцев, одного только обучения на плоских картинках недостаточно. ИИ нужно научиться сначала представлять объекты в трехмерном пространстве.
Создание систем искусственного интеллекта, надежно воспринимающих человека, остается одной из самых сложных задач в области компьютерного зрения. Среди наиболее сложных проблем — реконструкция 3D-моделей человеческих рук, задача, имеющая широкое применение в робототехнике, анимации, человеко-компьютерном взаимодействии, дополненной и виртуальной реальности.
Сложность заключается в природе самих рук, которые часто не видны при удержании предметов или деформируются в сложных ориентациях при выполнении таких задач, как захват.
Визуальное сравнение различных потоков сканирования руки. Левая и центральная картинки — традиционное распознавание. Работа Hamba на правой картинке.Carnegie Mellon University's Robotics InstituteВ Институте робототехники Университета Карнеги-Меллон разработали новую модель — Hamba. Она предлагает новый подход к реконструкции 3D-руки по одному изображению, не требуя предварительных знаний о характеристиках камеры или контексте тела человека.
Что может Hamba
Отличительной чертой Hamba является отход от традиционных архитектур на основе ставших уже традиционными трансформеров. Вместо этого модель использует моделирование пространства состояний (Mamba). Новая модель использует графовые нейронных сетей (Graph Neural Networks) для захвата пространственных отношений между суставами рук.
Hamba достигает значительных результатов в различных сценариях, включая взаимодействие с предметами или руками, различные оттенки кожи, различные углы, сложные картины и яркие анимации. Carnegie Mellon University's Robotics Institute
Hamba важна для взаимодействия человека и компьютера. Позволяя машинам лучше воспринимать и интерпретировать человеческие руки, модель закладывает основу для будущих систем искусственного интеллекта (AGI) и роботов, способных понимать человеческие эмоции и намерения с большей тонкостью.
Визуальные результаты использования Hamba для реконструкции всего тела человека.Carnegie Mellon University's Robotics Institute
В будущем исследовательская группа планирует развить и уточнить построение трехмерных моделей человека по отдельным изображениям. Это важная задача, имеющая широкое применение в различных отраслях, от здравоохранения до индустрии развлечений. Hamba является примером того, как искусственный интеллект продолжает расширять границы восприятия человека машинами и есть надежда, что скоро ИИ-модели перестанут ошибаться в количестве пальцев.