Специалисты из Стэнфордского университета разработали систему компьютерного зрения, которая позволяет роботам понимать назначение предметов. Алгоритм распознаёт функциональные части объектов и их практическое применение, сообщает пресс-служба университета.
Модель анализирует каждый пиксель изображения, определяя функциональное сходство между разными объектами. Например, система понимает, что носик чайника и горлышко бутылки служат для наливания жидкости.
«Наша модель может посмотреть на изображения стеклянной бутылки и чайника, распознать носик у каждого, но также понимает, что носик используется для наливания», — объясняет Стефан Стоянов, постдокторант Стэнфорда и один из авторов работы. «Мы хотим создать систему зрения, которая поддержит такого рода обобщение — по аналогии переносить навык от одного объекта к другому для достижения той же функции».
Для обучения использовали метод «слабого надзора» с привлечением языковых моделей. Это позволило избежать ручной разметки тысяч изображений и ускорить процесс обучения.
Технология решает одну из сложнейших задач компьютерного зрения — определение функционального соответствия между объектами. Ранее системы могли лишь приблизительно определять ключевые точки на предметах. Практическое применение включает домашних роботов-помощников, которые смогут выбирать инструменты по назначению без дополнительного обучения.
Технологии компьютерного зрения продолжают стремительно развиваться как в России, так и в мире. Как сообщал «Жуковский.Life», отечественный рынок этой отрасли к 2030 году удвоится и достигнет 50 миллиардов рублей, причём 35% спроса будет обеспечивать государственный сектор. В 2025 году объём рынка составит 25,76 млрд рублей. Крупнейшие сегменты — системы видеоаналитики (4,83 млрд), распознавание документов (3,7 млрд) и проекты «Безопасный город» (3,5 млрд).
