Учёные из Амстердамского университета почти в 60 раз ускорили обучение рекомендательных систем с помощью российского датасета Yambda. Набор данных с почти 5 миллиардами обезличенных событий «Яндекс Музыки» компания выложила в открытый доступ в 2025 году, сообщила пресс-служба Яндекса.
Исследователи улучшили модель Seater, которая организует товары и контент в иерархический каталог. Раньше подготовка такого каталога занимала до 20% времени обучения. Учёные предложили два новых метода подготовки данных. Быстрый метод сократил время с 82 минут до 83 секунд, сохранив качество рекомендаций. Комбинированный подход ускорил процесс в 15 раз и даже повысил точность рекомендаций.
«Эксперимент подтвердил лидерство Seater по сравнению с популярными системами SASRec, BERT4Rec и GRU4Rec на 13–17%», — говорится в сообщении пресс-службы.
Код улучшенной модели Seater выложили в открытый доступ. Авторы эксперимента подчеркнули, что Yambda позволил доказать практическую применимость генеративных рекомендательных систем на больших каталогах. Yambda остаётся одним из крупнейших публичных наборов данных в мире.
Способность искусственного интеллекта работать с визуальными и временными понятиями остаётся серьёзным вызовом для разработчиков. Интернет-газета «ЖУК» писала, как исследователь из Goodeye Labs Рэнди Олсон протестировал 22 модели ИИ от GPT-3.5 до новейших релизов 2026 года на умение рисовать работающие аналоговые часы с тремя стрелками в одном HTML-файле. Нейросети нужно было понять принцип аналоговых часов, правильно нанести метки циферблата, рассчитать углы трёх стрелок относительно текущего времени и запустить анимацию.
