Российские исследователи разработали и успешно применили методику культурной адаптации нейросетей для генерации изображений. Обученная по этому методу модель Kandinsky 3.1 стала точнее создавать визуальный контент, соответствующий запросам россиян, сообщает Naked Science со ссылкой на статью в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».
Проблема существующих моделей (таких как DALL-E или Midjourney) заключается в их сильной зависимости от англоязычного контента. Это часто приводит к некорректным или не соответствующим запросу результатам при генерации образов, связанных с русской культурой, литературой и историей.

Для решения этой проблемы учёные вручную собрали и обработали около 200 тысяч пар «текст-изображение». Они выделили 17 ключевых направлений, включая русский язык, литературу, традиции и национальную кухню. На основе этого уникального датасета они дообучили модель Kandinsky 3.1.
«Одно из основных преимуществ нашей модели над мировыми аналогами заключается в наличии данных о русской культуре. Благодаря этому модель демонстрирует лучшие результаты при решении практических задач, ориентированных на специфику нашей информационной среды», — пояснил Вячеслав Васильев, аспирант кафедры дискретной математики МФТИ.
Для проверки эффективности методики был проведён слепой опрос. Испытуемым предлагалось оценить изображения, сгенерированные разными нейросетями, включая Kandinsky 3.1, по описаниям вроде «Иванушка-дурачок летит на лошади» или «Крокодил Гена и Чебурашка». По итогам большинство участников отдали предпочтение результатам адаптированной российской модели.
Это не первая попытка локализовать генеративные модели под нужды российского пользователя. Работа учёных демонстрирует системный подход к проблеме культурного соответствия в технологиях искусственного интеллекта. В будущем коллектив планирует адаптировать подобные модели для генерации видео по текстовым описаниям.
Ранее «Яндекс Музыка» уже внедряла нейросетевые функции для персонализации контента — например, в июле 2025 года сервис адаптировал «Мою волну» под темп бега пользователя. Как сообщало «Жуковский.Life», запуск AI-сетов с плавным сведением треков продолжает стратегию компании по использованию искусственного интеллекта для улучшения музыкального опыта и удержания аудитории в экосистеме «Яндекса».