В Институте восточных манускриптов и музееведения СО РАН студентка Новосибирского государственного университета Анна Мурашкина создала систему, которая автоматически распознаёт и транслитерирует классические тибетские тексты. Эта разработка ориентирована на старопечатные документы, выполненные тибетским слоговым письмом, корни которого уходят в древнеиндийскую письменность брахми. Для работы Анна использовала изображения страниц тибетских рукописей XVIII-XX веков из архива Центра восточных рукописей и ксилографов. Об этом «Жуковский.Life» рассказали в пресс-службе университета.
Проект важен для сохранения уникальных сведений о культуре, философии, медицине и истории региона, представленных в старинных документах, которые подвержены разрушению со временем. В фонде Института монголоведения, буддологии и тибетологии хранится около 70 тысяч таких материалов, находящихся под угрозой утери. Оцифровка и автоматическая обработка — надёжный способ сохранить и систематизировать этот ценный архив.
Анна Мурашкина поставила цель создать модель машинного обучения, способную распознавать тибетские символы с высокой точностью, превосходящей существующие решения, включая Tesseract. Для этого она вручную разметила строки текста и разработала специальные методы оценки качества распознавания, учитывая особенности тибетской графики. В итоге была выбрана и дообучена сверточная нейросеть, вошедшая в полнофункциональный OCR-модуль с этапами предобработки, сегментации, распознавания и постобработки.
Автор подчеркнула, что проект помогает сохранить знания прошлого и сделать их доступными для исследователей и широкой публики. Разработку уже используют сотрудники института, ведутся переговоры о сотрудничестве с Буддистским центром цифровых технологий для расширения цифровизации архивов храмов и монастырей.
В будущем планируется создать открытые ресурсы, которые позволят каждому прикоснуться к этому уникальному культурному наследию.
На Среднем Урале нашли многоклеточные организмы возрастом более 563 млн лет. Эти формы характерны для родов Aspidella, Mawsonites и Hiemalora, хорошо известных среди эдиакарской биоты, которая ввиду отсутствия твёрдых скелетных структур сохраняется крайне плохо.