Исследователи Сбера разработали метод повышения точности автоматического распознавания русского языка AI-моделями
Исследование подробно описано в научной статье «GigaAM: Efficient Self-Supervised Learner for Speech Recognition» («GigaAM: эффективный метод предобучения для распознавания речи») и представлено на международной конференции Interspeech 2025 — ключевом событии в области речевых технологий. Метод уже показал отличные результаты для русского языка. Он снижает количество ошибок распознавания (Word Error Rate) на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.
Метод также решает ключевую проблему индустрии — зависимость от дефицитных размеченных аудиоданных. Self-supervised обучение позволяет моделям учиться на огромных массивах неразмеченных данных. Это открывает путь к созданию качественных систем для любых языков и специализированных доменов. Технология масштабируется по размеру модели и объёму данных. Динамическое маскирование self-attention наделяет модель уникальной гибкостью: одна архитектура работает в онлайн- и офлайн-режиме без необходимости инвестирования в переобучение.
Решение, предложенное исследователями Сбера, имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новый метод может быть очень востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком. Исследователи получают новый мощный инструмент предобучения моделей. Открытый код позволяет AI-сообществу дообучать модели искусственного интеллекта и применять его под свои языки и задачи.
Фёдор Минькин, технический директор GigaChat Сбербанка:
— Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов.
Реклама. ПАО «Сбербанк России» ИНН 7707083893. Erid: 2SDnjcuMTEn
Нашли ошибку - выделите текст с ошибкой и нажмите CTRL+ENTER
Другие материалы рубрики

Вам пишет СберКот: банковские уведомления по-новому
Владельцы Android-смартфонов могут сами выбрать оптимальный стиль сообщений от банка: стандартный, позитивный или от СберКота
Побывал в пекле: ветеран СВО из Кузнецка рассказал о самых тяжелых боях
Алексей Назаров за мир в Донбассе сражается с 2014 года
В Чаадаевке спасатели пришли на помощь женщине с инсультом
Сельчанка не реагировала на звонки и стук в дверь
Пензенские мамы поделились эмоциями эмоциями от концерта Хабиба
Исполнитель хита «Ягода малинка» выступил в Доме офицеров
Исследователи Сбера разработали метод повышения точности автоматического распознавания русского языка AI-моделями
Новый метод превосходит другие open-source модели по точности распознавания русского языка, не требуя при этом качественных размеченных данных