Вот как на самом деле работают Live Caption в Android 10
Live Caption – одна из самых крутых функций Android, использующая машинное обучение на устройстве для создания субтитров для локальных видео и веб-клипов.
Google опубликовал сообщение в блоге, в котором подробно описывается, как именно работает эта отличная функция, и для начала на самом деле она состоит из трех моделей машинного обучения на устройстве.
Для самого распознавания речи существует модель рекуррентного преобразования последовательности нейронной сети (RNN-T), но Google также использует рекуррентную нейронную сеть для предсказания знаков препинания.
Третья модель машинного обучения на устройстве – это сверточная нейронная сеть (CNN) для звуковых событий, таких как щебетание птиц, хлопки людей и музыка. Google заявляет, что эта третья модель машинного обучения основана на его работе над приложением для обеспечения доступности Live Transcribe, которое может расшифровывать речевые и звуковые события.
Снижение влияния Live Caption
Компания заявляет, что приняла ряд мер для снижения расхода заряда батареи и требований к производительности Live Caption. Во-первых, механизм полного автоматического распознавания речи (ASR) работает только при фактическом обнаружении речи, а не постоянно работает в фоновом режиме.
«Например, когда обнаружена музыка и в аудиопотоке нет речи, на экране появится метка [MUSIC], и модель ASR будет выгружена. Модель ASR загружается обратно в память только тогда, когда речь снова присутствует в аудиопотоке », – поясняет Google в своем блоге.
Google также использовал такие методы, как отсечение нейронных соединений (уменьшение размера речевой модели), снижение энергопотребления на 50% и обеспечение непрерывной работы Live Caption.
Google объясняет, что результаты распознавания речи обновляются несколько раз каждую секунду по мере формирования подписи, но предсказание пунктуации отличается. По словам поискового гиганта, он обеспечивает предсказание знаков препинания «в конце текста из последнего распознанного предложения», чтобы снизить потребность в ресурсах.
Live Caption теперь доступна в серии Google Pixel 4, и Google заявляет, что она будет доступна «скоро» на серии Pixel 3 и других устройствах. Компания заявляет, что также работает над поддержкой других языков и улучшением поддержки контента с несколькими динамиками.
Источник записи: https://www.androidauthority.com