Приложение Google Recorder похоже на волшебство, но вот как оно работает

Последнее обновление Авг 11, 2021

Содержание

Нет сомнений в том, что Google находится на переднем крае искусственного интеллекта (AI) и машинного обучения (ML). Доказательства этого лежат в ряде продуктов Google – от ведущей в отрасли компьютерной фотографии до предложений во время написания электронных писем. ИИ и машинное обучение явно лежат в основе всех усилий Google.

Приложение Pixel 4 Recorder – еще один пример мастерства Google в области машинного обучения. Компания выпустила приложение для умной записи звука вместе с Pixel 4, используя машинное обучение на устройстве для автоматической расшифровки записи. Пару месяцев спустя приложение появилось и на более старых устройствах Pixel. В сообщении в блоге Google подробно описал, как работает новое приложение Recorder.

Расшифровка

Приложение генерирует транскрипцию аудиозаписей в реальном времени. Транскрибированный текст также доступен для поиска, что позволяет быстро находить определенное слово в разговоре, не прослушивая всю запись.

Для этого Google использовал улучшения, внесенные в модель распознавания речи на устройстве. Эта модель гарантирует, что приложение Recorder может расшифровать длинные аудиофайлы, до нескольких часов. Слова сопоставляются с меткой времени аудиозаписи. Поэтому, когда вы нажимаете определенное слово в транскрипции, воспроизведение звука также начинается с этого места в записи. Таким же образом вы можете искать слово и переходить к этому точному месту в записи.

Google

Визуализация звуков

Кроме того, Google объясняет, что он использует эволюционные нейронные сети, чтобы связывать разные звуки с разными цветами. Это та же модель машинного обучения на устройстве, которую Google использует для функции Live Caption в Android 10 .

Модель распознает разные звуки, например лай собаки или игру музыкального инструмента. Затем он назначает цвет этому звуку в звуковой форме волны. Это помогает пользователям распознавать звуки визуально. Так что в следующий раз, когда собака будет лаять на вашей записи, вы можете легко пропустить ее, не пролистывая аудиофайл.

Рекордер проверяет различные типы звуковых профилей – речь, музыка и т.д. – каждые 50 миллисекунд в окне 960 миллисекунд. Компания заявляет, что этот процесс «позволяет определить точное время начала и окончания таким образом, чтобы меньше было ошибок, чем при самостоятельном анализе последовательных больших оконных срезов 960 мсек».

Предложение заголовков и тегов

По окончании записи приложение предлагает для нее теги и названия. Для этого Recorder подсчитывает количество вхождений термина и их грамматическую роль в предложении. Термины, обозначенные как юридические лица, пишутся с большой буквы. Затем алгоритм на устройстве помечает существительные и имена собственные, которые пользователи легко запоминают. После этого термины проходят языковую модель для оценки и ранжирования. Окончательный выбор – это то, что вы видите как предложения заголовков или тегов.

Фух! это много закулисной работы. Ясно, что создание приложения для интеллектуальной записи – не шутка. Google также, похоже, много подумал о конфиденциальности пользователей, ограничив эти процессы только вашим устройством. Приложение все еще не может различать динамики, но, возможно, Google добавит это в будущем, чтобы сделать приложение еще лучше.

Вы используете новое приложение Google Recorder? Расскажите нам о своем опыте в разделе комментариев ниже.

Источник записи: https://www.androidauthority.com