Распознавание речи из аудиофайла онлайн. Как упростить процесс транскрибации (расшифровки аудио- и видеозаписей)

29.03.2024

Недавно передо мной встала задача: Перевести аудио и видео файлы в текст. Так как я никогда не занимался этим вопросом, то как всегда — залез в интернет и начал гуглить как же люди это делают. Ведь ни для кого ни секрет, что транскрибацией/транскрибированием занимаются многие люди и даже профессиональные компании, которые построили на этом бизнес.

Википедия нам выдает: Действие по записи транскрипции называется транскрибированием.

В каком то смысле передача звука и написание его это та же транскрипция, но нас здесь интересует не что такое транскрибирование, а как этим пользоваться в практических целях.

Для чего может понадобиться транскрибирование в печатный текст

Допустим у вас есть аудио запись семинара или аудиокнига, которую вы хотите сохранить в текстовом виде для более удобного поиска информации. Ведь в тексте всегда можно воспользоваться поиском и текст занимает значительно меньше места, чем аудио и видео.

У вас есть несколько путей:

обратиться в компанию и заплатить примерно 16 руб за минуту файла;
найти фрилансера, который вам все это сделает дешевле;
сделать самому вручную, прослушивая и печатая;
сделать самому, прослушивая и надиктовывая;
сделать самому с помощью специальных программ.

Так как делегировать другому вы не захотели, а оказались на этой странице, то я могу сделать вывод, что вам интересно подробно разобраться в процессе и сделать все самому. Каждый знает, что если хочешь сделать хорошо, сделай это сам.

Кстати, если вы все же выберете надиктовывать текст голосом, то в этой статье я как раз дам ответ как это лучше всего делать.

Какие способы существуют и какой лучше выбрать

Программные средства транскрибирования онлайн

Virtual Audio Cable

Я перерыл интернет и везде в основном советуют воспользоваться программой Virtual Audio Cable (инструкция как ей пользоваться ниже)

А что же предлагает нам данная программа и почему ее советуют? Ну вот представьте, что для того, чтобы голос был распознан, вам нужно сначала его воспроизвести, а потом в реальном времени передать в специальные транскрибаторы, которые и преобразуют звук в текст. Так вот если вы начнете включать звук через колонки и пытаться его передавать через микрофон, то будут огромные потери в качестве, так как у вас в комнате присутствуют шумы, вам нужно включать колонки на большую громкость. Микрофон может быть не самым лучшим. В итоге вы получите низкое качество из-за всех этих искажений. Качество будет идеальным, если вы сможете передать напрямую аудио или видео прямо в компьютере в транскрибатор. Как раз для этой цели и нужна программа Virtual Audio Cable.

Смысл ее работы в том, что она создает виртуальный кабель, с помощью которого, напрямую передает данные. Что нам и нужно!

Я попробовал сделать так как говорится в самом ролике и у меня получилось скачать программу, установить ее и сделать необходимые настройки. При включении всех настроек я понял, что у меня идет жуткое эхо и я целый час пытался разобраться почему у меня выдается дополнительный аудио канал.

Как сделать эмуляцию виртуального кабеля без программок

Сразу здесь выложу инструкцию как это сделать. Вам даже не потребуется устанавливать Virtual Audio Cable, так как можно обойтись простыми манипуляциями в настройках громкости. Сам я попробовал и мне понравилось, поэтому остановился на этом способе, так как он самый простой.

Нужно в настройках звука во вкладке запись включить стерео микшер и сделать его устройством записи по умолчанию. Таким образом звук сразу будет передаваться в компьютер и все так же останется воспроизведение через колонки. То есть вы сможете спокойненько слушать ваш файл и работать с ним. В видео много рассказывается о работе с сервисом «Блокнот для речевого ввода», о котором речь пойдет далее. Смотрите и обучайтесь.

Speechpad «Блокнот для речевого ввода» — сервис для надиктовки (транскрибирования текста)

Очень сильно хвалят вот этот сайт speechpad.ru так как он хорошо поддерживается, в нем есть все необходимые настройки.

В принципе разобраться с ним сможет любой за 10 минут, тем более, что там есть много инструкций. Хочу сказать свое мнение — мне он не подошел, так как когда идет транскрибация видео ролика, то существует буфер. Он длится примерно 20-30 секунд и видеоролик как бы перезагружается по истечение этого времени. И все было бы прекрасно, если бы перезагружаясь, ролик начинался с того места, на котором закончился, но он загружается на 1-2 секунды раньше и происходит повторение слов. Возможно это и не плохо, так как при перезагрузке может оборваться часть фразы, а потом она повторится и пойдет логично дальше, но для редактирования это ужасно неудобно. Нужно удалять повторы слов каждые 20 секунд и это отнимает много времени. Еще мне не понравилось качество. Конечно, в 95% сервис понимает речь, но вот эти 5% ошибок исправлять ой как не хочется. Порой даже не понимаешь что за слова он вставляет и откуда он их берет. Еще один минус в том, что если не успел сохранить текст или страница случайно перезагрузилась, то можно потерять весь результат, а если текст длинный, то придется начинать сначала и это ооочень раздражает.

В целом очень хороший сервис, многие пользуются и многие остаются довольны, особенно если речь четкая, так вообще никаких проблем не будет. Сервис бесплатный и внутри есть много инструментов, думаю, что вам понравится. Я попробовал этот сервис и продолжил искать дальше, более удобный инструмент.

Realspeaker — программа для транскрибирования и расшифровки

Нашел еще такую программу realspeaker почитал что о ней пишут, и подумал, что это скорее для тех, кто профессионально надиктовывает тексты. Программа для перевода звука в текст пригодится, если вы работаете транскрибатором и зарабатываете на этом.

Что она умеет:

Голос в текст может обработать любой длины;
Транскрибирует аудио и видео в текст;
Большой объем данных и глубокое обучение;
Облачные вычисления и API по запросу;
Ввод данных в любой редактор или сайт;
Мульти-платформенность и мультиязычность;
Расшифровка с учетом акцентов и диалектов;
Простая и доступная система оплаты.

Из всего этого перечня следует, что если вы зарабатываете на текстах, то она вам возможно поможет. Ну а для меня она не подходит, так как платная и я пошел искать дальше.

Google Translate — просто переводчик и не только

Этого монстра знают если не все, то почти все! Находится он по адресу translate.google.ru . Все очень просто, заходите на сайт, нажимаете на микрофон и запись и мгновенная транскрибация пошла. Далее можно просто копировать и вставлять куда нужно. Вот такой вот переводчик на английский или переводчик звука в текст.

Как известно Гугл — очень хорош. Это компания, которая постоянно совершенствует свои технологии в создании интернет-поиска, облачных вычислений и дополнительные сервисы. Совсем недавно они анонсировали сервис по переводу голоса в текст, а сегодня он уже является самым популярным. Почему? Потому что все телефоны — андроиды начали использовать голосовые команды и вообще это очень удобно. А гугл изначально уже встроен во телефоны.

И вот еще почему, потому, что гугл делает свои продукты на высоком уровне. Что все это значит? Да то, что при нажатии на одну кнопку вы получаете максимально продуманный и качественный сервис без лишнего мусора. Гугл вложил огромные деньги в свои распознаватели голоса и вывел свой продукт на мировой рынок, и теперь на всех языках (в том числе русский язык) можно транскрибировать свой голос и переводить в любой другой язык.

В общем Google Translate наиболее качественно захватывает речь из звука и этим уже можно пользоваться, расставив знаки препинания. Пользуйтесь на здоровье, к хорошему быстро привыкаешь.

Из минусов могу отметить, что на данный момент можно записывать текстовый документ только 5000 символов длиной. Если вам необходимо надиктовать или распознать несколько предложений, то вам этот инструмент подойдет из-за своей простоты. Но если у вас более длинные тексты и вы хотите иметь возможность с Гугловской точностью транскрибировать текст любой длины то вам больше подойдет следующий инструмент.

Google Docs — самый универсальный инструмент перевода звука в текст онлайн

Почему этот инструмент лучше? Это же просто онлайн документ. Или не просто?

Вся фишка в том что он:

позволяет сохранять текст моментально и он никуда не исчезнет;
может записывать бесконечно, хоть на ночь поставьте аудиокнигу, на утро проснетесь и все будет ок;
использует голосовой модуль google, а он хорош (про это уже говорилось выше);
позволяет прямо там отредактировать и сохранить;
работает онлайн на любых устройствах.

В связи со всем вышеперечисленным, на мой взгляд это самый адекватный и удобный инструмент, который можно использовать для транскрибации звука в текст.

Как им пользоваться?

Заходите в docs.google.com
перед вами открывается список документов
создаете новый документ
жмете инструменты -> голосовой ввод или Ctrl+Shift+S
нажимаете на микрофон

Всё! Транскрибация аудио в текст пошла! Из всех инструментов мне этот понравился больше всего. Никаких отвлекающих штуковин, там просто и понятно.

Чтобы сделать перевод в текст аудио файла или видео с youtube, просто сначала запустите файл, а потом перейдите в окошко документа и нажмите запись. Ждите и смотрите, как на ваших глазах происходит чудо. Потом останется отредактировать и оформить и текст готов!

Чтобы добавить в текст знаки препинания, используйте эти команды:

«точка»;
«запятая»;
«восклицательный знак»;
«вопросительный знак»;
«новая строка»;
«новый абзац».

Примечание. Ввод знаков препинания поддерживается на английском, испанском, итальянском, немецком, русском и французском языках.

Как и чем пользоваться если нужно надиктовывать голосом?

Рассмотренные выше варианты программных средств абсолютно так же подойдут для голосового ввода. Единственное отличие будет в том, что нужно будет вместо микшера использовать запись через микрофон.

Можно просто надиктовывать свои мысли, чтобы не терять времени на писанину и потом быстренько отформатировать;
Можно надеть наушники и слушая, воспроизводить так как вам больше нравится в микрофон;
Можно пользоваться специальными приложениями на телефоне.

Нужно надиктовать быстро, а под рукой только мобильный телефон?

Если у вас iPhone

Можете скачать бесплатно приложение Dragon Dictation

Очень удобно, когда нет под рукой компьютера и вам в голову пришли мысли, которые кровь из носа нужно записать, иначе пройдет 2 минуты и вы забудете, что хотели сказать. К сожалению это бывает очень часто и как хорошо, что мы теперь можем носить сотик вездеи с легкостью перевести голос в текст. Пришла мысль — запиши аудио. Это быстро и удобно.

Если у вас Android

Можете скачать бесплатно приложение Speechlogger

Хорошее приложение, которое поможет андроид-манам. Если вы журналист, домохозяйка, писатель и просто развивающийся человек, то обязательно используйте дополнительные возможности, чтобы сократить время и не забыть самое важное, пользуйтесь мобильными приложениями для записи текста голосом.

Кстати там еще можно знаки препинания расставлять, что облегчит дальнейшее редактирование. Все приложения отлично понимают русский язык.

Выводы:

Для того, чтобы передавать звук в компьютер лучше всего пользоваться настройками windows и встроенным микшером.
Для того, чтобы транскрибировать более качественно лучше всего пользоваться Google Docs с включенной настройкой голосовой ввод.
Для того, чтобы делать переведение с мобильника — скачайте приложения

Хорошей вам транскрибации, надеюсь вам поможет мой опыт. Кстати, напишите в комментариях, что вы об этом думаете, какие средства сами используете. Может есть еще лучше способ затранскрибировать и если вы о нем знаете, то обязательно расскажите, чтобы помочь тем, кто ищет решение этого вопроса.

Пожалуй, самая удобная программа для расшифровки текста для Windows и Mac OS, которая совмещает в себе аудиоплеер и текстовый редактор. Принцип работы очень прост – загружаете в программу аудиофайл, прослушиваете его при помощи горячих клавиш на клавиатуре (их можно назначать самому) и параллельно набираете текст. Скорость воспроизведения и громкость аудио также регулируются при помощи клавиатуры. Таким образом, ваши руки постоянно находятся на клавиатуре и отпадает необходимость использовать мышку или переключаться между разными программами. Нужно учитывать, что встроенный редактор текста не распознает ошибки и не имеет многих других привычных функций, например, переключение дефиса в тире. Однако можно пользоваться другими редакторами текста параллельно с Express Scribe, используя горячие клавиши для управления воспроизведением аудио. Программа условно бесплатная, полная стоимость: 17-50 долларов.

02. Transcriber-pro

Русскоязычная программа для Windows, которая позволяет прослушивать не только аудио, но и просматривать видеофайлы. Встроенный текстовый редактор имеет возможность проставлять временные метки и имена собеседников. Полученный текст можно импортировать в «интерактивные стенограммы», а также корректировать в рамках группового проекта. Приложение доступно только при годовой подписке, стоимость – 689 рублей в год.

03. RSplayer V1.4

Простая программа для обработки и расшифровки аудиофайлов с поддержкой горячих клавиш и возможностью набора текста в Microsoft Word. В отличие от предыдущих подобных программ, ее можно скачать бесплатно, но она нестабильно работает на новых версиях Windows.

04. Voco

Профессиональное Windows-приложение для преобразования речи в текст. Поддерживает голосовой набор в любом тестовом браузере, имеет большую коллекцию тематических словарей и не требует подключения к интернету для распознавания речи. Расширенные версии «Voco.Professional» и «Voco.Enterprise» могут работать с готовыми аудиофайлами. Единственный недостаток – высокая стоимость приложения.

05. Dragon Dictation

Бесплатное мобильное приложение для распознавания надиктованной речи. Программа умеет распознавать около 40 языков и их разновидностей, позволяет редактировать текст и отправлять его на почту, социальные сети или копировать в буфер обмена. Для работы необходимо подключение к интернету.

06. RealSpeaker

Уникальное приложение, которое способно не только распознавать аудиофайлы, но и живую речь, наговариваемую на камеру. За счет специального видеорасширения «RealSpeaker» считывает движение губ, тем самым улучшая процесс распознавания речи до 20-30% по сравнению с другими подобными алгоритмами. На данный момент приложение поддерживает 11 языков: русский, английский (американский и британский диалекты), французский, немецкий, китайский, корейский и японский, турецкий, испанский, итальянский и украинский. Программа распространяется условно бесплатно, стоимость зависит от времени подписки, бессрочная версия стоит около 2 тыс. руб.

Привет, коллеги-фрилансеры!

С тем, я думаю, из вчерашней статьи вы полностью разобрались. Двигаемся дальше.

Сегодня я хочу рассказать какие программы помогут существенно облегчить весь процесс транскрибирования. Существует не одна программа для транскрибации, которой можно воспользоваться, и есть несколько вариантов, как с помощью них можно легко делать перевод аудио и видео в текст.

Но о том, как делать транскибацию и какими способами, я буду подробно . Сегодня только подробный обзор этих программ со всеми преимуществами и недостатками.

Скачать программу Express Scribe (официальный сайт)

К сожалению, нет версии этой программы на русском языке, но она очень простая, интуитивно понятная и бесплатная.

Основные преимущества:

Удобное поле для набора текста. Не нужно переключаться между проигрывателем и текстовым документом.
Изменение скорости проигрывания звуковой дорожки, чтобы успевать писать под диктовку.
Настраиваемые горячие клавиши, позволяющие воспроизводить, останавливать и перематывать запись.
Адаптирован для работы с Word.
Расстановка тайм-кодов.

Недостатки:

На английском языке. Хотя это ни капли не мешает в работе.

В следующей статье я подробно разберу как в ней работать и какие горячие клавиши использовать.

Программа LossPlay

Скачать программу LossPlay

Простой и тоже бесплатный плеер для расшифровок.

Основные преимущества:

Настраиваемые горячие клавиши.
Воспроизведение аудио и видеофайлов.
Изменение скорости проигрывания записи.
Расстановка тайм-кодов.
Настраиваемый откат после паузы.
Адаптирован для работы в Microsoft Word.

Недостаток:

Приходится иногда переключаться между окнами.

3 видео урока по работе с LossPlay

Урок 1

Знакомство с плеером, как он устанавливается и работает.

Урок 2

Вставка тайм-кода в расшифровываемый текст.

Урок 3

Как повысить производительность транскрибаторов за счёт тонкой настройки программы.

Онлайн сервис Speechpad

Очень простой онлайн-сервис для распознавания речи. С помощью него вы можете голосом надиктовывать текст и потом его редактировать, сохранив или скопировав в текстовый документ.

По сути данный сервис могут заменить обычные гугл документы, в которых есть функция голосового набора текста.

Вот такие проги существуют для облегчения работы транскрибаторов. Можете ниже в комментариях написать своё мнение или оставить отзыв о том, чем вы пользуетесь. Желаю всем удачи и увидимся в следующей статье.

Друзья, недавно на сайте были опубликованы статьи, посвящённые голосовому вводу данных в среде Windows. В одной из статей мы рассматривали новую , которую в Windows 10 привнёс осенний накопительный апдейт Fall Creators Update. В другой был представлен . Эта публикация продолжает цикл статей, посвящённых теме голосового ввода данных в среде Windows, и в ней рассмотрим, как автоматизировать процесс расшифровки аудио- и видеозаписей в текст.

Автоматизация расшифровки (транскрибации) аудио - и видеозаписей

Итак, в упомянутых статьях сайта мы говорили о возможности набора текста с помощью голосового ввода. Несмотря на постоянное совершенствование технологий распознавания человеческой речи, всё равно, друзья, пока что в этом деле имеем ещё далёкий от идеала инструментарий. Отчасти он обусловлен сложностью самого русского языка. Языки с более простым построением языковой модели (с меньшим количеством словоформ) - например, английский, испанский, итальянский - искусственным интеллектом понимаются более корректно. И, соответственно, распознаются с меньшим числом ошибок. Так что какой бы инструмент голосового ввода на русском (или на другом славянском языке) ни использовался, в его результирующей форме всё равно придётся что-то править – корректировать окончания или даже слова целиком, ставить знаки препинания и т.п. И при больших объёмах набора текста голосом это становится проблемой. Не каждый сможет в едином процессе и надиктовывать свои мысли, и тут же попутно вносить в распознанный текст правки. Альтернатива в таком случае – разбивка процесса на два этапа: сначала свободное изложение мыслей на диктофон, а затем дальнейшая расшифровка аудиозаписи с помощью тех же инструментов распознавания человеческой речи. Ну и, естественно, попутная правка текста в результирующей форме.

Расшифровка видео и аудио с текстовой фиксацией разговоров участников записей называется транскрибацией. Транскрибация – ручной, очень трудоёмкий процесс. Транскрибатору необходимо поэтапно запоминать отрывки записи, приостанавливать воспроизведение и пропечатывать запомненное в текстовом редакторе. Это монотонная работа, которая требует максимальной концентрации внимания. Особенно если качество видео- или аудиоисходника оставляет желать лучшего. Но это если работать с расшифровкой разговоров других людей, записанных с помехами, тресками, слабым сигналом и т.п. С транскрибацией собственных диктовок, если они будут приемлемого качества записи, и если львиную долю работы по расшифровке возложить на искусственный интеллект, дела будут обстоять проще. Из ручной работы останется только коррекция текста.

Как сделать качественную аудиозапись? И как её потом транскрибировать в текст с помощью технологий распознавания речи?

Запись диктовки

Чтобы оцифровать свои мысли, не прибегая к активной печати на клавиатуре, потребуется надиктовать их в микрофон или проговорить на видеокамеру. Для этого можно использовать свой смартфон, а затем перенести файл аудио- или видеозаписи на компьютер. Аудиозапись диктовки также можно поручить любому устройству на базе Windows со встроенным или подключённым микрофоном. В числе штатных средств Windows 7 для этих целей имеется утилита «Звукозапись».

А на борту Windows 10 – штатное универсальное приложение «Запись голоса».

В «Десятке» ещё можно записывать и прослушивать голосовые заметки внутри приложения OneNote.

В любой из версий системы можно воспользоваться сторонними программами для записи звука с микрофона, например, функциональным аудиоредактором Audacity.

Не имеет значения, какой инструмент записи голоса вы, друзья, выберете. Это даже может быть не аудиозапись, а видео, записанное на веб-камеру или захваченное с экрана монитора. Лишь бы такое видео было со звуком. Важно другое - чтобы звук на выходе был более-менее чистым, без шумов и с приемлемым уровнем сигнала. Для этого перед аудио- или видеозаписью необходимо протестировать микрофон, в частности, чтобы найти приемлемое расстояние от рта. При необходимости можно усилить чувствительность микрофона: на компьютере это делается либо в программе, с помощью которой осуществляется аудиозапись или захват экрана монитора, либо в системных настройках звука. В последнем случае в области задач Windows кликаем правой клавишей мыши на значке громкости и выбираем «Записывающие устройства».

В открывшемся окошке его свойств переходим на вкладку «Уровни». Перетягивая ползунок графы «Усиление микрофона», добавляем дБ, жмём «Ок» и тестируем звукозапись.

Сначала усиливаем на 10 дБ. Если сигнал по-прежнему слабый, можно довести его до 20 дБ. Больше добавлять не нужно, при усилении до 30 дБ обычно появляются шумы.

Записываем диктовку и сохраняем её.

Настройка стереомикшера

Для транскрибации записанной диктовки необходимо обмануть инструмент распознавания человеческой речи и подставить ему вместо звука с микрофона звучание аудио- или видеозаписи – т.е. системный звук, тот, что мы слышим из динамиков нашего компьютера. Сделать это можно с помощью стереомикшера. Как и при настройке микрофона, вызываем контекстное меню на значке громкости в области задач Windows. И выбираем «Записывающие устройства».

А стереомикшер, наоборот, включаем. Жмём «Ок» внизу окошка.

Что делать, если стереомикшера среди записывающих устройств системы нет? Необходимо переустановить аудиодрайвер. Windows при автоматической установке драйверов часто обеспечивает только базовые функции звучания. И обновление или переустановка аудиодрайвера с помощью системного диспетчера устройств обычно ничего не даёт в этом плане. Нужно сначала удалить аудиодрайвер. А затем отправиться на сайт материнской платы, ноутбука или дискретной аудиокарты, скачать инсталлятор аудиодрайвера и установить его.

Обычно Google translate используют для перевода речи транслируемой микрофоном.

Идея лежала на поверхности и наверняка программы для этого должны были присутствовать. Так -же как сделано в Gogle translate.

Но, гуглением, программы не нашлось, кроме двух сайтов. Которые использовали по уверениям их авторов всю мощь искусственного интеллекта Google.

Первый нашелся русскоязычный сайт https://speechpad.ru/blog/windows-integration/

Но, как бы не было обидно, магия не сработала...

Был найден англоязычный сайт: https://speechlogger.appspot.com/ru/

Результат - тот же. Но, было в отличие от предыдущего - объяснение.

Там было показано, как реализовать, казалось бы, простую идею: пустить в качестве сигнала микрофона - аудио файл.

Для этого необходим драйвер VB-CABLE Virtual Audio Device Он OpenSourse.

Искренняя благодарность "прогнившим западным" альтруистам!

Устанавливаем (проверено под Win 10) и настраиваем микрофонный вход в системе, на этот драйвер.

Открываем Gogle translate, нажимаем кнопочку с изображением микрофона и запускаем любой плейер с аудио - файлом.

И - Вааля! Магия работает, на ваших глазах появляются строки текста.

Точность распознавания, на глаз 85-97 %. Но, есть ограничение - 5 тыс. символов, что немало. Поэтому приходиться останавливать запись, копировать текст и продолжать далее.

Заодно происходит перевод на второй выбранный язык. О боже, сколько странных переводов появится!

Дополнение: есть способ без ограничений на количество символов. - это Google Docs, он так-же работает но, только без перевода на второй язык. Спасибо dioneo

Как мне кажется, Google блокирует постоянные подключения с одних IP. Поэтому ценность этого способа - в том, что все IP не заблокируешь и соответственно, этот способ более работоспособен. Тут уже слово разработчикам и большим "гуру", чем автор.

Всем добра и удобства.

andreybazhin.ru