Алина Саратова

© SmartBabr

Наука и технологииИнтернет и ИТМир

3654

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

© SmartBabr

Наука и технологииИнтернет и ИТМир

3654

30.05.2017, 13:54

URL: https://babr24.news/?IDE=272319

Bytes: 7734 / 6789

Версия для печати

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Автор текста: Алина Саратова.

Другие статьи в рубрике "Наука и технологии"

От лёгкого дуновения до смертельных бурь: итоги викторины Бабра

Ветры на Байкале – природное явление, поражающее своей мощью и разнообразием. На образование и направление ветров, а также на погоду и климат региона особенно сильно влияют горные хребты, окружающие озеро.

Есения Линней

Наука и технологииЭкологияБайкал Бурятия Иркутск

8845

11.02.2025

В преддверии COP17 в Монголии обсудили продвижение «зелёных» технологий

В Монголии продолжают поднимать важные вопросы, касающиеся борьбы с изменением климата и создания новых «зелёных» рабочих мест. В 2026 году страна станет хозяином 17-й сессии Конференции сторон Конвенции ООН по борьбе с опустыниванием (COP17).

Есения Линней

Наука и технологииПолитикаЭкологияМонголия

6961

05.02.2025

Учёные ТГУ: о проблеме таяния ледников и о новых полезных свойствах шиповника

Исследователи ТГУ сильно обеспокоены таянием Алтайских ледников. После проведения оценки показателей выяснилось, что продолжение активного таяния льда и снега негативно скажется на окружающей среде.

Андрей Тихонов

Наука и технологииЗдоровьеЭкологияТомск

11308

31.01.2025

Первый чемпионат среди дроноводов: Монголия делает ставку на БПЛА

Монголия продолжает развивать технологии беспилотных летательных аппаратов. На этом фоне в стране впервые прошел чемпионат среди дроноводов. Дронокон-2025 объединил более 500 участников.

Эрнест Баатырев

Наука и технологииОбществоЭкономика и бизнесМонголия

7660

29.01.2025

МС-21: сказка про белого бычка продолжается

Российский среднемагистральный пассажирский самолет МС-21, который должен был стать флагманом отечественного авиастроения ещё несколько лет назад, вновь столкнулся с задержками. Глава «Ростеха» Сергей Чемезов сообщил, что серийное производство лайнера начнется не ранее 2026 года.

Виктор Горбунов

Наука и технологииРасследованияЭкономика и бизнесРоссия Иркутск

18801

27.01.2025

Сокуи, пропарины и становые щели: итоги викторины Бабра

Байкальский лёд – это настоящее природное чудо, способное заворожить любого. Его поверхность порой напоминает звёздное небо, а благодаря кристально чистой воде под ней открывается удивительный подводный мир озера. Именно поэтому Байкал особенно любим у туристов зимой. Телеграм-канал «Бурятия. Бабр.

Есения Линней

Наука и технологииЭкологияБурятия Байкал Иркутск

16533

24.01.2025

Картофель в Монголии: ключ к продовольственной безопасности

Монголия — страна с суровым резкоконтинентальным климатом, где температура может колебаться от -40 градусов зимой и до +40 летом. В таких условиях выращивание сельскохозяйственных культур является сложной задачей, но их значение для населения трудно переоценить.

Эрнест Баатырев

Наука и технологииОбществоЭкономика и бизнесМонголия

12183

22.01.2025

А в небесах опять летит комета!

2024 год оказался «урожайным» на разные небесные явления; вспомним хотя бы нашумевшую комету «Цзыцзиньшань – ATLAS», которую в минувшем октябре можно было видеть невооруженным глазом. А теперь нас посетила даже более интересная гостья, одна из самых ярких комет - C/2024 G3 (ATLAS).

Эля Берковская

Наука и технологииСобытияМир

2811

12.01.2025

Монголия на пороге инноваций: испытательные полигоны для дронов

Руководство Монголии планирует шагнуть в будущее, создав испытательные полигоны для дронов. В рамках последнего заседания правительства было утверждено решение о создании специализированных зон тестирования беспилотников.

Эрнест Баатырев

Наука и технологииОбществоЭкономика и бизнесМонголия

16625

26.12.2024

Бесстрашный учёный, описавший Байкал. Итоги викторины Бабра

Этот учёный был академиком Петербургской академии наук и сыграл значительную роль в развитии российской и мировой науки. По итогам сибирской экспедиции, возглавляемой им, был представлен десятитомный отчёт, содержащий карты региона и научное описание озера Байкал. Телеграм-канал «Бурятия. Бабр.

Есения Линней

Наука и технологииЭкологияБурятия Байкал Иркутск

18222

22.12.2024

Инсайд. Научный реванш

По моим наблюдениям, в науке среди руководителей (особенно среди возрастных) встречается специфический психологический недуг, который очень вредит, собственно, реальному развитию науки. Это — желание совершить открытие мирового уровня и остаться в истории, не имея для того значимых результатов.

Николай Головин

Наука и технологииРоссия

8084

18.12.2024

Наносенсоры на страже нашего здоровья

Томский политехнический университет радует новыми разработками. На этот раз ученые ТПУ создали бесшумные наносенсоры. Добавим в них чат GPT – и Т-800 готов. Шутка. (А, может, и нет).

Антон Старков

Наука и технологииЗдоровьеОбществоТомск

4762

11.12.2024

Лица Сибири

Дубас Анатолий

Гага Владимир

Кушнарев Анатолий

Шевченко Валерий

Самарский Борис

Жуков Антон

Шагдарова Индира

Баранов Юрий

Липин Сергей

Коренев Юрий