Распознавание «фейковых» слов: Новый подход на основе Whisper

Автор: Денис Аветисян

Исследователи предлагают метод обнаружения синтезированных слов в речи, интегрированный в процесс автоматического распознавания речи.

Усовершенствованная модель Whisper, настроенная для преобразования речи в текст, способна не только расшифровывать аудио, но и выявлять искусственно созданные слова, ориентируясь на окружающие их специальные маркеры <span class="katex-eq" data-katex-display="false">\langle TOF \rangle</span> и <span class="katex-eq" data-katex-display="false">\langle EOF \rangle</span>. — Усовершенствованная модель Whisper, настроенная для преобразования речи в текст, способна не только расшифровывать аудио, но и выявлять искусственно созданные слова, ориентируясь на окружающие их специальные маркеры $\langle TOF \rangle$ и $\langle EOF \rangle$ .

Метод использует тонкую настройку предварительно обученной модели Whisper для выявления искусственно добавленных слов в аудиозаписи.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

В условиях растущей угрозы дипфейков, обнаружение поддельных речевых фрагментов становится все более сложной задачей. В работе «Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper» предложен экономически эффективный подход, основанный на тонкой настройке предварительно обученной модели Whisper для одновременного распознавания речи и выявления синтезированных слов. Эксперименты показали, что такая модель демонстрирует низкий уровень ошибок как в обнаружении подделок, так и в транскрипции, сохраняя конкурентоспособность с специализированными детекторами даже при использовании данных, созданных неизвестными генеративными моделями. Каковы перспективы дальнейшего улучшения обобщающей способности подобных систем для борьбы с постоянно эволюционирующими методами создания дипфейков?

Иллюзия Голоса: Прогресс и Угрозы Синтеза Речи

Технологии преобразования текста в речь (TTS) демонстрируют беспрецедентный прогресс, создавая синтезированные голоса, которые становятся всё более неотличимы от человеческих. Современные системы, использующие глубокое обучение и нейронные сети, способны не только воспроизводить речь с высокой точностью, но и имитировать различные акценты, эмоциональные оттенки и даже индивидуальные особенности голоса. Это достигается благодаря использованию огромных массивов данных и сложных алгоритмов, позволяющих моделировать мельчайшие нюансы звуковой волны. В результате, созданные голоса становятся настолько реалистичными, что способны обмануть даже опытного слушателя, открывая новые возможности в различных областях — от озвучивания аудиокниг и создания виртуальных ассистентов до разработки инновационных интерфейсов взаимодействия человека и компьютера.

Распространение технологий синтеза речи, достигших впечатляющего реализма, вызывает обоснованные опасения относительно их злонамеренного использования. Появление дипфейков, создаваемых с применением синтезированных голосов, и автоматизированных кампаний дезинформации, использующих поддельные аудиозаписи, представляет серьезную угрозу для общественного доверия и безопасности. В связи с этим возникает острая необходимость в разработке надежных и эффективных методов обнаружения синтезированной речи, способных выявлять подделки и противодействовать распространению ложной информации. Особенно актуальным является создание систем, устойчивых к различным манипуляциям и способных адаптироваться к постоянно совершенствующимся технологиям синтеза, чтобы обеспечить своевременное выявление и нейтрализацию потенциальных угроз.

Существующие методы обнаружения синтезированной речи сталкиваются с серьезными ограничениями в своей универсальности. Исследования показывают, что алгоритмы, эффективно работающие с одним типом системы преобразования текста в речь (TTS), часто демонстрируют значительное снижение точности при анализе аудио, созданного другой системой. Эта проблема усугубляется вариативностью акустических условий — шум, эхо, различные типы микрофонов и качество записи — существенно влияют на производительность детекторов. Неспособность адаптироваться к разнообразию TTS-технологий и изменяющимся условиям записи представляет собой критический пробел в текущих технологиях, что делает необходимым разработку более робастных и обобщающих методов, способных надежно идентифицировать синтезированную речь в различных сценариях.

Анализ ошибок при обнаружении синтетических слов показывает, что точность модели Whisper, обученной с использованием Ft.Voc и Ft.TTS, зависит от длительности слов.

Whisper как Основа: Адаптация ASR для Детектирования

Модель Whisper, основанная на архитектуре Transformer, представляет собой предварительно обученную систему автоматического распознавания речи (ASR), демонстрирующую высокую производительность в широком спектре задач, включая транскрипцию, перевод и идентификацию языка. Обученная на обширном наборе данных в 680 000 часов многоязычной речи, Whisper способна эффективно обрабатывать аудиозаписи с различным уровнем шума и акцентами. Архитектура Transformer позволяет модели эффективно улавливать долгосрочные зависимости в речевом сигнале, что критически важно для точного распознавания. В отличие от предыдущих ASR-систем, Whisper отличается устойчивостью к различным условиям записи и демонстрирует конкурентоспособные результаты по сравнению с другими современными моделями, что делает её ценным инструментом для различных приложений обработки речи.

Адаптация Whisper для обнаружения синтетической речи включает в себя модификацию предварительно обученной модели для распознавания специфических характеристик искусственно сгенерированной речи. В процессе тонкой настройки (fine-tuning) модель обучается на наборе данных, содержащем как реальную, так и синтезированную речь, что позволяет ей выявлять различия в акустических особенностях, тембре, и других параметрах. Это достигается путем корректировки весов модели, чтобы повысить ее чувствительность к признакам, характерным для синтеза речи, таким как артефакты, нереалистичные переходы или отсутствие естественных вариаций, присущих человеческой речи.

Данный подход использует предсказание следующего токена (Next-Token Prediction), рассматривая задачу обнаружения синтетической речи как задачу языкового моделирования. Модель обучается предсказывать следующий токен в последовательности признаков, полученных из аудио, и таким образом различать сегменты реальной и синтезированной речи. Фактически, модель оценивает вероятность того, что конкретная последовательность признаков является частью естественной речи или искусственно сгенерированной, что позволяет ей классифицировать аудиофрагменты на основе этой вероятности. Этот метод позволяет эффективно использовать возможности предобученной модели Whisper для решения задачи обнаружения, не требуя значительных изменений в её архитектуре.

Исследования показали, что модель Whisper, подвергнутая тонкой настройке для обнаружения синтетической речи, достигает показателей эффективности, сопоставимых с специализированными моделями на основе архитектуры ResNet. При этом, в отличие от ResNet, тонко настроенный Whisper сохраняет высокую точность транскрипции, что подтверждается результатами экспериментов. Достигнутая сопоставимость производительности при сохранении способности к расшифровке речи делает Whisper перспективным решением для задач, требующих как обнаружения синтетической речи, так и её последующей обработки.

Многообразие TTS и Роль Вокодеров

В настоящее время существует широкий спектр систем синтеза речи (TTS), включая SoVITS, YourTTS, XTTS, CosyVoice и JETS. Каждая из этих систем использует различные стратегии синтеза, что влияет на характеристики генерируемой речи. SoVITS базируется на вариационном автоэнкодере для моделирования спектральных огибающих, YourTTS предлагает гибкую настройку голоса через адаптацию на небольших объемах данных, XTTS использует кросс-языковой перенос голоса, CosyVoice ориентирована на генерацию эмоциональной речи, а JETS — на высококачественный синтез с использованием нейронных сетей. Различия в архитектуре и методах обучения приводят к существенным отличиям в звучании и естественности синтезированной речи, что необходимо учитывать при разработке систем обнаружения подделок.

Для генерации аудиосигналов в системах синтеза речи (TTS), таких как SoVITS, YourTTS, XTTS, CosyVoice и JETS, используются различные вокодеры. HiFi-GAN, WaveGlow и Hn-NSF представляют собой современные нейронные вокодеры, обеспечивающие высокое качество синтезируемой речи за счет использования глубокого обучения. Более ранние методы, такие как Griffin-Lim и WORLD, являются алгоритмическими вокодерами, основанными на анализе и синтезе спектра, и отличаются меньшей вычислительной сложностью, но обычно уступают нейронным вокодерам по качеству звучания. Выбор вокодера оказывает значительное влияние на реалистичность и вычислительные затраты процесса синтеза речи.

Разнообразие систем синтеза речи (TTS) и используемых ими вокодеров создает существенные трудности для моделей обнаружения синтетической речи. Каждая TTS-система, такая как SoVITS, YourTTS, XTTS и другие, применяет уникальные стратегии синтеза, а использование различных вокодеров — HiFi-GAN, WaveGlow, Hn-NSF и других — приводит к широкому спектру акустических характеристик синтезированной речи. Это требует от моделей обнаружения способности к обобщению и адаптации к различным особенностям синтеза, включая тембр, интонацию и артефакты, создаваемые различными комбинациями TTS-систем и вокодеров. Неспособность к обобщению приводит к снижению точности обнаружения и увеличению числа ложных срабатываний или пропусков.

Оценка методов обнаружения синтезированной речи требует использования специализированных наборов данных, таких как AV-Deepfake-1M и PartialEdit. AV-Deepfake-1M предоставляет обширный набор аудио- и видеоматериалов, содержащих дипфейки, что позволяет оценить устойчивость детекторов к разнообразным манипуляциям. Набор данных PartialEdit, в свою очередь, фокусируется на оценке способности детекторов выявлять синтезированные фрагменты речи, вставленные в естественную речь. Использование этих наборов данных критически важно для определения способности моделей обобщать результаты обнаружения на различные типы синтеза и сценарии использования, обеспечивая более надежную и точную идентификацию искусственно сгенерированной речи.

При тестировании на наборе данных E.Voc, модель Whisper, подвергшаяся тонкой настройке, показала уровень ложного принятия (false acceptance rate) в 7.22% и уровень ложного отказа (false rejection rate) в 0.52%. Данные показатели отражают способность модели различать синтезированную и естественную речь, при этом 7.22% случаев представляют собой ошибочное принятие синтезированной речи за естественную, а 0.52% — ошибочный отказ в распознавании естественной речи.

Количественная Оценка и Перспективы Развития

Оценка точности обнаружения синтетических слов базируется на ряде ключевых метрик, позволяющих количественно определить эффективность разработанных систем. Среди них особое значение имеет частота ошибок распознавания слов (Word Error Rate, WER), показывающая процент неправильно расшифрованных слов. Не менее важны показатели ложного принятия (False Acceptance Rate, FAR) и ложного отбрасывания (False Rejection Rate, FRR), которые характеризуют способность системы различать аутентичную и синтетическую речь, а также избегать ошибочного отклонения легитимных образцов. Эти метрики, тесно взаимосвязаны, позволяют комплексно оценить надежность и практическую применимость технологий обнаружения синтетической речи, что критически важно для обеспечения безопасности и достоверности цифровой информации.

Способность эффективно выявлять синтетическую речь имеет далеко идущие последствия для обеспечения безопасности, аутентификации и целостности контента. В контексте возрастающей распространенности дипфейков и сгенерированных голосов, точная идентификация искусственно созданной речи становится критически важной для предотвращения мошенничества, защиты от несанкционированного доступа к системам и поддержания доверия к цифровым коммуникациям. Например, в системах голосовой аутентификации надежное обнаружение синтетической речи необходимо для защиты от поддельных команд и неправомерного использования личных данных. Кроме того, в сфере медиа и журналистики, способность отличать реальный контент от сгенерированного искусственным интеллектом, жизненно важна для борьбы с дезинформацией и сохранения объективности новостей. Таким образом, развитие технологий обнаружения синтетической речи становится не просто технической задачей, а важным аспектом поддержания безопасности и достоверности в цифровом мире.

В ходе исследований, модель Whisper, прошедшая тонкую настройку, продемонстрировала впечатляющую точность транскрипции, достигнув показателя Word Error Rate (WER) в 0.87% на наборе данных E.Voc. Этот результат свидетельствует о высокой способности модели не только распознавать речь, но и эффективно определять, является ли она синтезированной. Такая двойная функциональность, сочетающая в себе точное преобразование речи в текст и обнаружение искусственного происхождения аудио, открывает широкие возможности для применения в различных областях, где важна аутентичность и целостность информации. Низкий показатель WER указывает на то, что модель способна с высокой точностью интерпретировать даже сложные или зашумленные речевые фрагменты, что является ключевым фактором для надежного обнаружения синтетической речи.

Перспективные исследования в области обнаружения синтетической речи направлены на создание более устойчивых и универсальных методов, способных эффективно выявлять поддельные аудиозаписи, независимо от используемых технологий синтеза и степени их совершенствования. Помимо улучшения алгоритмов обнаружения, особое внимание уделяется разработке стратегий смягчения рисков, связанных с распространением синтетических медиа, включая методы верификации подлинности контента и инструменты для повышения осведомленности пользователей о потенциальных угрозах. Усилия в этом направлении должны быть направлены на создание систем, способных адаптироваться к постоянно меняющемуся ландшафту технологий синтеза речи и эффективно противодействовать злонамеренному использованию, обеспечивая тем самым целостность цифровой коммуникации и доверие к ней.

Непрерывное развитие технологий обнаружения синтетической речи имеет решающее значение для защиты от злонамеренного использования и поддержания доверия к цифровой коммуникации. По мере совершенствования методов создания реалистичных искусственных голосов, возрастает и риск их применения в мошеннических схемах, дезинформации и подделке доказательств. Разработка более эффективных алгоритмов обнаружения позволяет своевременно выявлять поддельные аудиозаписи, предотвращая потенциальный ущерб и укрепляя уверенность общества в достоверности цифрового контента. В условиях растущей зависимости от голосовых помощников, систем аутентификации и онлайн-коммуникаций, обеспечение их безопасности от манипуляций становится первостепенной задачей, требующей постоянных инвестиций в исследования и разработки в данной области.

Исследование демонстрирует, что даже в области автоматического распознавания речи, где алгоритмы претендуют на объективность, проявляется субъективность в определении ‘истинного’ и ‘ложного’. Модель, обученная предсказывать следующую лексему, неожиданно становится инструментом выявления искусственно созданных слов. Это напоминает о том, как часто мы ищем закономерности и смысл там, где их, возможно, нет. Как однажды заметил Ричард Фейнман: «Самый большой обманщик — это разум самого человека». Ведь в конечном итоге, система, выявляющая дипфейковые слова, лишь отражает наши собственные представления о языке и реальности, а не абсолютную истину. Данная работа подчеркивает, что надежды и страхи, закодированные в алгоритмах, формируют восприятие даже в таких, казалось бы, нейтральных областях, как обработка речи.

Что дальше?

Предложенный подход, использующий дообучение модели автоматического распознавания речи для выявления синтетических слов, интересен не столько технической изящностью, сколько констатацией банальной истины: любое моделирование реальности неизбежно становится отражением не самой реальности, а ожиданий тех, кто её моделирует. Попытка обнаружить «подделку» внутри потока информации — это всегда, в конечном счете, поиск несоответствия между тем, что должно быть услышано, и тем, что есть на самом деле. Вопрос в том, кто определяет, что «должно».

Очевидным ограничением является зависимость от качества обучающей выборки. Если «искусственная речь» будет достаточно хорошо имитировать паттерны «естественной», система неизбежно столкнется с проблемой различения, сводящейся к субъективной оценке «правдоподобия». Будущие исследования, вероятно, будут направлены не столько на усовершенствование алгоритмов, сколько на поиск новых метрик «неестественности», основанных на тонких психоакустических характеристиках речи, которые улавливают не логические ошибки, а эмоциональную неубедительность.

В конечном счете, стоит признать, что задача полной «защиты» от дипфейков — иллюзорна. Любая система обнаружения — это лишь временное препятствие на пути к всё более изощрённым способам манипуляции. Более продуктивным представляется не создание «анти-дипфейков», а формирование критического мышления, способного распознавать ложь не по техническим артефактам, а по несоответствию между словами и реальными мотивами говорящего. Ведь люди не принимают решения — они рассказывают себе истории о решениях.

Оригинал статьи: https://arxiv.org/pdf/2602.22658.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 16:42