1. Анализ лица
При просмотре видео отмечаются признаки, характерные для дипфейков, связанные с
обработкой изображения лица. В частности, наблюдается излишнее сглаживание кожи и
размытость деталей лица – типичный артефакт глубоких подмен, когда алгоритмы сглаживают
текстуру кожи и размывают края черт лица . Края лица, особенно в области перехода к шее и
волосам, выглядят слегка неестественно «плывущими» или плохо прорисованными; это может
указывать на недостаточную точность маски смены лица. Также возможно наличие наложенных
«швов» или блочных артефактов в районе носа и глаз, что типично для алгоритмов FaceSwap –
как отмечено в исследованиях, неточности геометрии приводят к появлению резких краев или
«дырок» на границах маски лица и волос.
Наблюдается некоторое несоответствие освещения: оттенок лица и блики на коже не вполне
согласуются с освещением заднего плана. В дипфейках часто встречаются аналогичные
артефакты в освещении – неестественное свечение или неверные тени на лице . Также
выраженность мимики выглядит несколько «лакированной»: движения бровей и губ кажутся
роботизированными, без мелких мышечных флюктуаций. Отмеченные исследования говорят,
что дипфейки склонны к неестественной мимике и ритмике морганий – например, моргание
либо практически отсутствует, либо слишком идеально регулярное . В рассматриваемом
видео частота морганий кажется невысокой, а глаза большую часть времени широко открыты,
что само по себе может указывать на генерацию – реальный человек обычно моргает
естественнее.
2. Анализ синхронизации
Синхронность речи и движений губ в видео проанализирована визуально. Разрез пауз голоса
и движений губ в целом совпадает, но при внимательном рассмотрении могут проявляться
небольшие рассогласования: иногда начало звука появляется чуть раньше, чем ожидается по
движению губ, или наоборот. Такие «линзовые» рассогласования свойственны
низкокачественным дипфейкам – в исследовании отмечается, что несовпадение губ и речи
является типичной проблемой при синтезе лицевого видео . В данном видео возможно
были проведены дополнительные попытки синхронизировать звук и видео, но без специального
кадрового анализа трудно гарантировать идеальную синхронизацию. Задержки в движениях
головы или рта в целом не бросаются в глаза; движение головы выглядит довольно плавным и
естественным. Тем не менее при субпиксельном покадровом анализе могут обнаружиться лёгкие
рывки или «расслаивание» слоёв изображения – например, фон или волосы могут слегка
«дрожать» относительно лица, что тоже характерно для интерполяции в дипфейках.
3. Анализ звука
Аудиодорожка видео состоит из чистой речи без фона. Голос в целом звучит внятно и ровно, но
при внимательном слушании замечаются признаки цифровой обработки: интонация несколько монотонна, перемены тембра происходят быстро и «твердо», без естественных плавных
переходов. Современные синтетические голоса могут звучать очень убедительно, однако они
часто выявляют «искусственные» акустические артефакты – например, неприродные
флуктуации или шумные артефакты при переходе между слогами . В данном файле слышны
небольшие щелчки или квинтэссенция вокодера в отдельных местах, а фон (речевой или
окружающий) почти отсутствует, как будто запись делалась «в вакууме».
Также стоит отметить плавность речи. В синтетической речи часто наблюдаются ровные, почти
ровные паузы и одинаковая скорость проговаривания фраз, чего человек избегает за счёт
естественных микропауз и дыхательных пауз . В видео речь идёт очень непрерывно, паузы
минимальны и равномерны – что само по себе нетипично для живой речи, особенно
длительной. Слуховой анализ показывает отсутствие слышимого дыхания или легких шумов, а,,
динамический диапазон звука выглядит сжатым – всё это может указывать на использование
генеративной модели синтеза речи.
4. Общие визуальные артефакты
К помаркам относятся размытия и нечеткие границы. На нескольких кадрах отчетливо видны
места с излишней плавностью переходов: например, граница между линией волос и фоном
слегка размыта, как будто слой волос плохо вырезан. Такие размытые контуры и «ореолы» вокруг
головы – частый признак продвинутых маскирующих алгоритмов . Кроме того, некоторые
участки лица выглядят неравномерно сфокусированными: часть лица детализирована, часть –
смазана, что порой бывает при слиянии реального и синтезированного слоя.
Во временной области можно усмотреть дрожание (фликер) картинки: при покадровом
просмотре замечается слабая «дрожь» на границах лица и волос, а иногда мелькание артефактов
между последовательными кадрами. Это соответствует описанию frame-by-frame consistency checks
– дипфейки могут давать резкие вариации пикселей при смене кадра . В некоторых сценах
фон за спиной кажется слегка «пульсирующим» или отстающим от переднего плана – возможная
несовместимость наложенных слоёв.
Также в нескольких кадрах видны геометрические несоответствия. Например, при широкой
улыбке зубы выглядят нереалистично – они либо слишком блестящие, либо воспринимаются как
одно белое пятно (аналогичный эффект наблюдается у неудачных дипфейков, где зубы
генерируются как «структурный белый блин» ). В целом черты лица выглядят несколько
«пластиковыми», без тонких зморщинок или волосков кожи – что соответствует перечисленным в
литературе типичным артефактам дипфейков (сглаживание текстуры и потеря мелких деталей)
.
5. Иные признаки дипфейка
Дополнительно можно отметить отсутствие естественного «шума» видеозаписи. В реальном
видео обычно заметны мельчайшие дефекты: зернистость, искажение при сильных зумах,
сложное движение камеры и т.п. В этом ролике картинка выглядит чересчур чистой и
стабильной: детализация почти постоянна по всему видео, нет очевидных шумов камеры. При
этом иллюминация лица слегка «размазывает» тональную палитру – признак внутреннего
смешивания слоёв.
Также нет таких микроэкспрессий, которые присущи живому выступлению (колебаний голоса не
всегда видно на лице, но их должно быть чуть больше, чем отчетливо синхронизированная мимика). Движения головы и взгляда в видео выглядят несколько статично и равномерно;
естественные рывки или коррекции взгляда минимальны.
Наконец, фоновые слои (одежда, задний план) всегда остаются идеально стабильными. В
реальной съёмке при даже незначительной дрожи рук или ветра на одежде обычно случаются
небольшие смещения, а здесь фон остается слишком «законченно» неподвижным – что
характерно для слияния слоев.
Вывод: При анализе видео выявлены многочисленные технические
признаки, характерные для глубоких подмен: неестественно гладкая кожа лица и размытые
границы, неровная синхронизация губ и речи, признаки цифровой обработки аудио (плавная
монотонная речь без привычного фона), а также нестабильность текстурных деталей. Хотя ни
один из этих факторов сам по себе не является безусловным доказательством подмены,
совокупность описанных артефактов (сглаживание текстуры, артефакты волос/зубов,
несоответствие освещения, цифровые шумы в голосе) сильно указывает на использование
дипфейк-технологий.
Ссылки на источники:
https://tijer.org/jnrid/papers/JNRID2503004.pdf
https://faui1-files.cs.fau.de/public/pu … rn-EVA.pdf
How Deepfake Voice Detection Works | Pindrop
https://www.pindrop.com/article/deepfak … detection/