Записки нервного рыболова
12 постов
12 постов



Pet project продолжает помаленьку развиваться... Пришла пора рабочих тестов :)
- Уникальное бесконтактное измерение длины и веса рыбы с помощью фотографии и эталонного предмета.
- Сохранение результата (фото, вес, длина) в цифровом формате, возможность делиться результатами.
- Современный подход — альтернатива устаревшим методам (весы, рулетка).
- Поддержка использования известных предметов (например, бутылка Coca-Cola) в качестве эталона.



Теории заговора почти всегда выигрывают в одном: им не нужно выдерживать проверку данными. Именно поэтому версии о «двойниках», «подмене» и прочих скрытых сценариях так живучи в публичном поле.
Они эмоционально заразительны, легко тиражируются и почти никогда не предъявляются к количественной верификации. Между тем в данном случае такая проверка возможна. Если вынести за скобки политические интерпретации, остается вполне формализуемая задача: биометрическая верификация 1:1 по фотографиям, сделанным в разные годы.
Именно в этой логике я и посмотрел на вопрос. Были выполнены попарные сравнения фотографий одного и того же публичного лица, относящихся к разным временным периодам, с использованием алгоритма распознавания лиц. Дополнительно приведена кривая зависимости FAR и FRR от порога score. Ее задача здесь сугубо методологическая: напомнить, что любая биометрическая система работает не в режиме абсолютной истины, а в режиме статистического решения, с ненулевыми вероятностями ошибок первого и второго рода.
Именно в этой логике я и посмотрел на вопрос. Были выполнены попарные сравнения фотографий одного и того же публичного лица, относящихся к разным временным периодам, с использованием алгоритма распознавания лиц. Дополнительно приведена кривая зависимости FAR и FRR от порога score. Ее задача здесь сугубо методологическая: напомнить, что любая биометрическая система работает не в режиме абсолютной истины, а в режиме статистического решения, с ненулевыми вероятностями ошибок первого и второго рода.
Первое наблюдение состоит в том, что матрица попарных сравнений демонстрирует высокую внутриклассовую схожесть. Средний score по выборке составляет около 95%, медиана находится на уровне 96%. Основная масса сравнений сосредоточена в диапазоне 90–99%, что соответствует ожидаемому поведению genuine-пар, то есть изображений, принадлежащих одной и той же идентичности. Иначе говоря, на уровне самой метрики сходства данные не демонстрируют признаков резкого распада на несовместимые биометрические профили.
Второе наблюдение связано с temporal drift. По мере увеличения временного интервала между снимками similarity систематически снижается. Для систем face recognition это нормальное и хорошо ожидаемое поведение. На score влияет не только собственно возрастное изменение внешности, но и совокупность фотографических факторов: поза, выражение лица, освещение, разрешение, компрессия, качество выделения лица. Поэтому уменьшение сходства на длинных временных интервалах само по себе не может быть интерпретировано как аргумент в пользу гипотезы о разных людях. Напротив, именно такой дрейф и является стандартным режимом работы реальных FR-систем на длинных временных дистанциях.
Третье и, возможно, наиболее существенное наблюдение состоит в отсутствии дискретной кластерной структуры. Если бы в наборе действительно смешивались изображения двух или более разных лиц, разумно было бы ожидать иной организации similarity-матрицы: сравнительно высокое сходство внутри отдельных групп и систематически более низкое между ними. Такая блочная структура была бы естественным статистическим индикатором смеси нескольких идентичностей. В рассматриваемом случае данные выглядят иначе. Сходство убывает преимущественно плавно и непрерывно, а сама матрица лучше описывается моделью возрастного и фотографического дрейфа, чем моделью перехода между разными субъектами.
Иногда на этом месте сторонники конспирологических версий указывают на отдельные пониженные значения score и предлагают считать их «доказательством». Но с технической точки зрения такая трактовка крайне слаба. Для практических систем распознавания лиц низкие значения внутри genuine-класса гораздо вероятнее объясняются image-domain variability, чем сменой идентичности. Один неудачный кадр, снятый под иным углом, при жестком свете, с низкой резкостью или агрессивной компрессией, способен заметно снизить similarity даже тогда, когда речь безусловно идет об одном и том же человеке. Поэтому единичные просадки нельзя интерпретировать вне общей структуры распределения.
Разумеется, необходима и методологическая осторожность. Подобный анализ не является исчерпывающим доказательством. Для еще более строгой проверки потребовались бы множественные изображения на каждый временной интервал, сравнение на нескольких независимых FR-моделях, анализ эмбеддингов и контрольное распределение impostor-пар. Но эта оговорка не меняет главного. Уже на текущем уровне видно, что имеющиеся данные не дают статистически убедительных оснований в пользу версии о нескольких разных людях.
Именно здесь проходит граница между техническим анализом и конспирологией. Технический анализ начинается с вопроса о том, как устроены данные: какова внутриклассовая вариативность, есть ли межклассовое разделение, наблюдается ли кластеризация, каковы ограничения алгоритма и вероятность ошибки. Конспирология, напротив, обычно начинается там, где данные перестают быть обязательными. Она питается исключениями, игнорируя распределения, и превращает отдельные аномальные кадры в универсальное объяснение. Но статистика так не работает.
