Природа чуши, скептицизм⁠⁠

«Ложь облетит полмира, пока правда успеет натянуть штаны», — Корделл Халл, госсекретарь Франклина Д. Рузвельта. Фраза очень актуальная, особенно в настоящее время, когда фейки, ложные новости, яркие заголовки, красивые графики и статистика в целом становятся инструментами манипуляции.

В книге К. Бергстрома и Д. Уэста «Полный бред! Скептицизм в мире больших данных» раскрываются основные источники недостоверной информации, инструменты выявления и подходы к защите от дезинформации.

Например, «числа и чушь»

Часто мы встречаем подобные рекламные высказывания: «На 25% меньше жира, чем в среднем среди ведущих брендов». Информация в 25% на первый взгляд кажется ценной, но стоит задать вопросы: «О каких брендах идет речь?», «Точно этот продукт сравнивался с такими же?», «Есть ли другие вещества в продукте, о которых стоило бы волноваться?» — и понимаешь, что эта информация — на самом деле просто бессмысленное число.

Еще пример, «ошибка выборки»

Когда мы читаем новости о том, что были проведены исследования на группе населения, сразу стоит обратить внимание на размер выборки. Исследования, в которых принимали участие 50 человек, не могут быть релевантными. Но это еще не все. Как отмечают авторы книги, «Там ли мы ищем?». Большая часть американских исследований проводится среди людей, которых называют WEIRP: W — западные, E — образованные, I — городские жители, R — богатые, D — демократичные. И да, это студенты. Насколько допустимо экстраполировать эти выводы на другие группы населения?

Ну и еще один пример, «полная чушь в больших данных»

В машинном обучении люди предоставляют компьютеру обучающий набор данных. Именно тут совершаются катастрофические ошибки. В конце 2016 года исследователи Сяолинь У и Си Чжан опубликовали статью «Автоматическое выявление преступников на основе автопортретов». Они утверждали, что их программа способна отличать преступника от невиновного человека с точностью почти 90%. Они собрали более 1800 фотографий китайцев в возрасте от 18 до 55 лет. Около 1100 из них не были преступниками, и их фото были взяты из интернета и социальных сетей. Фотографии осужденных были предоставлены отделениями полиции и взяты из официальных документов. Уже на этом этапе видны серьезные проблемы с источниками информации.

Алгоритм обнаружил, что у преступников меньше расстояние между глаз, меньше угол между носом и уголками рта, более искривлена линия верхней губы. Алгоритм вместо того, чтобы определять, кто преступник, научился определять, кто улыбается! Проблема заключалась в обучающих данных: они поступают из реального мира, в котором много человеческих предрассудков.

Это лишь некоторые примеры из данной книги.

Авторы предлагают следующие способы выявления чуши.

• Задавайте вопросы об источнике информации (Кто мне это рассказывает? Откуда они это знают? Что мне пытаются продать?).
• Избегайте несправедливых сравнений.
• Помните правило: «Если что-то кажется слишком хорошим или слишком плохим, чтобы быть правдой, то, скорее всего, это неправда».
• Учитывайте несколько гипотез, перепроверяйте источники.
• Используйте обратный поиск изображений (такую возможность предоставляют несколько поисковых сетей. Вы загружаете картинку и узнаете, где в интернете можно найти это изображение.
• Изучайте историю сайта, с которого вы берете информацию.
• Сокращайте объем потребляемой информации.