Стандартные отклонения (8)
Продолжаем знакомиться с книгой Гари Смита.
Все части выложены в серии.
Как важно не отбрасывать неудобные данные
Коротко для ЛЛ: Когда в собранных данных встречаются экстремальные значения, у исследователя возникает желание их убрать. Это следует делать лишь в самых обоснованных случаях. Иначе можно пропустить что-то важное.
Бывает так, что в данных для анализа встречаются места, выходящие из ряда вон, так что у исследователя возникает соблазн исключить их. Но правильно ли так делать?
В мире хватает гуру, продающих свои прогнозы на, скажем, биржевые курсы. Оставим в стороне вопрос, почему они сами не спекулируют, а советуют заниматься этим другим людям. Но спросим себя, насколько успешны бывают их прогнозы, если дела идут нетипичным образом. Они бодро предсказывали дно в октябре 1987 года, а потом случился Чёрный понедельник, когда Доу Джонс рухнул на 23% за день. За ним последовал Ужасный вторник, когда фондовый рынок оказался на грани коллапса. Кончилось тем, что ФРС пришлось вмешаться, снизив процентную ставку и предоставив ликвидность для тушения пожара на рынках. Комиссия, которая впоследствии разбиралась с этим событием, рекомендовала создать специальный регулирующий орган, а также унификацию и синхронизацию ведущих финансовых площадок.
Итак, с этим отклонением разобрались, его учли. Однако бывает и так, что неудобные данные просто выбрасывают из анализа. В восьмидесятых годах прошлого века обнаружилось, что программное обеспечение по анализу измерения уровня озона над Антарктикой не учло большое количество очень низких показаний, поскольку они не сходились с тем, что было измерено десятилетием ранее. Повторный анализ с учётом всех данных позволил установить наличие зловещей дыры в озоновом слое, которая образовалась в течении нескольких лет, так что в период с 1979 по 1985 год его толщина уменьшилась на 40%.
Ещё одним трагическим примером игнорирования не укладывающихся в привычный шаблон данных может послужить неучёт отказов кольцевых уплотнителей в конструкции ускорителей космических челноков НАСА, что привело к катастрофе Челленджера 1986 года. Никто не ожидал, что они потеряют свою гибкость при низкой температуре. Потом уже знаменитый физик Ричард Фейнман продемонстрировал этот факт во время трансляции разбирательств, окуная уплотнитель в холодную воду.
Многие слышали, что на Востоке не любят число 4 по причине созвучности его слову «смерть» в ряде восточных языков. Нашлись учёные, которые стали утверждать, что по четвёртым числам каждого месяца у американцев японского и китайского происхождения чаще случается инфаркт. Если взять статистику этого «баскервилльского исследования», то такой зависимости не обнаружится. Как же они пришли к этому выводу? А очень просто – они брали в рассмотрение только лишь некоторые сердечно-сосудистые заболевания. Если учесть все их виды, зависимость пропадает. Следует заметить, что ведущий автор делал «по уму» в двух других своих трудах и взял совсем другую методику в третьем. Рецепт борьбы с подобным недобросовестным обращением с данными прост: берём и воспроизводим исследование с данными за пределами авторского диапазона с 1989 по 1998 годы. Что и сделал наш автор. Он не обнаружил роста числа инфарктов в окрестности четвёртого числа ни с данными, собранными до 1988 года, ни после 1999 года.
Можно понять, зачем авторы избавляются от данных, не подходящих под их теорию. Часто мы даже вообще не узнаём об этом. Каждый хочет публиковаться и нуждается в значимой статистике. И каждый искренне верит в истинность своей теории. А из этого следует, что противоречащие свидетельства можно бы и проигнорировать.
В 1881 году у Джима Хогга родилась дочь, которую он назвал в честь героини написанной его братом поэмы Аймой. Ima Hogg звучит не самым приятным образом для обладательницы этого имени (i am a hog – я свинья...). Но дочь губернатора Техаса, разбогатевшего на нефти, нельзя было назвать несчастливой. Её называли Первой леди Техаса, и не зря.
А как насчёт счастливых (и несчастливых) инициалов? Нашлись социологи, которые решили прояснить и этот вопрос. Они пришли к выводу, что люди с позитивными инициалами (ACE, VIP…) живут в среднем дольше, чем с негативными (PIG, DIE…). В своё сравнение они взяли 12 позитивных и 19 негативных инициалов. Почему не поровну и почему не круглые числа? Вполне возможно, что иначе статистика бы не сошлась с их теорией. Правда, о теории здесь говорить трудно, поскольку научного объяснения обнаруженной ими взаимосвязи не имеется. И здесь наш Гари решил воспроизвести исследование. Он обнаружил, что если сравнивать по годам рождения, то взаимосвязь пропадает. Также не удалось её обнаружить при включении в сравнение данных за всё столетие. В заключение главы автор советует:
Однако лучшее правило для исследователей: если сомневаетесь, не опускайте ненужное. Лучшее правило для читателей: с осторожностью относитесь к исследованиям, в которых данные отбрасываются.
Подозрения должны возникать при виде теории, в которую с самого начала трудно поверить. Когда есть в наличии большой массив данных для анализа, может возникнуть соблазн нарыть в нём что-то интересное. Эрнест Абель и Майкл Кругер из Университета Уэйна стали утверждать, что если у человека непопулярное имя, то этот негатив скажется на его продолжительности жизни. А кто-то нашёл, что у студентов, чья фамилия начинается на C или D, в среднем хуже успеваемость. По-видимому, воодушевясь этой находкой, Абель и Кругер сообщили о том, что бейсболисты, чьё имя начинается с D, умираютв среднем на 1,7 года раньше, чем те, чьё имя начинается с последующих букв алфавита.
Среди букв у нас явно есть более и менее предпочтительные. Когда-то компания Пепси запустила тест: они налили свой напиток в стакан с буквой М на нём, а кока-колу – в стакан с буквой Q, и давали людям выпить, а потом оценить, чей вкус лучше. Пепси победил, о чём они незамедлительно раструбили. Но потом свой тест провела Кока-кола, которая поменяла содержимое стаканов местами. И снова победил стакан М, теперь уже с кока-колой.
Может быть, и Абель с Кругером нашли что-то серьёзное? Увы, если ознакомиться с их методикой, сразу закрадываются сомнения. Если имя двойное, они брали лишь самую первую букву. Фамилию они тоже не учитывали. Ну а год рождения для своей выборки они взяли из диапазона между 1875 и 1930 годами. Почему так? Наверное потому, что без этих искусственных ограничений им не удалось бы найти статистически значимую разницу. На букве D эти парни не остановились, и выпустили исследование о зависимости числа самоубийств в бейсбольной лиге от месяца рождения самоубийцы. Они обнаружили пик в августе. Однако после исправления ошибок в их анализе разница по месяцам теряла статистическую значимость. Конечно: если взять троих июльских самоубийц и записать в август, цифры станут красивей. Подтвердилась простая логика, вернее её отсутствие: теоретического обоснования падения числа самоубийств в июле и сентябре на фоне августовского пика не существует.
Как видим, при наличии достаточно большого массива данных, в них всегда можно нарыть что-то интересное. Но и в маленьких массивах тоже есть шанс для харкинга или подгонки данных, когда небольшое количество наблюдений объясняют большим количеством объясняющих переменных. Если мы предсказываем Y через X и имеем всего лишь два наблюдения, мы можем просто начертить прямую через эти две точки и получим идеальное предсказание. Часто этим приёмом, который называется переобучение, пользуются для предсказания результатов выборов.
Так, Алан Лихтманн построил модель, которая корректно предсказала победителя народного голосования в каждых президентских выборах в США, начиная с 1984 года. Впечатление об этом достижении поблекнет, если узнать, что в своей модели он использовал аж 13 ответов на вопросы в качесте объясняющих переменных. Да и методы его тоже были сомнительными. Народное голосование 2016 года Трамп проиграл, а Лихтманн пророчил ему победу. Да, он предсказал победу Байдена в 2020 году, но и тогда не обошлось без мухлежа: на вопрос «имеет ли претендент харизму» он ответил «нет», в то время, как мало кто откажет в ней Трампу.
Политолог Гельмут Норпот давал Трампу 91-95% шанс на победу в выборах 2020 года, несмотря на результаты опросов. У него было всего три переменных, но он крутил ими, как хотел. Например, результаты праймериз он брал с президентских выборов, вплоть до 1952 года, потом переключился на Нью-Гемпшир, а начиная с 2008 года присовокупил ещё и Южную Каролину. Подгон данных? Нет, не слышали. Проигрыш Трампа в 2020 году Норпот списал на «идеальный шторм» текущих событий, будь то пандемия ковида, BLM или экономический кризис.
В 2024 году модель Норпота пророчила победу Камале Харрис с вероятностью в 75%. Я не читал, что написал там Норпот в своё оправдание после того, как снова не угадал. Можете сделать это сами. Наверняка, он придумал что-то правдоподобное.









