График + Наука

Теги

С этим тегом используют:

Все теги

Рейтинг

Автор

Сообщество

Тип постов

любые текстовые картинка видео [мое] NSFW

Период времени

за все время неделя месяц интервал

25 постов сначала свежее

Vladimir98

5 лет назад

Лига образования

Как лгать с помощью статистики⁠⁠

Статистика — мощный инструмент. В умелых руках она творит чудеса! Но с её помощью можно также легко обмануть людей. Какие приёмы маркетологи и ведущие новостей используют, чтобы ввести нас в заблуждение?

Начинать ось y не с нуля

Самый распространённый маркетинговый приём! Посмотрите на этот график пользователей твиттера:

Выглядит довольно здорово: последний столбик выше первого в 3 раза! Вот только отсчёт по оси y начинается не с 0, а со 100. Посмотрите на исправленный график:

Уже не так впечатляет, не правда ли? Видимо, твиттер в тот период нуждался в инвестициях

Вот ещё более впечатляющий пример. Chevrolet хвалится тем, сколько их внедорожников всё ещё работают, спустя 10 лет. Судя по графику, Nissan до них далеко: их столбик меньше раз в 10! Но если мы внимательно посмотрим на ось y…

Она начинается с 95%! И исправленный график показывает всю абсурдность рекламы. Так ли страшны 3% за 10 лет?

Подобным грешат и политики:

Разница есть, но она сильно преувеличена

Иногда начинать отсчёт не с нуля — нормально

Как ни странно, солгать можно и с помощью обратного приёма. Если в графике есть какая-то временная зависимость, то есть мы хотим посмотреть изменение параметра за какой-то срок, гораздо информативнее будет начать отсчёт не с нуля! Иначе мы можем вообще не увидеть изменений. Так, например, выглядит мировой финансовый кризис, если показать полный график:

Очевидно, кризис — в головах! Но если посмотреть на график поближе, становится ясно, что что-то произошло:

Также имеет смысл брать не весь доступный временной отрезок, а лишь его актуальную часть. Приведу пример со статистики своей группы. Если смотреть на график подписчиков, явно видно, когда выходили посты и насколько они были успешны:

Но если я включу во временной отрезок самый успешный пост, его величина сведёт эти колебания на нет!

Если вы хотите показать, насколько ваша страна богата, просто покажите график среднего дохода, который начинается в 14 веке. Рост будет невероятный!

Неподходящие графики

Люди изобрели целую кучу графиков! Гистограммы, круговые диаграммы, ящики с усами (да-да, и такое есть). Какой использовать для визуализации данных?

Зависит от того, чего вы хотите добиться. Например, такой график позволит людям легко понять соотношение данных:

А такой график во-первых, покажет ваши специфические вкусы, а во-вторых, запутает людей:

Из-за наклона соотношения площадей искажаются. Информация (та же самая, что на графике выше) воспринимается гораздо хуже. Можно довести график до абсурда, наклонив его ещё сильнее и повернув, скажем, зелёной стороной. Будут ли тогда вообще видны остальные части?

Используйте графики правильно:

Надеюсь, теперь вы не попадётесь на самые банальные уловки маркетологов. Вот вам напоследок шедевральная диаграмма Венна с использованием банана:

Показать полностью 13

[моё] Статистика Наука Научпоп Маркетинг Человек наук Длиннопост График

165

trazi

6 лет назад

Наука | Научпоп

"Сланцевая" и традиционная нефть в США⁠⁠

Национальное Бюро Экономических Исследований в США на днях опубликовало исследование о чувствительности добычи нетрадиционной ("сланцевой") и традиционной нефти в США к рыночным ценам на нефть. Лично я далёк от мысли что тема чувствительности кому-то тут интресна, зато в исследовании присутствует ряд базовых параметров для скважин обоих типов нефти. Учитывая, что на тему "сланцевой" нефти существует множество спекуляций в СМИ, особенно интересно взглянуть на данные в научном исследовании.

Для начала, динамика добычи нефти со среднестатистической скважины обоих типов с момента начала эксплуатации скважины. Оранжевым - скважина на "сланцевую" нефть, черным - традиционная. По вертикали - добыча скважины (баррели в сутки), по горизонтали - месяцы с момента ввода в эксплуатацию:

"Сланцевая" и традиционная нефть в США Моё, Наука, Нефть, Сланцы, График, США, Длиннопост

Что можно отметить:

1. Начальная добыча скважины на "сланцевую" нефть примерно в 7 раз выше традиционной - 315 баррелей в сутки (далее - б/д) против 45 б/д, однако со временем разрыв сильно сокращается. Спустя 10 лет (120 месяц), добыча традиционной нефти около 5 б/д, "сланцевой" - около 10 б/д.

2. Один из важнейших параметров это накопленная добыча скважины, то есть сколько нефти скважина добудет за свою жизнь. Эта величина на графике имеет геометрический смысл площади под кривой добычи. Видно, что накопленная добыча со скважины на "сланцевую" нефть в несколько раз выше традиционной.

3. Быстрое снижение добычи со скважин на "сланцевую" нефть это довольно известный факт. Однако, в противовес интуитивным выводам, он лишь уменьшает разрыв в накопленной добыче и скважина на традиционную нефть всё равно за свою жизнь получит в несколько раз меньше нефти.

4. Флуктуации после 11 лет эксплуатации можно отнести к статистическим артефактам.

5. Цифры цифрами, однако нужно помнить, что скважины на традиционную нефть бывают разные. Где-то лучше, где-то хуже. Поэтому нельзя распространять сравнение с традиционными скважинами в США на всю мировую традиционную нефтянку. Для сравнения, начальная добыча новых скважин Лукойла составляет около 240 б/д, что намного лучше традиционных скважин в США.

Далее, динамика начальной добычи скважин по времени. То есть сколько добывали за первый месяц новые скважины в 2000 году, в 2001 и так далее. Оранжевым - скважины на "сланцевую" нефть, чёрным - на традиционную:

Как видно, разрыв между "сланцевыми" и традиционными скважинами стабильно увеличивался. В 2015 году новая скважина на "сланцевую" нефть добывала около 400 б/д, традиционная - около 45 б/д.

Напоследок, график снижения добычи со временем, где начальная добыча принята за 100%:

Из-за особенностей добычи (гидроразрыв пласта для увеличения проницаемости) скорость снижения добычи у скважин на "сланцевую" нефть выше. Спустя 10 лет после ввода в эксплуатацию добыча скважины на "сланцевую" нефть составляет около 5% от начальной, традиционной - около 12%. Однако, из-за огромного преимущества скважины на "сланцевую" нефть в начальной добыче, скважина на традиционную нефть в итоге оказывается в проигрыше.

Примечания trazi:

1. Кавычки у "сланцевой" нефти применяются чтобы отразить отличия от нефти из горючих сланцев, с которой её часто путают. То, что добывают в США, это обычная нефть из обычного коллектора (песчаник, известняк). Нетрадиционным он прозван из-за сверхнизкой проницаемости и в специализированной литературе используется термин "нефть низкопроницаемых коллекторов" (tight oil). Однако для простоты и понимания я решил воспользоваться более привычным, но неверным термином, использующимся в отечественных СМИ, добавив кавычки (иногда этот ход применяется в полуспециализированной литературе).

2. Использованные месторождения (НГБ) нетрадиционной нефти можно увидеть на стр.4 (оранжевым). Как видно, это Permian, Eagle Ford, Bakken и Niobrara.

Показать полностью 3

[моё] Моё Наука Нефть Сланцы График США Длиннопост

trazi

6 лет назад

Наука | Научпоп

Измены среди мужчин и женщин⁠⁠

На эту тему существует большое количество спекуляций и неподкреплённых утверждений, в том числе и у нас на пикабушечке. В поисках истины я заглянул в исследования и государственную статистику, чем и хотел бы поделиться. Учитывая, что данные разнятся в зависимости от страны, давности, формулировки вопроса, то у меня не получилось сформировать два простых числа. Часть данных можно свести к такому графику:

Как видно, мужчины изменяют чаще, но принципиальных отличий между полами в вопросе измен нет. Кто повнимательнее, может предположить, что разрыв между М и Ж сокращается и скорее всего так и есть.

На следующем графике доля тех, кто изменял в предыдущем или текущем браке, в динамике за 1990-2010. Слева М, справа Ж:

Женщины догоняют.

Измены по возрастам распределены неравномерно. Из-за культурологических особенностей разных поколений (например, беби-бумеры в США более развратные чем современная молодёжь), чисто возрастных и т.п. Относительно возраста (по горизонтали) вероятность измен такова:

Это исследование старовато, но лично я думаю, что пик у М в основном детерминирован возрастом и форма кривых применима и к современному обществу. А величина повыше, конечно.

Главные предикторы измен это недовольство браком, высокий доход и финансовая зависимость от партнёра (это не описка, именно зависимость). Прослеживается некоторая обратная корреляция и с религиозностью, что неудивительно. Три линии на графике ниже это вероятность измен для тех, кто не очень счастлив в браке, вполне счастлив и очень счастлив. По горизонтали отложена религиозность (1 = мин, 9 = макс):

Так же можно отметить какое-то фантастическое влияние возраста вступления в брак (по горизонтали) на вероятность измены (по вертикали):

Разведённые респонденты отвечают аналогично - пик в 20%, у М ожно ожидать 25%. На графике ниже по горизонтали отложен возраст, по вертикали - доля респондентов, занимавшихся внебрачным сексом. Розовая линия - в браке на текущий момент, красная - уже нет:

Кстати, из тех кто изменяет, мужчины попадаются примерно в два раза чаще - женщинам удаётся утаивать свои походы "налево".

https://www.bloomberg.com/graphics/infographics/more-us-wome...

http://www.bbc.com/news/magazine-18233843

http://www.asanet.org/journals/CS/Jun15ASRFeature.pdf

https://www.researchgate.net/publication/51213521_Infidelity...

https://ifstudies.org/blog/americas-generation-gap-in-extram...

https://i.pinimg.com/originals/4c/5c/da/4c5cdab1456e51c3c313...

https://www.researchgate.net/profile/David_Atkins2/publicati...

Показать полностью 6

[моё] Измена Отношения Брак (супружество) График Наука Длиннопост

Siarshai

7 лет назад

Наука | Научпоп

Пульс "Лучшего", статистика и статистические заблуждения. Часть 3.⁠⁠

(В предыдущих сериях я описал способ скачивания данных о постах с Пикабу, показал графики зависимости количества постов от их рейтингом и график количества постов с определёнными тегами в зависимости от времени, а также обещал рассказать про распространённое статистическое заблуждение, связанное с интерпретацией таких графиков)

Но для начала ещё парочка графиков: зависимость рейтинга поста от времени его публикации. График зависимости рейтинга от дня недели:

Мобильная версия с читаемым шрифтом

Пульс "Лучшего", статистика и статистические заблуждения. Часть 3. Пикабу, Статистика, Наука, График, Лучшее, Программирование, Длиннопост

Полная версия с мелкими деталями (откройте в отдельном окне на компьютере):

Графики количества постов и среднего рейтинга поста в лучшем на будних днях:

В целом результаты моего исследования снова сходятся с результатами исследования ponyuh и графиками webkitten:

1) Наблюдается чистенькая циклическая зависимость количества постов от времени. Посты, созданные между 13 и 15 часами чаще всего достигают лучшего, и, вероятно, их просто больше, плюс постов стабильно много с 15 до 19. Оно и логично, в 4 утра мало желающих что-нибудь запостить. Расхождение с красивой синусоидой между 16и 20 часами наблюдается по всей видимости из-за распределения читателей Пикабу по России: когда большинство из Москвы и Питера уже отстрелялось, пикабушники из Владивостока только расчехляют длиннопосты.

2) В субботу и воскресенье наблюдаются два пика - утром и вечером. Видимо, первый пик - это посты которые пилили в день до этого до 3 ночи, и которые решили оставить на следующий день, а второй - посты, которые пилили днём в выходной день. В целом же лучшего достигают лишь чуть меньше постов, чем на буднях.

3) На удивление, наибольший рейтинг имеют посты созданные на буднях в 7 утра. Второй наилучший период, чтобы пост поднялся наверх - с 9 до 11 часов. Третий - с 13 до 15. Эти пики очень подозрительно совпадают со временем, когда большинство людей в московском часовом поясе соответственно, встают, приезжают на работу и обедают. Можно даже интерпретировать время с 18 до 20, как время, когда большинство людей возвращаются с работы, но этот пик уже намного слабее.

4) Щедрее всего люди раздают плюсы в среду и четверг утром. Чуть хуже - в понедельник утром. На выходных лучше не поститься! Средний рейтинг заметно меньше. Хоть свободного времени для написания поста больше всего на выходных, уже готовый пост лучше оставить до будней. Как видно из графиков, пикабушникам есть чем заняться, кроме как читать ваши творения.

Чисто ради интереса посмотрим на график рейтинга в зависимости от дня месяца, когда создан пост, и убедимся, что в среднем, раз выходные и праздники накладываются друг на друга, график держится примерно на одном уровне:

Однако бдительные читатели заметят, что мои графики всё же отличаются от графиков ponyuh. Скажем, на его графиках по субботам постов немного больше среднего, а у меня немного меньше. Плюс, на моём графике присутствует подозрительный пик рейтинга в 7 утра. Тут и настало время рассказать, где я вас немного обманул.

Дело в способе создания выборки данных (как вы скорее всего не помните, я скачивал 15 страниц лучшего), а имя этому способу статистической манипуляции - ошибка отбора (selection bias). Ошибка (или намеренное искажение) заключается в том, что фильтрация данных перед использованием очень часто влияет на её статистические показатели.

Примеры:

1) Самый простой пример происходит из известного анекдота: "Интернет-опрос показал, что 1000 из 1000 российских семей пользуются интернетом". Это предложение и кажется нам смешным, потому что даже незнакомому со статистикой человеку очевидно, что сам способ создания опроса (размещение в интернете) предрешил его исход. Но систематическая ошибка отбора далеко не всегда так заметна.

2) Школа А расположена в центре города, в престижном районе, а школа Б - в обычном спальном районе. После проведения ЕГЭ оказалось, что учащиеся школы А написали экзамен в среднем на 10 баллов лучше учащихся школы Б. Означает ли это, что в А лучше учителя? Стоит ли только ради образования своего ребёнка переезжать в центр? Может быть, но всё далеко не так однозначно. Дело в том, что само их географическое положение предрешает, что в школу А будут ходить дети родителей, которые в среднем чаще имеют высшее образование и лучше следят за питанием и развитием своих отпрысков. Чтобы отследить именно положительный эффект школы, следует провести два теста, до и после, а лучше несколько, в ходе обучения.

3) Один из примеров искусственного создания ошибки отбора: если из школы А в предыдущем примере будут дополнительно "убеждать" переводиться детей, про которых ясно, что ЕГЭ они хорошо не напишут.

4) Также такое возможно при проведении недобросовестных научных экспериментов. Например, если создатель лекарств для снижения веса хочет "доказать" эффективность своего препарата, он может набирать контрольную группу на улице, а тестовую - в спортзале. Тем самым он заранее обеспечивает желание тестовой группы сбрасывать вес.

В моём же случае "средний рейтинг больше всего у постов, которые созданы около 7 утра" не равно "средний рейтинг постов, достигших "Лучшего", больше всего у постов, которые созданы около 7 утра". "Средний рейтинг больше всего у "Лиги синего бобра"" не равно "средний рейтинг постов, достигших "Лучшего", больше всего у "Лиги синего бобра"". Допустим, на Пикабу есть 1000 постов с тегом А и 1000 постов с тегом Б. 500 постов А имеют рейтинг 100 каждый (не в Лучшем) и 500 - рейтинг 300 (в Лучшем). 950 постов Б имеют рейтинг 0 (не в Лучшем), 50 - рейтинг 1000 (в Лучшем). Наивный анализ Лучшего показал бы, что Б постят в 10 раз чаще, и рейтинг у таких постов в 3 раза выше, тогда как в реальности происходило бы обратное. Ещё раз, постоянная бдительность!

Значит ли это, что мой анализ постов ничего не стоит? Ну... вряд ли. Как я уже упоминал, результаты большей частью совпадают с результатами ponyuh. Да и в существовании тегов, которые стабильно либо летят на дно, либо поднимаются в самый топ, я слабо верю. Так что просто, если читаете пост на Пикабу, статью в газете или исследование в интернете старайтесь отследить, откуда берутся данные.

Бонусные картинки для тех, кто не поленился дочитать простыню про статистическое искажение: как размещение наилучших постов по определённым тегам зависит от волн хайпа на этот тег. Оказывается, что часто самые крутые посты по тегу создаются не на волне популряности, а следом за нею. Так что если популярность тега прошла, но вы вспомнили классную историю, постите её, не стесняйтесь. Мне интересно, какая здесь причинно-следственная связь? Аудитория лучше воспринимает посты, если они уже когда-то были популярны, или пикабушникам нужно время, чтобы вспомнить/придумать самые интересные истории?

Ну вот пока что и всё. Задавайте вопросы в комментариях. Ссылка на программу и архив с дополнительными картинками была в предыдущем посте. Следующий пост скорее всего будет посвящён аналитике комментариев. Баянометр говорит, что мой пост похож на рисунки анимешных девочек =/

Показать полностью 10

[моё] Пикабу Статистика Наука График Лучшее Программирование Длиннопост

Siarshai

7 лет назад

Наука | Научпоп

Пульс "Лучшего", статистика и статистические заблуждения. Часть 2.⁠⁠

Первая часть здесь.

В комментариях к предыдущей части мне советовали вывести распределение количества постов по рейтингу в логарифмическом масштабе. Собственно, вот, обратите внимание на ось Y:

Пульс "Лучшего", статистика и статистические заблуждения. Часть 2. Пикабу, Статистика, Наука, График, Лучшее, Программирование, Длиннопост

График хорошо согласуется с предложенной моделью, и с графиком в исследовании @ponyuh. Мы видим, что количество постов с заданным рейтингом не просто убывает с увеличением этого рейтинга, а убывает экспоненциально.

Теперь, посмотрим на временной анализ количества постов с определёнными тегами на Пикабу. Для этого я снова выделил теги, которые встречаются хотя бы 200 раз и подсчитал, сколько постов с этими тегами было в каждый день. Для удобства вывода и сравнения полученные значения были отнормированы: массивы значений для каждого тега были поделены на сумму значений по массиву. Таким образом, график для тега тем выше, чем более неоднородно распределение постов с данным тегом (и не зависит от количества постов с ним). Графики дополнительно немного сглажены для лучшей читабельности узких пиков, и чтобы низкоуровневый шум не портил низ изображения.

Для начала проверка здравого смысла: теги, связанные с праздниками и временами года:

Мобильная версия (большой текст):

Широкоформатная версия (мелкие детали, откройте в полном окне):

Внизу стабильно плещутся волнами "осень", "зима" и "диплом", распределение постов с ними размазано по соответствующим месяцам. Зато явно видно как примерно за месяц начинают набирать обороты, а затем резко взмывают вверх перед определёнными датами "праздничные" теги. Больше всего выделяется "9 мая" - это график с самым большим перепадом из всех, видимо, сказалось, что в 2015 году было 70 лет победы в Великой Отечественной. Но вообще, хоть постов про девятое мая больше всего, хм, около девятого мая, не сказать, что Пикабу помнит про ветеранов только весной. Графики уверяют, что посты про ветеранов и Великую Отечественную войну иногда достигают "Лучшего" в течение всего года.

Примерно так же выглядят графики для тегов "Леонардо ди Каприо" и "Оскар":

Бедный ди Каприо, после того как ему таки дали злосчастный Оскар, про него совсем перестали вспоминать =(

Пикабу очень не против поделиться своим мнением о политике:

Часто шумиха стихает в течение месяца ("Трамп", "Турция", "Великобритания" (в контексте Brexit), "санкции"), иногда двух ("беженцы", "Сирия"). Украинские теги держатся дольше, но меняют акцент со временем. Впрочем, и они потихоньку сходят на нет.

Графики соответствующие волнам историй на определённую тематику ещё уже. К тому же не все из них так явно выражены. Волна тега "трамвай" всего в пять раз выше уровня шума (частоты появления постов с тегом "трамвай" в остальное время):

Накладывание графиков друг на друга позволяет сказать, что волны историй не соседствуют друг с другом. Единственное исключение - теги "долг" и "детский сад", возникшие из шума одновременно летом 2016. (Возможно, есть какие-то малые волны, которые соседствуют с большими, но не попали на график).

Графики, соответствующие событиям в гик-культуре, бывают как острыми, так и размазанными по времени:

Особенно поразителен узкий вжух "покемонов". Помните, такая игра была, а? За рубежом её так долго ждали... "Overwatch", напротив, демонстрирует поразительную стабильность. "Star Wars" и "Мстители" демонстрируют как сравнительно медленный подъём, так и затухание. Также обратите внимание на интересную форму - двойной пик - некоторых графиков. Особенно сильно это заметно с "Дэдпулом" и "Хоббитом". По всей видимости, это соответствует двум датам выхода фильмов - в России и за рубежом. Также это может быть связано с тем, что первая волна зрителей/игроков своими положительными отзывами создаёт вторую волну.

Подытожу:

3) Если вы почему либо хотите "попасть в волну", то следует правильно рассчитывать "мощность" горячего тега.

Волны кулстори на определённую тематику на Пикабу имеют наименьших срок жизни (порядка 15 дней). Сиюминутные политические и общественные события немногим лучше (около месяца). Более продолжительные события или новые однопользовательские игры (не мобильные с дополненной реальностью) могут протянуть несколько месяцев. Больше всего живут раскрученные франшизы и мультиплеерные игры.

4) Не стоит форсить свою линейку историй, если Пикабу уже увлечён чем-то другим. Лучше подождать недолго, пока шумиха утихнет.

5) Иногда получение Оскара может повредить вашей популярности.

Извини, Пикабу. Что-то я не рассчитал длину поста и своё время. Пост с общим временным анализом по дням недели и рассказом про некорректное использование статистики будет завтра или чуть позже. Но если вдруг кому интересно, выложу ссылку на программу и данные сегодня, как и обещал.

Исходный код. Для работы нужен Python 3.4 с установленными numpy и matplotlib; для работы обходчика веб-страниц нужен ещё и scrapy. Чтобы скачать сырые данные, настройте и запустите scraper.py (лучше на ночь). После этого в корне проекта появится data.pkl. Для анализа и вывода данных - main.py.

Чтобы не скачивать все данные с Пикабу и не вычислять всё с нуля, скачайте кэш-файлы и разархивируйте их рядом с main.py. Осторожно, в функциях проекта используется очень наивная реализация кэша. Если бы будете запускать функции с соответствующей аннотацией, не забудьте вручную удалить соответствующий файл кэша.

Архив со всеми графиками, в том числе и теми, что будут в следующем посту.

Если у вас есть предложения, график или статистику чего вы бы хотели увидеть, пишите в комментариях.

Показать полностью 19

[моё] Пикабу Статистика Наука График Лучшее Программирование Длиннопост

Siarshai

7 лет назад

Наука | Научпоп

Пульс "Лучшего", статистика и статистические заблуждения. Часть 1.⁠⁠

Привет, Пикабу!

Я программист, и моё хобби - статистика, анализ данных и машинное обучение. Чтобы отвлечься от пережёвывания однообразных банковских и социальных данных, пару недель назад я расковырял данные Пикабу о лучших постах. Я хотел бы поделиться с вами результатами этого небольшого исследования и разобрать на его примере один типичный случай неправильного применения статистики. Попробуйте обнаружить её в ходе повествования.

Сначала немного о способе получения информации. К сожалению, доступ к полной статистике посещения, кликов и размещения постов имеет разве что админ, и вряд ли со мной поделится. Поэтому пришлось довольствоваться тем, что есть, а именно кодом страниц Пикабу. Его можно увидеть в браузере, нажав правой кнопкой мыши на страницу и выбрав "Просмотреть код" или посмотрев, что приходит в ответ на запрос страницы (F12 в Chrome). Эту длинную HTML-простыню несложно распилить на сегменты, отвечающие за каждый пост, а из них, в свою очередь, наковырять чего-нибудь интересного. Разумеется, сохранять все данные вручную, было бы невероятной тратой сил, поэтому я написал бота, обходящего "Лучшее". К счастью, адрес страниц Пикабу имеет простой формат "http://pikabu.ru/best/XX-XX-XXXX?page=YY".

Пульс "Лучшего", статистика и статистические заблуждения. Часть 1. Пикабу, Статистика, Наука, График, Лучшее, Программирование, Длиннопост

Выкачивать всю информацию, включающую в себя многомегабайтные картинки, было бы грустно для свободного места на моём компьютере, поэтому пока что я остановился только на базовых данных: названии поста, тегах, рейтинге, количестве комментариев и дате отправки. Также я решил, что абсолютно все посты меня не интересуют, поэтому ограничился лишь 15 страницами "Лучшего" каждого дня начиная с 1 января 2014 года по 1 апреля 2017. Вышло 361604 записи.

Даже из этих простеньких данных можно состряпать что-нибудь интересное. Для начала давайте просто посмотрим на количество постов с различным рейтингом. По вертикали отложен рейтинг, толщина жёлтой области по горизонтали - количество постов с данным рейтингом, жирные красные точки - единичные посты с высоким рейтингом.

Мобильная версия с читабельным текстом:

Версия с высоким разрешением и большим количеством информации (откройте в полное окно во избежание шакалов):

Невооружённым глазом видно, как график очень быстро сужается. Распределение рейтинга по постам довольно неравномерно. Половина постов в "Лучшем" имеет рейтинг в диапазоне от 0 до 944 (жирный кусок "юлы"). Если сложить весь рейтинг и поделить поровну, получится 1380 рейтинга на пост. Только 5% постов в лучшем имеют рейтинг выше 3892 (95 перцентиль) и лишь 1% - выше 6000. Хоть график тянется довольно высоко, его высокие уровни почти не населены. В верхней половине графика находятся 80 постов "элиты" с рейтингом выше 12 тысяч (красные точки); остальная 361 тысяча - в нижней половине. Вот такое вот неравенство.

Проанализировав данные при помощи стандартной метрики неравенства, индекса Джини, я получил значение в ~0.45. 0 означало бы абсолютно одинаковое распределение рейтинга, 1 - абсолютное неравенство. Для сравнения стоит заметить, что неравенство распределения доходов россиян по индексу Джини оценивается в ~0.41, американцев в ~0.43, французов в ~0.31, а чилийцев - в ~0.55.

Вообще такой график соответствует часто встречающемуся в различных системах закону "богатые становятся богаче". На Пикабу такое поведение связано с тем, что разные читатели просматривают разное количество страниц. Лишь небольшая их доля отлавливает посты в свежем. Только если посту повезло, и рыцари свежего одарили его плюсам, он "получает доступ" к более широкой аудитории людей, пролистывающих "Горячее" до конца. Если и там он поднялся, то свою порцию плюсов накидывают обитатели первых страниц "Лучшего" и "Горячего", а затем и просто люди заходящие только на первую страницу "Лучшего". Разумеется публика не столь стратифицирована, кто-то, кто обычно сидит в свежем, может сегодня только посмотреть пару страниц "Горячего", а кто-то, сидящий в "Горячем", может вовсе не зайти на Пикабу. Тем не менее, "подъём" поста - многоступенчатый и самоподдерживающийся процесс с положительной обратной связью (чем популярнее пост, тем он станет ещё популярнее в будущем). Качество контента играет роль, но если на каком-то этапе из-за случайных флуктуаций иссякает "топливо", то увы. Хотя вообще и пост может оказаться неоч для "Лучшего", это да.

Что самое интересное, "топ топа" не особо отличается от случайных постов в лучшем. То есть, они довольно хорошие, без треша, но за исключением нескольких постов от 0x00, вряд ли бы я бы опознал их на общем фоне:

Стыд

То неловкое чувство, когда все говорят про какого-то котика...

Правосудие по-техасски (0x00)

True story

Новогоднее поздравление

Воспитываем школьника в интернете

Выгоним Скорпиона с шапки сайта

Moderator vs Zombies (0x00)

Наверное, это можно интерпретировать так: шанс попасть на самый верх есть у каждого, но его можно здорово повысить умением создавать длинные гифки-мультики.

Теперь посмотрим на распределение рейтинга по тегам. Для полученных данных я подсчитал, сколько раз используется каждый тег. Для тегов, встречающихся более чем в 200 постах, вычислил средний рейтинг постов с этим тегом. В итоге:

Мобильная версия:

Полная версия:

Ииии в самом топе по рейтингу... с уверенным отрывом... "лига синего бобра". Хах. Кто бы мог подумать. Я один не замечал этот тег раньше? Второе и третье место занимают "палата №6" и "лентач". Вообще состав тегов правой половины графика намекает на то, что на Пикабу ценятся кулстори из личной жизни ("сын", "отец", "дочь", "жена"), с работы ("клиенты", "собеседование", "начальник") и из понятной всем повседневной жизни ("почта России", "очередь", "яжмать", "азиаты" (?)). Не стесняется Пикабу таскать контент с bash im и заниматься самолюбованием ("комментарии на Пикабу").

На донышке находится политота - туда ей и дорога! - аниме, некоторые игры и хобби. Рискну предположить, что политика просто всех так достала, что большинство её уже просто пролистывает или помещает тег в игнор. Остальное - просто слишком специализированное, так что если и выходит в "Лучшее", то далеко не уходит просто за счёт того, что на Пикабу слишком мало людей, которым был бы интересен, скажем, рисунок карандашом.

Прошлый анализ никак не учитывал, что пост может быть одновременно отмечен несколькими тегами, входящими в перечень (скажем, и "blizzard", и "собеседование"). Скажем, если аудитория не любит "тег 1" и любит "тег 2", при этом "тег 2" почти всегда встречается с "тегом 1" и постов с "тегом 1" гораздо больше, то это может привести к "занижению ценности" "тега 2". Чтобы оценить степень проблемы, посмотрим на матрицу корреляции самых популярных тегов:

Мобильная версия:

Полная версия:

Чем синее квадрат на пересечении, тем чаще эти два тега встречаются вместе. Очевидно, что рисунок симметричен. Хоть тег сам с собой встречается постоянно, диагональ специально сделана белой для читабельности.

В общем-то анализ не слишком показателен. Тегов всего 37 на большой картинке. Невооружённым глазом видна плеяда "политика", "Украина", "США", "Россия", "twitter". "Милота", "собаки", "коты" и "животные" часто встречаются вместе. Также можно увидеть, что "моё", "рисунок" и "арт" часто встречаются вместе. Комментарии чаще всего с Пикабу или ВКонтакте. Текст коррелирует вообще со всем, причём "не моего" текста на Пикабу больше, чем "моего". Будем надеяться, что влияние статистических артефактов окажется малым.

Кто-то может сказать, что вышеперечисленные умозаключения довольно капитанские. Я же отвечу, что приятно, когда формальный анализ сходится с интуитивными предположениями.

Итак, промежуточные выводы:

1) Постов с рейтингом выше шести тысяч исключительно мало.

1.5) Тем не менее, повезти может каждому, было бы начальное внимание к посту (от 100 плюсов).

1.75) Коэффициент везения зависит от качества контента и от количество "0" в нике.

2) Для более высокого рейтинга постов лучше постить что-то, что понятно каждому.

2.5) Но не политику. Кармалюбствовать на политике не выгодно.

В следующих частях: временной анализ (общий и по тегами), рассказ про статистическое искажение, ссылка на исходный код.

Показать полностью 7

[моё] Пикабу Статистика Наука График Лучшее Программирование Длиннопост

trazi

7 лет назад

Наука | Научпоп

Не жри витамины без особой на то причины, пикабушник⁠⁠

Как показывают многочисленные научные исследования, в среднем регулярный приём мультивитаминов либо бесполезен, либо вообще вреден. Что полезен - редко. Например, вот это исследование 38772 женщин с 1998 по 2008 год показало, что принимавшие витамины имели более высокую смертность. Регрессивный анализ позволил выяснить соотношение рисков для каждого витамина и микроэлемента для двух групп: одна принимала, другая нет:

Позволил себе перевести соотношение в проценты для наглядности

Со снижением вероятности смерти (за 22 года) был связан только приём кальция. Всё остальное либо не было связано (комплекс витаминов группы В, D), либо было связано с повышением вероятности. Данные нормированы на 15 факторов, таких как возраст, диабет, повышенное артериальное давление и так далее.

Конечно, это общая ситуация "в среднем" и есть множество нюансов - например, для основной массы приём витаминов увеличивал риски, но для кого-то и уменьшал.

Обобщая результаты множества исследований для полумиллиона человек, наука рекомендует не принимать витамины без особой на то причины.

Отсюда: http://mirvn.news

Показать полностью 1

[моё] Моё Наука Витамины Медицина График Научпоп

trazi

7 лет назад

Наука | Научпоп

Невкусный борщ как повод для развода⁠⁠

На днях общался с несколькими подругами и хором жаловались на проблемы с парнями. Кто-то не мог найти, кто-то часто расставался и так далее, что мотивировало меня попробовать понять проблему. Проблема является социологической и психологической в масштабе планеты и с каждым днём ситуация всё хуже и хуже - дело пахнет керосином. Учитывая, что речь идёт о сотнях миллионов людей, которые ревут в подушку и депрессуют, то проблема сильно недооценивается человечеством. Прежде чем начать решать эти траблы, их следует понять.

Во-первых, рост доли разводов относительно браков. Удобнее всего посмотреть на Европу:

Невкусный борщ как повод для развода Моё, Наука, Социология, Психология, График, Научпоп, Расставание, Брак (супружество), Длиннопост

Если в 1960-х распадался каждый 11-й брак, то в 2014 распадался каждый второй. Распад каждого второго брака это огромная беда, а в Европе ежегодно миллион разводов. Это актуально для любого сколь-нибудь вестернизирующегося общества и Россия тут не исключение (те же 50%). Тренд на рост доли разводов иногда нечётко читается из-за экономических кризисов (Россия в 1990-е) или изменения семейного законодательства (США, 1970-е), но в целом ситуация именно такова.

С каждым новым браком увеличивается вероятность развода:

Если первый брак распадается с вероятностью 48%, то второй уже с 64%, а третий и вовсе с 72%. Тренд на рост тут тоже понятен - с каждым разом брак оказывается всё более банальным и всё менее ценным явлением. Из фактов по теме это всё, но обладая даже небольшим количеством фактов можно сделать большое количество выводов.

Выводы

Почему растёт первый график? Брак выпадает из моральных ценностей современного общества, женщины обретают всё большую свободу (образование, работа) и всё меньше зависимы от мужей, последним всё проще найти любовницу или даже новую жену и так далее. Но углубление в нюасны мешает общему пониманию, как говорится “за деревьями не видно леса”. Важно интерпретировать первый график вот как: либо люди стали в 5 раз хуже и потому чаще дают повод для развода (что вряд ли), либо размер повода для развода становится всё меньше и потому чаще выпадает в процессе поведения человека. Неужели раньше не было ссор, истерик, ББПЕ, измен и так далее? Всё это было, но не приводило к разводам. Учитывая эту интерпретацию, можно нарисовать такой условный график:

Смысл графика таков: если ранее для развода требовался серьёзный косяк (10 условных баллов), то сейчас достаточно и 2 баллов.

Поведение и поступки человека, очевидно, распределены "по гауссу" и можно предыдущий график нарисовать чуть по-другому:

Вся площадь под гауссианой (синяя линия) это множество всех поступков человека в браке. Среднестатистический человек делает больше всего средненьких поступков (0 по горизонтали), меньше плохих и хороших, ещё меньше прекрасных и ужасных (края синей линии). Красным цветом заштрихована та часть плохих поступков, которая приводила к разводу в 1960 году. Зелёным цветом отображены поступки приведшие к разводам в 2014. Вертикальная ось условна.

Интерпретировать площади под гауссианой можно так, что всё большая доля поведения индивида способна привести и приводит к разводу. И если раньше для развода требовалось проломить череп соседу, то теперь достаточно невкусного борща. Я утрирую, но как следует из данных и выводов, ситуация идёт к этому.

Убегая из брака человек может подумать что найдёт себе нового партнёра и заживёт новой счастливой жизнью, но! Как известно из второго графика, следующий брак имеет бОльшую вероятность распасться. В итоге, человек оказывается во всё более глубокой ловушке: использует развод как средство поиска счастья (нового партнёра), но на самом деле всё ухудшается, так как с каждым разом вероятность плачевного исхода только растёт. Заканчивая с верой в светлое будущее первый брак, где вероятность развода была 48%, человек оказывается во втором, где вероятность уже 64%. Поэтому логичнее решать проблемы в предыдущих отношениях, а не пробовать новые. Вероятность распада нового брака будет выше, имейте это ввиду!

Раньше человек вступал в брак этак лет в 20 (в среднем) и до конца жизни состоял в нём. Наверняка были косяки, скандалы и кто-то скажет, что раньше люди пусть и были долго в браке, но несчастливы. Но при прочих равных это не так. Научные исследования показывают, что в браке среднестатистический человек счастливее чем вне брака. Увеличивая количество разводов, человек всё бОльшую долю жизни проводит вне брака, соответственно менее счастлив. Так же, из роста доли разводов следует и рост среднего количества браков за жизнь индивида.

Браки - это только верхушка айсберга

Лично я отношусь к современному обществу постмодерна и на браки как социальный ритуал мне плевать. Но очевидно, что и обычные отношения, когда парень встречается с девушкой, подвержены тем же тенденциям - больше расставаний. Поэтому страдает гораздо больший возрастной пласт начиная лет с 18 плюс растёт количество отношений между первыми отношениями и браком. Думаю, уже понятно к чему я клоню: вероятность расставания в неофициальных отношениях растёт с их количеством, точно так же как растёт вероятность развода с новым браком. Таким образом, не только брак становится рутиной с соответствующим отношением к нему, но и “встречания”. Поэтому уже к первому браку люди подходят с существенным багажом разрывов и приевшихся отношений, что явно не идёт ему на пользу.

Не остановлюсь на достигнутом - обычные “встречания” это не первая фаза взаимоотношений между парнем и девушкой. Описанные тренды начинаются ещё с момента знакомства (если оно было с целью развития отношений) и попыток наладить общение. Ведь на данном этапе собеседника оценивают как будущего партнёра по отношениям и только. Поэтому логично предположить снижение ценности не только брака, встречаний, но и начального общения с гипотетическим парнёром, на которое теперь легко забивают. Если человек не является желанным совершенством, то знакомство с ним сразу бросают (я опять утрирую, но всё же). Обилие разрывов и виртуальное общение вывело в поиск существенную долю населения и там полный аншлаг во многих возрастных группах:

Если предположить, что среднестатистические неофициальные отношения длятся год и столько же длится поиск партнёра после разрыва, то в активном или пассивном поиске находится почти каждый второй человек. Этот аншлаг тоже ведёт к более наплевательскому отношению к знакомствам, встречаниям и браку. А возможно там вообще положительно-обратная связь. На этом у меня всё, вывод: по возможности не бросайте текущие отношения ради поиска счастья в новых вместо решения существующих проблем. Наука говорит, что вы проиграете.

Показать полностью 5

[моё] Моё Наука Социология Психология График Научпоп Расставание Брак (супружество) Длиннопост

156

Посты не найдены

123 4 Далее