Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Вы владелец небоскреба! Стройте этажи, управляйте магазинами и работниками!

Небоскреб Мечты

Казуальные, Симуляторы, 2D

Играть

Топ прошлой недели

  • Oskanov Oskanov 9 постов
  • Animalrescueed Animalrescueed 44 поста
  • Antropogenez Antropogenez 18 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
0 просмотренных постов скрыто
Widescreen
Widescreen

WideScreenScreening - итерация номер три.⁠⁠

11 лет назад
Привет, Pikabu.

Выполнен полный цикл data acquisition с целью обновления показателей рейтинга и получения новых кандидаток. Также были внесены мелкие изменения и выявлены небольшие баги.

Было получено 3242 кандидатки, сформирован топ-лист кандидаток с рейтингом, большим чем у 95% кандидаток - получилось 164 кандидатки. Начата серийная проверка.
[моё] Моё Wss Проект ВКонтакте Знакомства Текст
0
Widescreen
Widescreen

Перезапуск WideScreenScreening и поиск добровольцев.⁠⁠

11 лет назад
Привет, pikabu и мои подписчики.

Из-за устаревания данных проведение непосредственно проверки самих кандидаток следует делать быстро. По некоторыми этическим причинам я длительное время не прорабатывал конечный список кандидаток, потому всё успело значительно устареть. Также нужно сделать несколько мелких изменений и нововведений.

Поэтому я выполняю перезапуск - получение всех данных заново и последующая обработка топовых кандидаток.

Ещё для реальной отработки мне нужны добровольцы, либо хотя-бы базовые критерии и группы для тестирования отличных от моего случаев.
[моё] Моё Wss Знакомства ВКонтакте Добровольцы Проект Тестирование Текст
3
Widescreen
Widescreen

WideScreenScreening - широкоформатный скрининг для знакомств: новые платформы.⁠⁠

11 лет назад
WSS будет расширяться на другие платформы - Google+ и Facebook, начато осваивание соответствующих Graph API и API Google+ .
[моё] Моё Wss Проект ВКонтакте Facebook Google plus Текст
2
Widescreen
Widescreen

WideScreenScreening - широкоформатный скрининг для знакомств: обращение к подписчикам.⁠⁠

11 лет назад
Уважаемые пять подписчиков!

Находясь на 40% критической для блокировки отрицательной величины рейтинга у меня осталось не так много возможностей что-то написать. Но цель описать WSS и сделать попытку набора кандидаток здесь я уже реализовал.
Актуальное состояние инструмента для WSS уже было подробно описано, ход создания и теперешние результаты тоже. Мне практически нечего будет тут описывать, поскольку я не буду выставлять свою и чужую личную жизнь напоказ. В не очень скором времени я смогу рассказать только о результатах второй попытки анализа списков групп пользователей и анализа текстов постов/комментариев, больше ничего, других нерешённых задач у нас нет. Единственное, что ещё, то это мы ищем веб-сервер для размещения этого инструмента, но это дело ещё более отдалённого будущего + вообще под вопросом.

Мне остаётся только спросить - что-же хотят ещё услышать от меня мои подписчики.
[моё] Текст Моё Wss Знакомства ВКонтакте Проект Подписчики
0
Widescreen
Widescreen

Как создавался WideScreenScreening - широкоформатный скринер для знакомств⁠⁠

11 лет назад
Привет, Пикабу. Несмотря на происходивший трэш и угар, я продолжу описывать WSS пока рейтинг ещё не достиг порога блокировки. Для меня удивительно ещё то, что число подписчиков возросло. Расскажу о ходе создания WSS в порядке, близком к хронологическому, как и было обещано в http://pikabu.ru/story/_2783809 .

С самого начала ядром всей концепции был поиск по интересам: каким-бы аноном не была-бы цель - всё равно её интересы определяемы по активности в сообществах. Интересы, цели и идеи человека - ключевые аспекты, почти всё остальное значительно менее важно. Началось всё с попыток ручного последовательного поиска http://vk.com/search в пределах целевых сообществ (список их уже был приведён), но стала очевидна необходимость автоматизации (идея была расценена как безумная), тогда с API я работать ещё не умел.
Позже я наткнулся на новости про Эмму и Криса, также про подобные кустарные попытки наладить data mining социальных сетей для того, чтобы подобрать себе друзей/подруг быстрее и селективнее. После этого я (в очередной раз) убедился в том, что безумная идея не является безумной, а является реальной, оправданной и не новой - что только укрепило мои намерения реализовать систему широкоформатного скрининга (методология "шотгана" с конвейерами фильтров мне была отлично знакома уже несколько лет с диплома, потому все сложности для меня были только технические). После этого я начал осваивать API vk.com и писать не биоинформатические скрипты, не без сторонней помощи - но та была минимальна. Не вижу смысла описывать технические тонкости, потому перейду к первым версиям.
В первых прототипах принцип работы был прост: запрашиваются полные списки всех членов группы с выдачей основной (пол, возраст, отношения, город, образование, фотка) информации, удалялись дубликаты (ведь нередко люди состояли в нескольких целевых группах, в "сырых" списках это давало дублирование) и выполнялась первичная фильтрация - отбор пола F, отсечение неподходящего возраста и удаление отношений типа "кто-то есть", при этом для предотвращения потерь случаи с не указанными параметрами оставлялись. Сразу-же было видно что сила фильтров недостаточна - остаётся очень много кандидаток, явно слабых, нужно было улучшать систему. Первые-же полученные данные подвергались exploratory analysis (EDA), чтобы понять что представляет собой то, с чем я работаю, как фильтровать дальше, что убрать и что добавить (конечно, EDA много делали раньше и лучше, я знал чего ожидать). EDA показал что, как это обычно бывает с данными от "естественных источников" - в данном случае людей, разреженность данных очень значительна, некоторые параметры указаны столь редко, что вряд-ли могут использоваться для фильтрования. В десятках процентов случаев возраст был урезан или отсуствовал, часто не было страны и города, в большинстве случаев не было указано образования. Более не было возможно придумать действительно селективных (отбрасывающих действительно не подходящих) и сильных (отсекающих наибольшее число не подходящих) фильтров, потому было решено группировать кандидаток на категории - высокоприоритетных, среднеприоритетных и низкоприоритетных, чтобы сначала вручную проработать самых интересных, постепенно переходя к менее интересным.
Для условно следующей версии были введены фильтры, отсекающие заблокированных пользователей (дополнительное поле 'deactivated' в возвращаемых данных, оно не всегда было на первых выборках) и отбрасывающие очень давно неактивных (параметр last_seen - дата последнего посещения), хотя величина этого "давно" берётся с потолка в размере 1 месяца. Чтобы решать задачу группировки был введён первый вариант системы вычисления рейтинга (score): присваивались баллы за наличие указанного возраста, образования, отношений (высокая прибавка если "в активном поиске", маленькая за "одна" и нет за не указанный параметр), также был сделан список "городов интереса" - серия городов, в которых либо рядом с которыми есть возможность поживания, за нахождение в которых присваивался высокий дополнительный балл. "Города интереса" это одно из внешних ограничений, проблемы профессионального географического детерминизма и крайне труднорешаемости квартирного вопроса в этой стране. Система вычисления score позволила разбить кандидаток на 3 категории: ~50 человек высокого приоритета, куда попали почти все "в активном поиске"; ~200 человек среднего приоритета, где в большинстве были кандидатки из "городов интереса", поскольку среди них был город Москва; ~2500 канидаток низкого приоритета, у которых было мало указанных параметров и которые были из много откуда. 50 человек - столько можно без проблем проработать за 2-3 дня, учитывая ограничения платформы, в роде лимитов сообщений и запросов.
Около трети списка высокого приоритета было отброшено ещё при ручном просмотре страниц без попыток связи, оставшимся рассылались либо запросы на добавление с мини-вариантом рассылочного текста, либо сам рассылочный текст с небольшими адаптациями. Вместе со списком высокого приоритета прорабатывались и кандидатки средней категории из главного "города интереса". Основным результатом были явные отказы по причине не заинтересованности в отношениях такого типа, реже были сообщения об отказе по причине наличия отношений - но с положительным отзывом о проекте, также значительную часть запросов проигнорировали даже после переспрашиваний (все явные отказы и не прошедшие ручную проверку отправляются в чёрный список WSS). За несколько итераций с мелкими изменениями в WSS было проверено порядка 200 человек, было несколько согласий на общение, но меня несколько удивил контингент: значительное число феминисток (в т.ч. и радикальных), были спамерши, кое-кому оказалось 15 лет (девочка из СпБ была оперативно послана), но самым неожиданным был результат наткнуться на двух транссексуалов - двух из двухсот человек, при встречаемости ~ 1:100000, один из которых был почти самым высокорейтинговым случаем. Стало понятно что систему рейтинга и фильтрования нужно сильно доработать, поскольку WSS реагировал больше на полноту заполнения анкеты, чем на то, что надо.
Для повышения селективности было добавлено получение информации о группах и подписках кандидаток, чтобы отсекать спамерш (с 1000 групп), как-то сортировать по членству в группах и точнее оценивать идеологичность (для этого список целевых групп был немного расширен и появились категории для идеологических групп - упомянутые T, R, N, S и I с разным рейтинговым весом). Параметры про образование, город и возраст были исключены из вычисления рейтинга (но оставлены в получении). Поскольку запрос получения списка всех групп пользователя выполняется только индивидуально для каждого пользователя - получение этой информации занимает значительное время (лимит у vk 3 запроса в секунду), потому такая ресурсоёмкая задача была поставлена после всех существующих фильтров. Простейший фильтр против спамерш (и, вероятно, камвхор) удалял кандидаток с 1000 групп, состоявших только в какой-то одной целевой группе - таких было не мало, визуальный просмотр их страниц подтверждал то, что я всё делаю правильно. За количество групп для score был введён штраф, логарифмически зависивший от числа групп, чтобы не очень резко отсекались любительницы беспорядочно вступать в группы, это может отсечь и тех, кто нужен. Эксперименты с корреляционным анализом и кластеризацией для членств в группах не удались, в основном из-за крайней разреженности состояния в группах (очень редко состояло больше нескольких человек в одной группе для моей выборки в 3000 кандидаток), потому списки были оставлены для будущих возможных средств обработки. Технически, из-за растущих объёмов кода, скачивание информации о группах было оформлено в виде отдельного служебного скрипта. Как и можно было предположить - к радикальным изменениям в количестве кандидаток это не привело, зато по топовым спискам стало видно что у инструмента растёт селективность.
Баловство с поиском vk другими людьми показало что, с некоторыми усилиями, можно обойти сокрытие года рождения для случаев частично указанного возраста с помощью итеративного поиска с указанием узкого диапазона возраста. За несколько попыток (некорректная работа имела место для прототипа - мне сообщали на поздних итерациях рассылок что возраст был указан и оценён он был не верно) была сделана служебная подпрограмма для прогона кандидаток с частично указанным возрастом, которая проверяла попадание возраста в диапазон 21-25 лет (потому и названо "реверсивная оценка возраста" - RAE) - сделать более точную оценку оказалось не стоящим того, т.к. vk.search, как оказалось, имеет значительно более строгие ограничения на число запросов и интервалы времени (мне его много раз блокировали на часы и сутки, причём по IP), которые не документированы из соображений безопасности. Оценка возраста и так занимала много часов, потому я не планирую это дорабатывать - оно того не стоит, главное чтобы возраст подходил, дальше можно просто спросить. Впрочем, RAE на дала существенного сокращения числа кандидаток, хотя минус 1-2 сотни это уже хорошо.
Следующим этапом увеличения силы измерения идеологичности было решено сделать анализ текста (ре)постов на стене, поскольку с помощью text mining можно делать много удивительных вещей, плохо что пока не для русского языка. На предварительных экспериментах была быстро отработана скачка и отбор plant text постов за всё время и только от пользователя (но репосты тоже учитывались), применение на всей выборке показало что это самый времяпотребляющий шаг (скачивание для 3000 кандидаток занимает порядка суток), конечный объём данных несжатого простого текста составляет 2Гб (!), без багов и отладки тоже не обошлось. Сразу-же был добавлен штраф за размер стены, также логарифмический по числу постов, ибо нефиг спамить. Первые попытки анализа текстов основывались на классических подходах информационного поиска на корреляционном и сравнительном анализе
Показать полностью
[моё] Текст Длиннопост Wss Знакомства ВКонтакте Девушки Проект Forever alone
4
Widescreen
Widescreen

WideScreenScreening: я техногик и ищу себе девушку.⁠⁠

11 лет назад
Привет, Пикабу, и я знаю что никто не любит такие темы.

Для того, чтобы познакомиться я применял "Широкоформатный скрининг для знакомств" по сети vk.com, названный WideScreenScreening, или-же WSS. Попробую испытать удачу ещё и здесь - опубликую Контрольно-Проверочный Текст, который выдавался на прочтение всем проверяемым кандидаткам.

Применяемый в скрининге метод основан на "поиске в группах по интересам" и, в общем, аналогичен известным прецендентам http://on.ted.com/AmyWebb и http://habrahabr.ru/post/210198/. Техническая сторона инструментария будет публиковаться отдельно, она основана на обработке результатов поиска пользователей vk.com. Целью скрининга является найти такую, с которой можно сформировать отношения, которые можно назвать "долговременным партнёрством" - общая деятельность по интересом, в дальнейшем совместное проживание и быт, совместная финансовая ответственность. Техническая часть описана здесь ( http://evfratov.livejournal.com/62888.html ) и отчётные данные будут иногда публиковаться в журнале.

На данный момент я являюсь аспирантом ХФ МГУ (тема - молекулярная биология) с ожидаемым окончанием аспирантуры к 2016г, фактически иногородний (Нижний Новгород), потому проживю в условиях общежития. Цели в средней и дальней перспективе представляют собой то, что можно называть "научной карьерой", которая является основной деятельностью и источником дохода (а вовсе не формальное получение научной степени кандидата наук, что не редко сейчас), цель покинуть страну отсутствует (исключая резкие изменения условий и возможностей). Специфика лаборатории позволяет заниматься вполне реальной и серьёзной наукой ( http://scholar.google.ru/scholar?hl=ru&q=evfratov ) (что затрагивает биоинформатику, системную биологию, синтетическую биологию и высокопроизводительные методы) и за какие-то деньги, но значительные трудовые и временнЫе затраты тому плата, не говоря о необходимости освоения навыков вне специальности (анализ данных, статистическое программирование и машинное обучение). Соответственно, с таким режимом деятельности работа в классичеком понимании (систематическая конвертация собственного труда в финансы) мне пока что малодоступна, но такая ситуация временная, поскольку получение научной степени сопряжено с получением ставки. Также я являюсь участником прогрессивной общественной организации РТД ( http://transhuman.ru/ ) и сторонником соответствующей идеологии ( http://ru.wikipedia.org/wiki/Трансгуманизм ), что определяет многие цели и предпочтения. Жилищная ситуация к моменту окончания аспирантуры такова, что желательна более-менее синхронная необходимость в съёмном жилье к этому сроку (поскольку групповая аренда жилья значительно понижает финансовую нагрузку на арендующих). Последнее также накладывает ограничения на место постоянного жительства, потому что ситуация типа "этот мальчик будет жить с нами" является очень проблемной и социально неприемлемой (в подавляющем большинстве случаев совершенно оправданно), хотя с моей стороны Нижний Новгород является "базой", привычным местом с гарантиями быть хоть где-то без существенных затрат и расматривается как перевалочный пункт и путь отступления в случае "аварийных" ситуаций.

Для возможности общения обязательна рациональность, владение научным методом и наличие некоторых естественно-научных знаний (высшее образование в естественно-научных дисциплинах будет совсем замечательно). Также необходимо некоторое идеологическое согласие. А если у Вас есть существенные несогласия с этим ( http://flavorchemist.livejournal.com/2378.html ) человеком - то нам лучше вовсе не разговаривать во избежание конфликтов. Ещё мне не нравится большинство социальных стереотипов, я не приемлю ситуаций принуждения и шантажа (особенно с использованием людей), а также считаю что мужчина и женщина это, в первую очередь, люди и только во вторую мужчина и женщина, и что создание нового человека является очень долговременным (>17 лет), крайне дорогостоящим и, для некоторых, опасным проектом.

p.s. Текст не случайно выглядит формалистично и похож на брачный контракт, поскольку в нём отражены, в основном, не самые интересные моменты, а самые фактически значимые.

p.p.s. Можно кидать свои id vk.

p.p.p.s. Будет строжайшая трап/тролль-фильтрация.

Additional: для повышения эффективности проверки следует описать ряд требований более чётко, к тому-же топовый список содержал результаты, столкнуться с которыми вовсе я не ожидал. Жёстким требованием является женский пол (пол фенотипический), гетеросексуальная ориентация, возраст от 21 года (возможен люфт в исключительных случаях) и до 25 (менее строго, потолок люфта 30 лет). Категорически недопустимо наличие близких отношений с третьей стороной (в случае намеренного сокрытия этого ответом будет сливание на сторону всего ( http://evfratov.livejournal.com/14640.html ), что было). Недопустимо траперство. Идеологические разногласия крайне нежелательны, а аргументация против ТГ с использованием термина "перенаселение" приведёт к немедленной отправке в чёрные списки. После завершения разработки инструмента для WSS появилась возможность количественной оценки идеологичности и ТГ-активизма, она вносят основной вклад в рейтинг. За фотоальбомы, забитые гламурными фотографиями, следует отправка в чёрный список.
Показать полностью
[моё] Моё Текст Wss Знакомства ВКонтакте Проект Forever alone Длиннопост
10
Widescreen
Widescreen

Для тех, кто опять нихрена не понял про WideScreenScreening⁠⁠

11 лет назад
Обращаюсь к читателям:

> Нужно не ныть про плюсики, а делать пост.

Кое-кто не понял, что я написал - положительный отклик означал ненулевое количество плюсов, минусы игнорируются при измерении заинтересованности.

> уже изрядно надоело это "если кому-нибудь будет это интересно, тогда я уж потружусь и запилю пост."

Тут это тоже было не понятно - можно было заметить ещё на втором посте, что, строго говоря, неважно какой суммарный рейтинг - я всё равно пишу то, что обещал. Здесь было не "если плюс - то я поработаю", тут было логическое условие: если > 0, то одно; если иначе, то другое.

> ты не очень хорош в придумывании названий)

Это специально - я очень не люблю всякую попсовую и сопливую хрень.

> Сколько у тебя подписчиков?

Три, практически с самого начала, и никто не отписывался; это может быть показателем того, что кое-кому это реально нужно или, согласно бредовой паранойе, это ненавистники, обвиняющие меня в кармадрочерстве и оперативно трассирующие все мои действия для минусования.
[моё] Моё Текст Wss Знакомства ВКонтакте Проект Анализ данных Forever alone
19
Widescreen
Widescreen

Вопрос для тех, кто нихрена не понял что такое WideScreenScreener⁠⁠

11 лет назад
Если этот пост получит положительный отклик - я опишу в свободной и лёгкой человеческой форме идею создания WSS, ход разработки, промежуточные результаты и неожиданности.
Спойлер: там будут радикальные феминистки, транссексуалы, агендерши, антисексуалки и антилюбовь-антидети-антисемья (!).
[моё] Моё Текст Wss Знакомства ВКонтакте Проект Анализ данных
10
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии