В связи с ажиотажем на тему Кинопоиска и в частности недовольством некоторых пользователей новыми рейтингами фильмов, я решил немного об этом самом рейтинге рассказать, а именно то, как он составлялся.
В нашем случае рейтинг - это оценка фильма аудиторией. Есть несколько проблем, которые не дают использовать в качестве рейтинга простое среднее арифметическое. Рассмотрим пример:
Имеем фильм X, относящийся к жанру арт-хауз и показывающийся в специализированных и не очень популярных кинотеатрах, на который идут заведомо ценители, которые скорее всего знают на что идут и зачем. В итоге они смотрят и выставляют ему высокие оценки.
Фильм Y, относится к боевикам, расчитан на массового зрителя и идет в прокате по крупным кинотеатрам города. На него нередко идут просто так, выбирая кино уже по приходу в кинотеатр. В итоге его смотрит намного большее количество человек, среди которых будет процент недовольных.
Получаем:
X: просмотров 10, средний балл 9
Y: просмотров 1000, средний балл 7
Кинопоиск - это унифицированная кинобаза и поэтому рейтинг должен быть максимально объективным, поэтому если он будет предлагать фильм на любителя широкой аудитории, то его собственный рейтинг быстро сойдет на нет.
Решение: ввести порог при голосовании. В нашем случае был порог в 500 голосов. При этом малоизвестным фильмам дали шанс, усреднив все формулой:
R = ( A / (A+m) )M + ( m / (A+m) )C
R - рейтинг фильма,
A - количество голосов,
m - минимальный порог,
M - среднее арифметическое всех голосов за фильм,
C - среднее значение рейтинга всех фильмов.
Казалось бы все теперь здорово, но проверим формулу на практике.
1) количество голосов 500, порог 500, средняя оценка 2, средний рейтинг 7.3837
получаем рейтинг фильма 4.69185
2) количество голосов 1000, порог 500, средняя оценка 3, средний рейтинг 7.3837
рейтинг фильма 4.4612
Что-то стало с нашей объективностью не так. Хотя в долгой перспективе и при большем количестве голосов ситуация будет более реальной и правдивой. Так что старый алгоритм идеальным назвать нельзя, но топ250 он формировал лишь с небольшими погрешностями.
---
Теперь же алгоритм Кинопоиска заменен неизвестным пока алгоритмом расчета от Яндекса. Стоит признать, что Яндекс на ранжировании собаку съел и свой алгоритм он, наверняка, еще будет калибровать, ведь сам сервис пока выглядит сыро и возникает ощущение, что кто-то напортачил и выложил версию на бой вместо тестового сервера. Вопрос только в том, насколько скоро произойдут положительные изменения и сервис станет не менее юзабелен прежнего.