59

Игра для улучшения качества Википедии

Недавно была выпущена бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. В настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. Однако количество языков будет увеличено в ближайшее время. Результаты игры помогут построить алгоритмы для автоматического выбора данных высокого качества и обогащения различных языковых разделов Википедии (в особенности, сравнительно менее крупных - украинской, казахской, белорусской и др.)

Игра для улучшения качества Википедии Википедия, Игры, Онлайн игры, Наука, Исследование

Википедия часто критикуется за низкое качество информации. В научном мире существуют различные подходы, которые могут позволить автоматически определять качество статей в этой энциклопедии. К сожалению исследования в основном проводятся в самой крупной языковой версии - английской Википедии. Однако самый крупный языковой раздел не содержит всех тематик, и далеко не все существующие там материалы обладают хорошим качеством. Зато такие материалы можно найти в других языковых разделах. Например, можно предположить, что большинство населенных пунктов России лучше описаны в русской версии Википедии.


Проблема еще заключается в том, что информации на одну и туже тему могут создаваться и редактироваться независимо в различных языковых версиях.  В связи с этим, данные могут различаться, и их качество тяжело определить "вручную", особенно если учесть, что в Википедии около 300 языковых версий.


WikiBest - это игра, которая может помочь создать алгоритмы для автоматической оценки и сравнения качества отдельных фактов в разных языковых версиях на одну и туже тему. Лучшие данные можно будет автоматически перенести в менее развитые языковые разделы Википедии.  Перевод на большое количество языков в данном случае не является преградой - семмантика поможет))


Краткий видео-курс, как работает WikiBest.


Это некоммерческий проект, поэтому любая поддержка может пригодиться ;) Также сюда могут входить идеи, как улучшить игровую систему.


Постараюсь ответить на ваши предложения, комментарии. Более подробный материал размещен на Хабре.


Адрес игры: WikiBest.net

Дубликаты не найдены

16 комментариев

по актуальности
+8
Узнал что есть казахская Википедия
раскрыть ветку 6
+1

На всякий случай, полный список языковых версий тут https://meta.wikimedia.org/wiki/List_of_Wikipedias

раскрыть ветку 3
+1

Посмотрел количество статей по языкам, увидел какой то себуанский язык который на втором месте. Оказалось бот какой то заливает статьи. 

раскрыть ветку 1
+1

Узнал, что кроме русского языка есть и другие.

0
Более того, есть ещё и татарская, и башкирская.
раскрыть ветку 1
0

...и две белорусских. И ВП на простом английском. И ещё 280 языков.

+2
Игра в Википедию? Любопытно...
0

Странная затея. Слов много, а чему конкретно это может помочь не ясно. Заглушки-статьи из ВД уже могут разместить некоторые проекты, а здесь понравившиеся юзерам куски что ли будут? А перевод? А порнуха? Юзерам ведь понравятся жаренные факты и «хуй хуй» вместо адекватного текста. А ещё они будут кликать тупо от балды.

Или авторы рассчитывают, что кто-то действительно станет проверять по АИ все указанные в кусках данные на нескольких языках, половина которых и вовсе тянется с ВД? И какая там «семантика» будет что систематизировать, если это не проект Фонда? Кто автор игры? Кто-то из опытных и известных участников Движения? Почему игра полностью анонимна?


Не говоря уж про регистрацию, которую я вообще не осилил. Авторы сайта в курсе, что данные о популяциях (которые нужно ввести как антикапчу) могут изменяться? И они могут тупо не соответствовать в разных частях статьи. Делать мне что ли больше нечего, кроме как час сидеть разные варианты подбирать, чтобы зарегистрироваться в чём-то очень сомнительном?


Благо уже есть игра по Википедии на Лабсе. Через неё юзеры реально решают насущные задачи, без абстракций.

раскрыть ветку 3
0

Спасибо за подробный комментарий)


Только что проверили, данные в карточках о населении не поменялись - поэтому можно смело регистрироваться))


Что касается "семантики" - это понятие существует в научном мире не только в рамках проектов Фонда. Речь идет об общей методике с использованием конкретных сервисов (в том числе DBpedia, Викиданные, YAGO2, специализированные словари и т.д.)


Относительно цели проекта - он создавался в том числе для того, чтобы проверить и улучшить алгоритмы автоматической оценки качества данных в различных языковых разделах Википедии. Безусловно, работы предстоит еще много и проект будет развиваться, а также сотдруничать с другими похожими инициативами.

раскрыть ветку 2
0

> Проблема заключается в коротком промежутке времени, в котором предварительные исследования в этом направлении должны быть проведены

??? Это что, просто сбор материала для чьей-то диссертации? Или грант выделен? На что? Кем?

0

И все же мне не ясно кто конкретно этим занимается. Если подаётся как инструмент для улучшения ВП и проектов Фонда в будущем, то из известных мне «автоматических оценок качества данных» с ним ассоциирован только ORES, которым занимается команда разработчиков. Ещё один частный проект кого-то из юзеров? Чего он планирует в итоге добиться? Предложить новое расширение движка? Улучшить существующее? Создать некий инструмент на Лабсе с рекомендацией «лучших инфобоксов»/рейтингами разделов? Конкретно. С примерами.


Или по принципу «вы покликайте, а мы потом подумаем как можно это использовать»? Но: а) так некоммерческие проекты не работают, пользователей нужно заинтересовать и обьяснить суть: кто? где? когда? что?; б) сравнение инфобоксов — это что-то совсем малополезное и бесперспективное.


Вам для примера ORES. Помните, как он стартовал? Разработчики всё объяснили и показали, потом стали просить юзеров создавать проекты у себя в разделах по предварительной оценки качества, потом начали рассылать пачки данных. Там тоже была кривая организация, но люди понимали для чего они сидят и просматривают сотни диффов. Что в итоге может из этого родиться, что можно этим улучшить и кто за это отвечает. И родился ORES, улучшился Хаггл, боты CVN SWMT. А здесь что? Анонимное чудо с абстрактными формулировками.


И как, много там народу зарегалось?

Харьков: 1 967тис = 1967000

Краков: 767 348 = 767348

Лион: 506,615 = 506615

Ни в оригинальном формате, ни в формате «одни цифры» ответы не подходят.

0

Подозреваю что очень много статей отличаются не просто языком, а отношением к тем или иным событиям. И провозглашенная нейтральность не встречается практически нигде

раскрыть ветку 2
0

Верно, это так называемые спорные (controversial) темы. И хорошо, что таких вещей относительно немного и зависит от языковой версии. В особенности такое редко встречается в карточках, где в основном представлены "сухие" факты. Однако, "локальная правда" - это тоже интересное поле для исследований ;)

раскрыть ветку 1
0

Да как только встречается более менее длинная статья так обязательно есть связь с каким-нибудь спорным событием

-8

@moderator, реклама

ещё комментарий
Похожие посты
Возможно, вас заинтересуют другие посты по тегам: