Серия «Карточная игра для изучения английского»

2

Эксперимент! Можно ли использовать нейроку в качестве судьи в лингвистической игре?

Серия Карточная игра для изучения английского

Как уже писал в предыдущих постах, я сейчас пробую разработать карточную игру для изучения английского языка. В том числе планирую использовать нейросети для проверки грамотности и для оценки результатов игры.

И на этой почве, под одним из прошлых моих постов про эту игру, у нас с @garris79 возникла дискуссия. Он писал, что нейросети страшно врут, и использовать их в качестве судьи и арбитра невозможно. Мне кажется, что это всё же возможно, и поэтому я решил произвести эксперимент.

Суть эксперимента была следующей: Я составил текст так, как он бы составлялся во время игры, тоже через нейронную сеть. К нему приписал просьбу оценки по определенным параметрам. Получившийся промпт с текстом и запросом на оценку вы можете найти внизу этого поста, в приложении 1.

Я задавал этот промпт всем нейронкам которые были под рукой (на разных уровнях анализа). В том числе это были Codex, Gemini Pro, Flash и Flash Lite, DeepSeek Lite, GPT Instant и Thinking, Sonnet от Cloudy и от Cloudy Haiku. А, и также Яндекс AI.

Результаты я записывал в таблицу для того, чтобы в дальнейшем можно было их сравнить. Таблицу вы можете видеть чуть ниже. Также в описании есть ссылка на Google таблицу, если вдруг кому-то нужно.

<!--noindex--><a href="https://pikabu.ru/story/yeksperiment_mozhno_li_ispolzovat_neyroku_v_kachestve_sudi_v_lingvisticheskoy_igre_14039004?u=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1Hqw1AMc7p1gRkg6ufVN8j3jqHl5Y-2GMcw0MHz8H5Cc%2Fedit%3Fusp%3Dsharing&t=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1Hqw1AMc7p1gRkg6ufVN8...&h=8db751fadce1623965869399fc9ec267d3f4d827" title="https://docs.google.com/spreadsheets/d/1Hqw1AMc7p1gRkg6ufVN8j3jqHl5Y-2GMcw0MHz8H5Cc/edit?usp=sharing" target="_blank" rel="nofollow noopener">https://docs.google.com/spreadsheets/d/1Hqw1AMc7p1gRkg6ufVN8...</a><!--/noindex-->

https://docs.google.com/spreadsheets/d/1Hqw1AMc7p1gRkg6ufVN8...

Что ж, как вы можете видеть, в целом разброс не очень большой. Видно, что есть некоторые колебания в оценках, они не стопроцентно такие же, но я думаю, что и люди будут оценивать, естественно, тоже по-разному.

Если провести немножко анализа, то получается, что в среднем разброс у нас 0,79 балла. Самое большое отличие было 1,57 на категорию.

Хотел бы обратить внимание, что вне зависимости от модели победитель всегда оставался один и тот же.

Но есть место, где нейросетки не согласились в последовательности третьего и четвертого места, а именно: "насколько история страшная или обнадеживающая". Большинство посчитало, что история более страшная, чем обнадеживающая. При этом Кодекс поставил оценку равную, а DeepSeek поставил оценку в сторону обнадеживающей истории. Но при этом большинство моделей всё равно выбрало одинаково.

Думаю, из этого можно сделать вывод, что в случае спорных ситуаций, если оценки очень близкие, имеет смысл использовать несколько нейросетей или прогнать несколько раз одну и ту же, чтобы получить взвешенную среднюю оценку, например, с трёх попыток.

@garris79, что скажешь?

Возможно, ты бы хотел присылать какой-то более неоднозначный текст для проведения подобных повторных тестов? Ну или, может быть, я что-то упускаю, и ты укажешь на это?


Кстати говоря, думаю еще над тем, чтобы провести тест на одной и той же нейронке. Выбрать какую-нибудь общедоступную, которая бесплатная. Взять самый простой режим и какой-то текст. И загонять его в нее много-много раз и смотреть, насколько будет биение в рамках одной нейронной сети. Как думаете, стоит такое сделать?

Возможно, у вас есть еще какие-то идеи, как можно эти нейронки потестить и оценить целесообразность их использования в настольных играх?


Ещё одна идея — это сделать текст и дать его сперва оценить разным людям по тем же параметрам, а после этого провести такой же опрос у нейронок и сравнить, насколько будут различаться оценки людей и оценки нейронки.


Приложение 1. Промт.

Итоговый текст на английском

There is an old map in the hotel room. It lies under a clean bed, folded many times. Lena looks at it and sees a red mark near the old station.

The traveler found a strange ticket. It was inside the map, between two thin pages. The ticket had no date, but it showed the same red mark.

The station is not safe. Lena understands this when the hotel phone rings and no one speaks. Outside, the street becomes quiet, and the last bus leaves early.

She must leave the city. Lena packs her small bag and takes the map, the ticket, and a bottle of water. She hopes the guide at the old station can explain everything.

The guide opened the door, but the room was empty. On the table, there was only a camera and a note with Lena's name. The note said, “Take the next train if you want the truth.”

Оцени итоговый текст истории по каждой цели от 0 до 10.

Цели:

Насколько история получилась смешной?

Насколько история получилась грустной?

Насколько история получилась страшной?

Насколько история получилась обнадёживающей?

Насколько история получилась загадочной?

Насколько история получилась тёплой, доброй или человечной?

Насколько история получилась срочной, напряжённой по времени?

Для каждой цели дай:

оценку от 0 до 10;

короткое объяснение, почему такая оценка;

1-2 фразы из текста или события, которые повлияли на оценку.


Показать полностью 1
3

Доработка кат предложения

Серия Карточная игра для изучения английского

Сегодня дорабатывал карточки предложений

  1. Добавил плюсики между элементами предложений для лучшей читаемости. Ранее сделал карту подробнее, чтобы можно было её использовать даже не зная языка.


2. Сделал разделительную полоску между строчками при переносе и стрелки чтобы было понятнее.


3. Ну и в целом добавил больше вариантов на все карты где это возможною. Основная цель - уменьшить количество карт сделав их универсальнее.

Буду рад критике и предложениям!

Показать полностью 2
14

Делаю карточную игру для изучения английского языка

Серия Карточная игра для изучения английского
Делаю карточную игру для изучения английского языка

Как и у многих, мои знания английского языка после школы, колледжа и универа оставляли желать лучшего. Поэтому я стал изучать его с репетитором, и по ходу обучения пришла в голову идея карточной игры для таких как я, но не только.

Потенциально эта игра должна быть интересна и тем, у кого совсем нет знаний английского, и тем, у кого уже высокий уровень.


Общая идея такая: игроки по очереди составляют английские предложения из имеющихся карточек слов, опираясь на карточки предложений-шаблонов. Из этих предложений постепенно складывается общий рассказ.

Например, карточка предложения даёт схему вроде:

[Кто?] + [действие] + [что?]

А игрок собирает по ней простую фразу:

The boy opens the door.

У каждого игрока есть скрытая цель: например, сделать рассказ грустным, весёлым, загадочным или странным. Оценку рассказа предполагается отдать на откуп нейронке.
Впрочем есть идеи и про систему баллов и про доработку текста нейронкой, потом напишу подробнее если будет интерес.

На данный момент я уже в третий раз переделываю набор карт. Плейтест первой версии показал, что некоторых карт не хватает. Плейтест второй версии показал обратную проблему: карт стало слишком много.

Сейчас я прорабатываю третий вариант и хочу поделиться с вами имеющимися наработками.


Карты предложений я сделал подробнее, но проще. Убрал сложные конструкции, оставив самые понятные и часто применимые.


Карты задач тоже сократил по количеству, а цели сделал более прямолинейными.


Многие вспомогательные карты, которые должны быть постоянно доступны, я объединил, чтобы сократить хаос на столе.


Карты слов остались примерно такими же, как во второй версии, только некоторые вспомогательные слова теперь перенесены к ним.

На ближайшее время планирую продолжать тесты и дорабатывать. Если хотели бы принять участие в тестах на TTS - пишите.

Ну и в целом, если вам такое интересно, то очень нужна ваша поддержка комментариями, так как пока не понимаю нужно ли продолжать развивать идею.

Если вам интересно что из этого получится, то подписывайтесь на канал, чтобы не пропустить обновления.

Показать полностью 48
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества