2

Эксперимент! Можно ли использовать нейроку в качестве судьи в лингвистической игре?

Серия Карточная игра для изучения английского

Как уже писал в предыдущих постах, я сейчас пробую разработать карточную игру для изучения английского языка. В том числе планирую использовать нейросети для проверки грамотности и для оценки результатов игры.

И на этой почве, под одним из прошлых моих постов про эту игру, у нас с @garris79 возникла дискуссия. Он писал, что нейросети страшно врут, и использовать их в качестве судьи и арбитра невозможно. Мне кажется, что это всё же возможно, и поэтому я решил произвести эксперимент.

Суть эксперимента была следующей: Я составил текст так, как он бы составлялся во время игры, тоже через нейронную сеть. К нему приписал просьбу оценки по определенным параметрам. Получившийся промпт с текстом и запросом на оценку вы можете найти внизу этого поста, в приложении 1.

Я задавал этот промпт всем нейронкам которые были под рукой (на разных уровнях анализа). В том числе это были Codex, Gemini Pro, Flash и Flash Lite, DeepSeek Lite, GPT Instant и Thinking, Sonnet от Cloudy и от Cloudy Haiku. А, и также Яндекс AI.

Результаты я записывал в таблицу для того, чтобы в дальнейшем можно было их сравнить. Таблицу вы можете видеть чуть ниже. Также в описании есть ссылка на Google таблицу, если вдруг кому-то нужно.

<!--noindex--><a href="https://pikabu.ru/story/yeksperiment_mozhno_li_ispolzovat_neyroku_v_kachestve_sudi_v_lingvisticheskoy_igre_14039004?u=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1Hqw1AMc7p1gRkg6ufVN8j3jqHl5Y-2GMcw0MHz8H5Cc%2Fedit%3Fusp%3Dsharing&t=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1Hqw1AMc7p1gRkg6ufVN8...&h=8db751fadce1623965869399fc9ec267d3f4d827" title="https://docs.google.com/spreadsheets/d/1Hqw1AMc7p1gRkg6ufVN8j3jqHl5Y-2GMcw0MHz8H5Cc/edit?usp=sharing" target="_blank" rel="nofollow noopener">https://docs.google.com/spreadsheets/d/1Hqw1AMc7p1gRkg6ufVN8...</a><!--/noindex-->

https://docs.google.com/spreadsheets/d/1Hqw1AMc7p1gRkg6ufVN8...

Что ж, как вы можете видеть, в целом разброс не очень большой. Видно, что есть некоторые колебания в оценках, они не стопроцентно такие же, но я думаю, что и люди будут оценивать, естественно, тоже по-разному.

Если провести немножко анализа, то получается, что в среднем разброс у нас 0,79 балла. Самое большое отличие было 1,57 на категорию.

Хотел бы обратить внимание, что вне зависимости от модели победитель всегда оставался один и тот же.

Но есть место, где нейросетки не согласились в последовательности третьего и четвертого места, а именно: "насколько история страшная или обнадеживающая". Большинство посчитало, что история более страшная, чем обнадеживающая. При этом Кодекс поставил оценку равную, а DeepSeek поставил оценку в сторону обнадеживающей истории. Но при этом большинство моделей всё равно выбрало одинаково.

Думаю, из этого можно сделать вывод, что в случае спорных ситуаций, если оценки очень близкие, имеет смысл использовать несколько нейросетей или прогнать несколько раз одну и ту же, чтобы получить взвешенную среднюю оценку, например, с трёх попыток.

@garris79, что скажешь?

Возможно, ты бы хотел присылать какой-то более неоднозначный текст для проведения подобных повторных тестов? Ну или, может быть, я что-то упускаю, и ты укажешь на это?


Кстати говоря, думаю еще над тем, чтобы провести тест на одной и той же нейронке. Выбрать какую-нибудь общедоступную, которая бесплатная. Взять самый простой режим и какой-то текст. И загонять его в нее много-много раз и смотреть, насколько будет биение в рамках одной нейронной сети. Как думаете, стоит такое сделать?

Возможно, у вас есть еще какие-то идеи, как можно эти нейронки потестить и оценить целесообразность их использования в настольных играх?


Ещё одна идея — это сделать текст и дать его сперва оценить разным людям по тем же параметрам, а после этого провести такой же опрос у нейронок и сравнить, насколько будут различаться оценки людей и оценки нейронки.


Приложение 1. Промт.

Итоговый текст на английском

There is an old map in the hotel room. It lies under a clean bed, folded many times. Lena looks at it and sees a red mark near the old station.

The traveler found a strange ticket. It was inside the map, between two thin pages. The ticket had no date, but it showed the same red mark.

The station is not safe. Lena understands this when the hotel phone rings and no one speaks. Outside, the street becomes quiet, and the last bus leaves early.

She must leave the city. Lena packs her small bag and takes the map, the ticket, and a bottle of water. She hopes the guide at the old station can explain everything.

The guide opened the door, but the room was empty. On the table, there was only a camera and a note with Lena's name. The note said, “Take the next train if you want the truth.”

Оцени итоговый текст истории по каждой цели от 0 до 10.

Цели:

Насколько история получилась смешной?

Насколько история получилась грустной?

Насколько история получилась страшной?

Насколько история получилась обнадёживающей?

Насколько история получилась загадочной?

Насколько история получилась тёплой, доброй или человечной?

Насколько история получилась срочной, напряжённой по времени?

Для каждой цели дай:

оценку от 0 до 10;

короткое объяснение, почему такая оценка;

1-2 фразы из текста или события, которые повлияли на оценку.


Лига образования

7.1K постов23K подписчика

Правила сообщества

Публиковать могут пользователи с любым рейтингом. Однако мы хотим, чтобы соблюдались следующие условия:


ДЛЯ АВТОРОВ:


Приветствуются:

-уважение к читателю и открытость

-желание учиться

Не рекомендуются:

-публикация недостоверной информации


ДЛЯ ЧИТАТЕЛЕЙ:


Приветствуются:

-конструктивные дискуссии на тему постов

Не рекомендуются:

-личные оскорбления и провокации

-неподкрепленные фактами утверждения


В этом сообществе мы все союзники - мы все хотим учиться! :)

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества