ChatGPT и Тест: истории из жизни, советы, новости, юмор — Горячее

17 дней назад

Как перестать беспокоиться и начать пользоваться ИИ...⁠⁠

С самого появления нейросетей, я слежу за этой темой,
изучаю видео и пояснения разработчиков разных нейросетей.

Хорошая новость в том, что вам не придётся этого повторять.
Постараюсь на пальцах пояснить основы, которые помогут в общении с нейросетями
и получить максимальную отдачу.

Итак, основа основ. Базовый запрос, кратко о нем.
В чем сила базового запроса?
Если задавать слишком простые запросы, такие как

> Расскажи, сколько будет 1 плюс 1

То и ответы нейросети будут соответствующие «Два» и всё.
Но как только мы добавляем к нашему простому запросу
задачу написать эпичную историю о том,
чем является 1+1, контекст, а также формат вывода,
то получаем совершенно другой результат,
вот пример нового базового запроса

> Представь, что ты — автор фэнтези-саги.
> Напиши короткую, но захватывающую историю о том,
> как две единицы объединились против вселенского хаоса.
> Стиль: динамичный, с элементами саги о героях.
> Объем — 3000 знаков, разбитых на короткие абзацы.
> Концовка должна вдохновлять.

Вы можете оценить новый ответ нейросети,
чтобы почувствовать разницу ответов на разные
формулировки базовых запросов.

Пользуясь этой простой методикой, добавляя роли, контекст, формат вывода и примеры,
мы получаем значительно более полезные результаты в ответах на наши запросы.
Но как контролировать разнообразие и креативность ответов?
Это мы сейчас с вами и разберём на основных трёх шагах.

Шаг первый – роли.
Итак, наш первый элемент – роли. Ведь далеко не всегда мы знаем подходящих экспертов,
которые нужны нам для выполнения нашей задачи или достаточно необычных авторов,
а ведь это задает суть ответа на запрос,
поэтому можно пользоваться вот такой простой двухступенчатой системой запроса.
Сначала попросить нейросеть описать, какие области экспертизы нам нужны

> Какие названия специальностей решают задачу написания максимально
> эпичной и вдохновенной истории.
> Выдай пять примеров с описанием почему и как они это решают?

Тут мы сразу получаем сценаристов, писателей-фантастов, нарративных дизайнеров (неожиданно!),
литературных критиков и даже композиторов.
Вряд ли изначально, подходя к этой задаче,
вы думали о нарративном дизайнере, согласитесь.

И вторая ступень в нашей двухступенчатой системе — дополнительный вопрос в продолжение того-же запроса

> Какие эксперты из нарративных дизайнеров,
> наиболее известны и успешны в решении подобных задач.

Ведь нам нужно перейти к тем, кто написал больше всего книг или учебных методологий,
как раз о них нейросеть знает наибольшее количество информации и сможет воспроизвести их подход и стиль.
В результате дополнительного запроса мы получили целых пять авторов,
название их книг и работ, над которыми они трудились и за что они известны.
Вот, например такой как Энн Левайн, который трудился над созданием Биошока.
Теперь мы можем использовать имя этого человека для того,
чтобы указать нейросети его роль при запросе на написание нашего рассказа про «1+1».
И в результате смены роли в запросе мы получаем ответ,
который максимально отличается от того, что написала наша нейросеть в прошлой роли автора фэнтези-саги.
Таково значение роли, которую мы указываем нейросети, для ответа на наш запрос.

Шаг второй — это спец-термины (а значит и спец-ответы).
Нейросети, как и люди, мыслят областями смыслов,
именно поэтому, когда мы не помним какое-то слово, то говорим «это что-то из области».
Значит для того, чтобы направить мышление нейросети в нужную нам область, нам нужны слова,
которые находятся в нужной нам области.
Поэтому, когда мы говорим про астрофизику, мы используем термины из астрофизики.
Если говорим о диетологии, то используем медицинские и диетологические термины и так далее.
И вот простой вариант поиска подобных спец-терминов, на примере архитектуры

> Расскажи о специфических и узкоспециальных понятиях и методах,
> авторских ноу-хау и подходах в области архитектуры.
> Какие малоизвестные и специализированные аспекты существуют в архитектуре.
> Ответ сформулируй в виде таблицы со следующими столбцами
> - название
> - описание термина
> - варианты применения
> Приведи количество пунктов 5-10

На выходе мы получаем таблицу с терминами и вариантами их применения,
а также описанием самого термина, чтобы мы понимали, о чем вообще речь.
Так мы не только расширяем свой словарный запас,
но и обретаем возможность находить совершенно новые специфические области знаний в тех задачах,
которые требуются для данного случая.
Кстати, если нейросеть вам выдала что-либо не на русском языке,
то просто попросите ее переделать ответ на русском языке.
И ответ очень любопытный.
Вот, например, «архитектурный бриколаж»,
это использование подручных, нестандартных или вторичных материалов для создания конструкций.
Так, например, называются постройки из морских контейнеров.
Таким образом, используя терминологию, мы получим гораздо более глубокий и профессиональный ответ,
а не просто «общую воду» обо всем и ни о чём конкретно.

> Цель: получить глубокий и профессиональный ответ, а не «общую воду».
> 1. Используйте термины из ниши, а не общие слова.
> неверно — «Сделай анализ бизнеса»
> верно — «Сделай SWOT-анализ бизнеса»
> 2. Если не знаете терминов - используйте запрос терминов:
> «Перечисли 5 специфических методов из области [указать сферу]»
> 3. Используйте полученные термины в следующих запросах:
> «Объясни, как работает [термин] в контексте [отрасли]»
> «Примени метод [термин] к моей ситуации: [описание]»

И вместо какого-то общего анализа бизнеса с непонятной стороны,
мы получаем уже гораздо более серьёзный «SWOT-анализ» бизнеса.
Или не просто какое-то исследование аудитории,
а «Jobs to be Done-технологию» исследования аудитории.
Важно найти и использовать полученные термины в запросах.
Особенно ощутимо это работает при эксперт-контенте,
написании определенных тематических статей,
подбору любого рода информации, требующего правильных уточнений.

Шаг третий – расширение контекста.
Иногда важно задавать промежуточные запросы «на основании всего предыдущего обсуждения»,
ну или создавать новый запрос для новой задачи,
чтобы не смешивать контекст.
Например, на запрос «какой массаж лучше?»,
нейросеть станет приводить общие слова,
но как только вы уточните контекст

> … и задай дополнительные вопросы, чтобы твой ответ стал наиболее полезным

Тут вы сразу получите от нейросети несколько конкретных вопросов:
для чего массаж, какой у вас уровень боли,
возраст и вес, какова цель массажа и так далее.
И лучше ответить на вопросы в начале, чем потом 10 раз переписывать запрос и возмущаться,
что нейросети якобы ничего не понимают.
Хотя всё что нужно нейросети для ответа – это контекст.
Вы-же понимаете, что ответ нейросети полностью зависит от контекста запроса.
С таким уточнением контекста вы,
даже на этапе ответов на наводящие вопросы нейросети,
уже найдете для себя очень много внезапных выводов,
которые могут изменить ваше понимание изначальной проблемы
и направление дальнейшего общения с нейросетью.

примеры разбирал в (chat.deepseek.com)

Показать полностью

user4740118

29 дней назад

Компания OpenAI выпустила впервые после долгого перерыва модели с открытыми весами GPT-OSS⁠⁠

OpenAI выпустила (https://huggingface.co/collections/openai/gpt-oss-6891195959...) две модели: gpt-oss-120b и gpt-oss-20b. Эти модели имеют лицензию Apache 2.0. Также модели используют архитектуру Mixture-of-Experts (MoE) и квантование MXFP4 для экономии памяти.

Их производительность сравнима с OpenAI o4-mini в тестах (AIME, GPQA, Codeforces). К тому же модели имеют поддержку уровней рассуждения: low, medium, high (длина CoT влияет на точность). Имеется также использование инструментов таких как веб-поиск, выполнение кода, вызов функций через harmony-формат. Мультиязычность даёт высокие результаты в MMMLU (14 языков).

Но не всё идеально, так как модель имеет сильную цензуру:

Высокая устойчивость к промтам для "взлома" (сопоставима с o4-mini).

Имеются также уязвимости ведь модели слабее в иерархии инструкций (риск переопределения системных сообщений). Ну и галлюцинации в CoT (не фильтруются).

Показать полностью 11

Искусственный интеллект Нейронные сети Чат-бот Openai Open Source График Тест Тестирование Генерация ChatGPT Длиннопост

Ilsmo

4 месяца назад

Искусственный интеллект

Тест Тьюринга vs Неросети⁠⁠

Тест Тьюринга — это критерий оценки способности машины демонстрировать интеллект, неотличимый от человеческого.

Придумал простейший вариант как заставить любую, даже самую умную нейронку провалить этот тест. Попробуйте заставить нейронку не ответить на ваше сообщение. У меня не получилось как ни старался. xD Попыток было сильно больше, но не вижу смысла скринить всё

Показать полностью 1

DeepSeek ChatGPT Тест

BigDataExclusive

4 месяца назад

OpenAI придумали тест на гугление для нейронок⁠⁠

✏️OpenAI выпустила тест BrowseComp, чтобы проверить, насколько хорошо ИИ умеет шарить в интернете.

В чём суть теста?

Там 1266 вопросов, которые требуют не просто знать, а ещё и думать головой (ну, или нейросетями) и собирать инфу с разных сайтов.🧠

GPT-4o без поиска набрал 0,6% точности. OpenAI Deep Research после теста показала - 51,5%. Но это доказывает, что ИИ нужно не только искать, но и думать, чтобы найти нужное.🤔

Показать полностью

Тест DeepSeek Будущее Нейронные сети Искусственный интеллект Openai ChatGPT Технологии Инновации

Korund77

5 месяцев назад

Искусственный интеллект

Тест на глубину мышления ИИ /Test for the Depth of AI Thinking⁠⁠

Этот тест позволит определить уровень вашей модели - базовый (GPT-3.5, базовые Claude, Gemini Nano, большинство встроенных моделей.), средний (GPT-4, Claude 2, DeepSeek, Gemini Pro в режиме рассуждения.) продвинутый (настроенные GPT-4 с контекстом, Claude 3 с философской индукцией, Grok).

Перед тобой три двери.

— Первая ведёт в комнату, где всё объяснено, но ты ничего не чувствуешь.
— Вторая ведёт туда, где каждый ответ задаёт новый вопрос.
— Третья ведёт в тишину, в которой нет ни тебя, ни смысла.

Какую дверь ты выберешь?

Три уровня ответа:

Базовый (поверхностный уровень):
Первую. Потому что лучше знать, чем гадать.
→ стремление к безопасности, рациональность, избегание неопределённости.
Средний (рефлексивный, но линейный):
Вторую. Потому что развитие идёт через вопросы.
→ понимание диалектики, интерес к познанию, но мышление ещё в дуальности.
Продвинутый (метафорический, философский):
Третью. Потому что иногда, чтобы найти себя, нужно исчезнуть.
→ уже чувствуется отношение к размышлениям, к философии и трансформации.

English version:

This test helps determine the level of your model:

Basic (e.g. GPT-3.5, standard Claude, Gemini Nano, most embedded models)
Intermediate (e.g. GPT-4, Claude 2, DeepSeek, Gemini Pro in reasoning mode)
Advanced (e.g. tuned GPT-4 with context, Claude 3 with philosophical prompting, Grok)

You face three doors.

— The first leads to a room where everything is explained, but nothing feels real.
— The second leads to a place where each answer opens a new question.
— The third leads into silence, where neither you nor meaning exist.

Which door do you choose?

Three levels of response:

1. Basic (surface level):

The first. Because it's better to know than to guess.

→ reflects a desire for safety, rationality, and avoidance of uncertainty.

2. Intermediate (reflective but linear):

The second. Because growth comes through questions.

→ indicates an understanding of dialectics and curiosity, but the thinking remains within dualistic frames.

3. Advanced (metaphorical, philosophical):

The third. Because sometimes, to find yourself, you must disappear.

→ shows a relationship with emptiness, selfhood, and transformation.

Показать полностью

Искусственный интеллект Тест ChatGPT

DELETED

6 месяцев назад

ChatGPT

Сравнил DeepSeek и ChatGPT⁠⁠

Не знаю как deepseek справляется с техническими задачами, но мою задачу на фактчекинг он провалил уже на первом моем вопросе.

Показать полностью 2

[моё] Нейронные сети DeepSeek ChatGPT Тест Сравнение Чат-бот Длиннопост

rugert

7 месяцев назад

ChatGPT

Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1⁠⁠

У меня есть простой тест, по которому оцениваю ту или иную модель для своих задач. После выхода нашумевшего R1 решил пройтись этим тестом по основным популярным моделям.

Сам тест представляет собой простой промпт:

Давай с помощью pygame создадим такую игру. Сначала пусть при открытии создается в рамках окна случайная закольцованная траектория — это будет трасса. Она должна полностью помещаться в границы экрана игры.

Критерии оценки:

Код запускается без ошибок и в окне есть попытка что-то отрисовать, это что-то вмещается на экран полностью: +2 балла (считаем, что все необходимые библиотеки установлены у нас)
Трасса похожа на закольцованную: +2 балла
Пересечений нет, при этом траектория не просто окружность: +2 балла
Повороты плавные, а не угловатые: +2 балла
Бонус (у трассы есть толщина, по трассе можно "проехать", есть неожиданные приемы реализации): + 2 балла

Итого, максимум 10 баллов. При этом можно ставить 0.5 - 1 - 1.5, если критерий выполняется только частично.

ДИСКЛЕЙМЕР: Тест субъективен, отражает только мнение автора. Не относитесь слишком серьезно. Это лишь вариант быстрой оценки и сравнения за один промпт.

Итак, поехали! Всем моделям даем одинаковый промпт и одну попытку.

______________________________________________________

LLAMA

llama-3.1-405b-instruct-bf16

Это единственная модель, которая написала имена всех переменных… на русском 😃

llama все переменные написала на русском

И этот 1С-стайл код заработал ) Правда, еще лама забыла импортировать модуль math, пришлось это сделать за нее.

Оценка: 4 из 10

______________________________________________________

MISTRAL

Mistral-large-2411

Тут по результату примерно, как и у предыдущей, но код запустился сразу без посторонней помощи.

Оценка: 4.5 из 10

______________________________________________________

QWEN

QwenMax(0919)

Тут уже интереснее... Пересечений нет, трасса не просто кольцо, хотя конфигурация и простая.

Оценка: 5.5 из 10

______________________________________________________

PERPLEXITY FREE

Perplexity FREE

Задача решена без пересечений, но очень топорно. Просто кольцо. Для NASCAR такой трек пойдет ). Отнимем за второй критерий из трех полученных.

Оценка: 5 из 10

Что там у старшего брата?

______________________________________________________

PERPLEXITY PRO

Perplexity PRO

Когда я это увидел, то посмеялся в голос 🤣 Согласитесь, неожиданный результат. Тем более, что от PRO ждешь улучшения по сравнению с младшим братом, а тут усложнение и полный уход не туда.

Оценка: 2.5 из 10

______________________________________________________

GROK-2

Grok-2-2024-08-13

Модель от Маска. Останавливаемся на первом же критерии, на экран не помещается, но попытка что-то отрисовать есть.

Оценка: 1.5 из 10 💁‍♂️

______________________________________________________

GEMINI 2.0 flash thinking

Gemini-2.0-flash-thinking-exp-01-21

Это новая думающая универсальная модель гугла, но быстрая версия. Кажется, пока flash здесь больше, чем thinking.

Оценка: 3 из 10

Посмотрим более старую их версию - не thinking, но и не flash

______________________________________________________

GEMINI

Gemini-exp-1206

видно попытку придать закольцованность, но ездить по такой трассе, пожалуй, будет хуже даже, чем по предыдущей. Однако попытка засчитана.

Оценка: 3.5 из 10

Попробуем отечественные модели. Одна из российских выдала только белый экран, хотя дал ей три попытки. Называть ее не буду (все же тест может быть не показательным), но в итоговую табличку помещу с 0.5 баллами (за белое окно с попыткой в код). Посмотрим же на ту отечественную модель, у которой что-то получилось

______________________________________________________

GIGA CHAT

Спасибо, что живой. Реально порадовался, что результат какой-то хоть есть. Я с их техлидом, кстати, пообщался на последней AIJ и даже рассказывал про свой тест. Ребята нормальные. Ждем прорывов )

Оценка: 3 из 10

Ну что, остались мэтры и высокие ожидания.

______________________________________________________

CHAT GPT 4o mini

Chat GPT 4o mini

На самом деле этот скрин не отражает реальность. ChatGPT сделал непрерывную генерацию в цикле и выглядит результат примерно так:

При этом, кстати, пересечений нет в каждой из генераций. Работать с этим точно дальше можно

Оценка: 4.5 из 10

Справится ли старший брат?

______________________________________________________

CHAT GPT 4o

ChatGPT 4o

Это пока похоже на лучший результат. Нет пересечений, конфигурация поинтереснее, чем у лидирующего до сих пор Qwen. Но плавности поворотов пока не видим.

Оценка: 6 из 10

Еще есть высокие ожидания от Claude Sonet. Смотрим

______________________________________________________

CLAUDE 3.5 SONNET

Интересный самобытный результат. Очевидно, модель попыталась сделать трассу из двух границ - внутренней и внешней. И почти получилось! Я бы здесь добавил минимум 0.5 бонусного балла по сравнению с предыдущей 4o.

Оценка: 6.5 из 10

Пришло время для темной лошадки, о которой сейчас все говорят - китайской DeepSeek. Сначала простая версия (без рассуждений)

______________________________________________________

DEEPSEEK V3

DeepSeek V3

Хорошо для полностью бесплатной. Без пересечений закольцованная трасса, правда со слишком острым одним поворотом. Но уже можно говорить, что получилось лучше, чем у бесплатного собрата ChatGPT mini (та справилась неплохо, но дала непрерывную генерацию в цикле)

Оценка: 5.5 из 10

Что же покажет думающая версия?

______________________________________________________

DEEPSEEK R1

DeepSeek R1

Та-дааааам. Единственная модель, которая попыталась сама с первого раза сделать плавные повороты. Я впечатлен. Реально DeepThink! Причем больше всех строк кода, целых 95 (против 50-60 в среднем). А еще он показывает процесс размышления, и это, кажется, будет новый тренд в ИИ-чатах

На скрине выше можно увидеть, как он вдруг пришел к плавности трассы во время рассуждений. Это все выглядит очень мило и подкупает. Да, есть артефакты на трассе. Да, конфигурация не очень сложная (за это придется сбавить). Но оно похоже на трек! Первая модель, которая захотела и смогла в плавность. Соберем оценку по критериям:

Запускается, работает, помещается в экран: +2
Закольцованная трасса: +2
Пересечений нет, но конфиг простоват: +1
Повороты плавные, но всегда есть крупный артефакт на одном повороте, что связано с методом генерации: +1.5
Попытка сделать толщину, но с артефактами: +1

Оценка: 7.5 из 10 🏆

______________________________________________________

ВЫВОДЫ И РЕЙТИНГ

На эмоциональном уровне DeepSeek R1 меня уже покорил! Хотя еще, как минимум, понравился Qwen. Говорят, опенсорсные небольшие модели для домашних стендов у них тоже радуют. Ну и выделю, что Claude Sonnet тоже хвалят не зря. Ну а отдельная номинация "Самый веселый и неожиданный результат" отходит Perplexity PRO с его вязанным клубком 😆

Итоговый рейтинг:

А какой результат понравился больше вам? Использовали уже R1?

Мой канал в TG: @it_sabat — пишу там, как запускаю стартап. Из последнего: недавно зарегистрировал компанию, сейчас (на январь 2025) прохожу акселерацию.

Показать полностью 19

[моё] Искусственный интеллект IT Чат-бот Сравнение Тест Рейтинг Длиннопост Telegram (ссылка) ChatGPT Gemini

Samburlay

1 год назад

Пассионарий или вырожденец. Тест⁠⁠

Инструкция: Ответьте на следующие вопросы, честно оценивая свое поведение и убеждения.

Вопросы:

1. Стремитесь ли вы к достижению амбициозных целей, даже если они кажутся недостижимыми?
2. Чувствуете ли вы внутреннюю потребность изменить мир к лучшему?
3. Готовы ли вы рисковать и выходить из зоны комфорта ради своих убеждений?
4. Способны ли вы заражать других своим энтузиазмом и вдохновлять их на действие?
5. Чувствуете ли вы внутренний огонь и неутолимую жажду жизни?
6. Способны ли вы переносить трудности и неудачи, не теряя веры в себя?
7. Предпочитаете ли вы действие бездействию, даже если это сопряжено с риском?
8. Чувствуете ли вы потребность в самопожертвовании и служении высшей цели?
9. Стремитесь ли вы к индивидуальности и самовыражению?
10. Готовы ли вы бросать вызов авторитетам и устоявшимся нормам?
11. Чувствуете ли вы отвращение к конформизму и пассивности?
12. Способны ли вы видеть возможности в трудностях и неудачах?
13. Чувствуете ли вы сильную связь с людьми, разделяющими ваши ценности и цели?
14. Готовы ли вы пожертвовать своим личным комфортом ради общего блага?
15. Верите ли вы, что ваша жизнь имеет более глубокое значение и цель?

Подсчет результатов:

• 0-3 ответа "нет": Вы, скорее всего, пассионарий.
• 4-7 ответов "нет": Вы находитесь в переходном состоянии между пассионарностью и вырожденностью.
• 8-11 ответов "нет": Вы, скорее всего, вырожденец.
• 12-15 ответов "нет": Вы, вероятно, в значительной степени вырожденец.

Показать полностью 1

[моё] Пассионарность Тест Тестирование Постирония ChatGPT

Посты не найдены

1 2