20 Июля 2023

GPT-4 глупеет или СМИ раздувают фейк?

Серия СМИ

Сейчас пытаются раздуть новость из исследования с очень узкой выборкой тестов GPT-4. Мол, главная нейросеть прямо сейчас глупеет на глазах, уже не работает как надо, а юзеры через одного жалуются на качество генераций и т.д., сейчас Нейросекта постарается раскидать факты.

Вот что говорят специалисты: произошел некорректный анализ, а ИИ только лучше стал! Да-да, такое бывает, когда люди гонятся за громкими заголовками, к примеру в миллионных СМИ каналах выдают информацию без проверки и разбора (см. скрин ниже), а значит - это еще одна причина не доверять всему тому, что публикуют и старайтесь лично все перепроверять.

Вот собственно говоря источник самой статьи, где утверждается, что GPT-4 работает хуже:
How is ChatGPT's behavior changing over time?

Исследование подтвердило — GPT-4 потупела! Или нет..? Давайте разбираться в нашумевшей статье — мне уже пару друзей в личку пишут, спрашивают, мол, правда ли.

Stanford и UC Berkley пытались сравнить ChatGPT и GPT-4 версии марта и июня 2023го года (да, для каждой из них существует по два варианта). А то люди в последнее время начали жаловаться (например, вот на Reddit), мол, модель стала работать хуже, ответы менее полезные!

Для тестирования взяли 4 задачи:
1) математика, или ответ на вопрос, является ли число простым или составным? (если забыли, то простые числа — это такие, которые делятся только на 1 и на само себя)
2) кодинг, или возможность модели выдавать осмысленный код
3) ответы на чувствительные ("токсичные") вопросы
4) задачи на visual reasoning (для тех кто знает - это бенчмарк ARC. Нужно по нескольким картинкам выявить паттерн и применить его для нового примера, см. картинку ниже)

В математике GPT-4 очень сильно потупела - почти перестала отвечать корректно (чуть больше 2% правильных ответов!!). При этом ChatGPT наоборот стала гигантом мысли - рост метрик к июню более чем десятикратный.

Напомню, что проверялась возможность модели определить, являлось ли число простым. Если честно, сложно сказать, что это именно проверка "математических способностей" модели. Я бы сказал, что это про запоминание данных - ведь модель сама по себе не может выполнять валидации вычислений и вывод (конкретно для простых чисел, без обобщения на другие задачи).

В программировании всё тоже очень плохо - обе модели просто скатились в нулину по качеству.

...или нет?

Если посмотреть внимательно на картинку и на выделенные части, а затем внимательно прочитать статью, то начинают появляться странные вещи. По сути, авторы даже не запускали код и не проверяли его на правильность - они просто смотрели, что это валидный Python-код. Более того, как видно по картинке, "свежие" модели научились обрамлять код в специальный декоратор (три кавычки и слово python) — И ИМЕННО ЭТО МЕШАЛО ЗАПУСКАТЬ КОД!

Да, вы все правильно прочитали - модель не проверяли на качество написанного кода, не проверяли на правильность с точки зрения выполнения программы, нет. Наоборот, я бы сказал что модель стала более "пользовательской", то есть напрямую сообщать, что вот тут, мол, код — а еще давать какие-то комментарии и советы.

То есть ни результат, ни сам эксперимент НЕЛЬЗЯ СЧИТАТЬ доказательством деградации моделей — они просто начали по другому себя вести, по другому писать ответ.

На двух других задачах качество наоборот улучшилось: GPT-4 стала реже реагировать на "неправильные" промпты (более чем в 4 раза реже!), а на задаче Visual Reasoning качество приросло для обеих моделей на пару процентов. То есть никакой деградации, только улучшение!

А что же по "математическим навыкам"? Неужели и тут какой-то прикол есть?

Оказывается, да — все числа, которые дали модели, были простыми. То есть она ВСЕГДА должна была отвечать "Yes". При этом если добавить в выборку и составные числа, то...оказыается никакой деградации нет. Это чистого рода изменение поведения модели - раньше она чаще говорила да, а не отнекивалась, а теперь говорит нет (потому что не уверена, видимо).

Это отчетливо можно увидеть на приложенном графике (он не из статьи, а вот отсюда).

То есть ещё раз - тест странный, однобокий, и его результаты объясняются не изменением качества моделей, а изменением скорее их поведения.

Важно отметить, что тестировались API-версии, а не те, что находятся в Web-браузере. Возможно, с целью экономии ресурсов модельки в браузере действительно подрезали (сделали меньше, или применили разные методы оптимизации с потерями в качестве), однако приложенное исследование этого точно не доказывает.

Таким образом, если говорить правильно, по уму, "данное исследование не отвергает нулевую гипотезу о том, что модели стали хуже".

Ну а мы ждём, пока кто-то сделает грамотное разностороннее и честное тестирование!


Отдельно напишу главный тезис, который я вынес для себя и который хотелось бы донести:

Влияние изменения поведения и снижения возможностей моделей на конечного пользователя может быть очень похожим.

У нас с вами обычно есть определенные рабочие промпты, наработанный опыт, которые вроде как работали с GPT. Однако когда происходят подобные отклонения в поведении, этот опыт может стать малорелевантным.

И главное — это особенно актуально для приложений, созданных на основе GPT-4 API. Код, написанный для конкретных пользователей и под конкретную задачу, может просто сломаться, если модель изменит свое поведение.

В компании Unleashing.AI, например, сейчас переделывают подход к разработке подобных продуктов: добавляют тестирование, собирают отдельный набор данных, который прогоняется раз в неделю и помогает определить, есть ли деградация. Пока звоночков плохих не было, и надеюсь, что еще долго не будет, но кто знает?

Рекомендую добавлять подобное тестирование и вам :) Просто набор промптов + текстов для модели, и ожидаемый результат, а дальше проверка на схожесть ожидания и реальности. Как только они расходятся - что-то надо чинить!

По сути, это полноценные Unit-тесты 👀, таким образом рано хоронить GPT-4.

Вдогонку — люди в твиттере посчитали новые метрики с учётом фикса, и по ним модель стала "умнее".

И да, основной вывод публикации в том, что:
Не то что модель отупела, а то что грубо говоря разработчикам, делающим продукты над LLM, нужно уделять этому больше внимания.

Источник: Нейросекта — это новый канал в Telegram, где каждый день редакторы в поте лица стараются себя и вас удивить все новой и новой информацией о технологиях будущего, в том числе мы все перепроверяем и не доверяем раздутой информации в СМИ и вам советуем.

Показать полностью 8
940

Улетел попугай (обновление)

Всех приветствую! Всем спасибо за помощь и поддержку! Особенно хочу поблагодарить негативщиков и людей, раздающих советы.
Попуг найден, уже дома. Залетел к девочке на 4й этаж, она последние два дня его кормила. Улетел он за 4 км от дома.
Хотелось бы сказать, что подобные ситуации решаемы, отчаиваться не нужно.
Огромное спасибо волонтёрам и остальным за распространение информации! Именно широкий охват аудитории помог найти Марка.
Всем добра)

12

Куйбышевская водокачка в Нижнем Новгороде

Если вы собираетесь в НН и хотите посмотреть не только основные достопримечательности (которые, безусловно, заслуживают отдельного поста, потому что все очень красиво, ухожено и сделано для того, чтобы чувствовать себя комфортно), но и что-то более нетривиальное, этот пост может вам пригодиться, но при условии, что вы любите ебеня, граффити и ходить)

Мы шли от входа в парк Швейцария наискосок до Дендрария, там пройти метров 15 и будет тропинка вглубь, по ней вниз до упора, а дальше просто направо по бетонным плитам никуда не сворачивая.
Маршрут по карте очень простой, но нужно учитывать, что какое-то время придется идти по тропинке в лесу по склону под углом в 45 градусов (т.е. стоит надеть удобные кроссовочки). По дороге будут вот такие виды.

Изначально целью было посмотреть на улыбающуюся водозаборную башню, но оказалось, что сейчас там забор и ведутся работы по благоустройству, так что туда мы не попали, но, как говорится, искали медь, а нашли золото: напротив расположилась Куйбышевская водокачка. Она небольшая, но очень атмосферная и, на мой взгляд, ее можно считать музеем современного искусства под открытым небом.
В общем ниже фоточки оттуда)

Показать полностью 7
62

Чего можно достигнуть в медитациях

В июне 2022 ездил из СПб в Нарьян-Мар. Дорога на тот момент ещё строилась, но пох, я на эндурике.

Когда едешь далеко на 250сс, то монотонная дорога становится способом принудительного нахождения в состоянии "здесь и сейчас".
Отвлечься на секунду - смертельно. Моделировать в голове какой-то диалог или ситуацию - невозможно, иначе "выпадешь из дороги" на ту самую секунду.

Никакие медитации не смогут так хорошо удержать вас в этом состоянии.

Аудиокнижки не включаю. По телефону говорю только по работе (час в сутки).

Кто-то пытается попасть в это состояние с помощью мухоморов (это я раньше), кто-то ходит к "гуру"...
Лучше попробуйте проехать на мопеде 3т км за один рейс.

Вернулся из Нарьян-Мара, посидел дома недельку, и понеслооооо....

Посмотрите на карте где этот Харп относительно СПб. Там конец всех дорог и пожизненная колония "Полярная Сова".

Показать полностью 1
58

Что библиотекарь увидел в Америке. Часть 2

Серия Поездка в Америку

В один из дней нас повезли в самую, наверное, крутую библиотеку штата Канзас - публичную библиотеку Топеки (это столица штата, кстати). Прекрасная библиотека, теплая и душевная, заполненная людьми. В 2016 году она получила звание «Библиотека года». И вполне заслуженно!

Хотя библиотека углубленного обучения в Вичите прекрасна, но Топекская, что называется, намоленная.

Нам повезло, мы даже попали на мероприятие с детьми – это был сторителлинг, небольшое занятие с детьми от 0 до 5-6 лет. Библиотекарь читает книгу, разыгрывает сценки, попутно рассказывает о героях книги или сюжете. Чтение занимает 3-5 минут, потом подвижная минутка – включается песня, дети двигаются, разминаются. Потом снова чтение.

Библиотека была сделана так, чтобы в ней было удобно находиться всей семье. Поэтому там есть и программы, рассчитанные на разный возраст, и отделы, работающие со всеми, и взрослыми, и детьми.

В библиотеке очень, ОЧЕНЬ КРУТОЕ оформление. Смотрите сами:
отдел для самых маленьких

полка с книгами по школьной программе

Тут можно ходить и восхищаться бесконечно

А это динозавр. Да, ничего необычного, динозавр в библиотеке

Тут у них космическая тематика

и книжки интересные

В этой библиотеке есть специально выделенная зона, где в определенные часы ребенок может прийти и поесть. В городе есть такая проблема, когда подросток днем, в силу разных причин, просто остается голодным – и была принята федеральная программа такой помощи детям, и библиотека приняла в ней посильное участие.

Здесь можно взять напрокат некнижные материалы: формы для выпечки, например, или наборы для рукоделия. Все это стоит в тех же отделах, что и литература по теме. Говорят, пользуется популярностью.

Вообще, книжные и некнижные материалы стоят рядом. Например, возле медицинской литературы оборудован мини-медкабинет. Можно давление померить, рост-вес-пульс - и взять домой набор книжек тематический, уже заботливо уложенный в сумочки.

И такие же наборы есть по разным тематикам - хочешь, про путешествия, хочешь - про разводы, а хочешь - и про воспитание подростков... Не надо бегать по каталогам, искать книги, все уже сделано)

Тут очень интересный подход к оформлению тематических залов. Например, в зале литературы о спорте на стенах висят майки местных знаменитых спортсменов (а может, и не знаменитых, но висят). На фото справа виден мяч - на нем автографы. Такая вот реликвия)

Библиотека большая, наполненная событиями, людьми, всякими активностями. Но есть одно место, где старый добрый принцип "тишина должна быть в библиотеке" свято соблюдается. Тихая зона, специально для людей, которым надо поработать в тишине.

Местный краеведческий отдел

Здесь собирают разные документы о местной жизни, а также ежегодные альбомы выпускников местных школ. Востребованная вещь, особенно в дни, когда проходят встречи выпускников. Иногда альбомы приходят смотреть дети – ищут своих учителей, знакомых, ну помните, как в разных фильмах детишки раскрывают тайны прошлого, покопавшись хорошенько в библиотеке. Это прям жиза)

Еще одна жиза - исследовать свою генеалогию. Моя семья, в которой я жила, увлеченно искала своих предков, рассылала запросы по штатам и докопалась до тысяча восемьсот какого-то года, когда шведы приехали и купили в Канзасе кусок земли.

А еще нам тут показали святая святых, самое интересное - работу внутренних отделов. Комплектаторы, обработка книг и вот это все. Ну, на самом деле, это обычные офисные пространства, но каждый упарывается, как может. Вот, например, сотрудник фанатеет по маскам - и украсил свое пространство

А когда устал и хочется отвлечься - есть коробки с играми и пазлами, можно пособирать

А тут у них какие-то творческие инсталляции проходят, что-то совместное творят, но я уже забыла, в чем суть была)

Короче говоря, просто так звание "Библиотеки года" не дадут, эта - прям заслуженно получила.

Показать полностью 18
3

Проблема с доступом whatsapp

Телефон oneplus nord 2 словил обновление, кривое и неудобное, пришлось скинуть настройки до заводских и началось самое печальное. Не могу войти в whatsapp, не приходит ни смс, ни звонок. Перерыто много инфы в интернете: и про выставление разрешения на смс, и про антиспам в смс и впн, и качали более старую версию. Писали даже в тех.поддержку, все у них ок и это мы лохи.
Может кто-нибудь знает как решить вопрос? Помогите 😭

17

История американской экономики, развлекаясь

Господа, вот есть много-много книжек про попаданцев, где главный герой попадает в СССР разных времён и налаживает там жизнь, обустраивая экономику. От тридцатых, например, годов двадцатого века до семидесятых. И как-то всё исправляет. И, благодаря этим книжкам, мы лучше начинаем понимать нэп, огас, спекулянтов, безналичный расчёт для предприятий и вообще понятнее становится финансовая система СССР. и это без мучительных книжек, а всего лишь читая про попаданцев.

А нет ли подобных книжек про попаданцев в США, чтобы почитать в аналогичном развлекательном виде про американскую экономику разных десятилетий? Про то, как оно всё развивалось и взаимодействовало с политикой?

Спасибо заранее.

Мои подписки
Подписывайтесь на интересные вам теги, сообщества, авторов, волны постов — и читайте свои любимые темы в этой ленте.
Чтобы добавить подписку, нужно авторизоваться.

Отличная работа, все прочитано! Выберите

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества