Свежие публикации

Здесь собраны все публикуемые пикабушниками посты без отбора. Самые интересные попадут в Горячее.

20 Июля 2023

GPT-4 глупеет или СМИ раздувают фейк?

GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки

Сейчас пытаются раздуть новость из исследования с очень узкой выборкой тестов GPT-4. Мол, главная нейросеть прямо сейчас глупеет на глазах, уже не работает как надо, а юзеры через одного жалуются на качество генераций и т.д., сейчас Нейросекта постарается раскидать факты.

Вот что говорят специалисты: произошел некорректный анализ, а ИИ только лучше стал! Да-да, такое бывает, когда люди гонятся за громкими заголовками, к примеру в миллионных СМИ каналах выдают информацию без проверки и разбора (см. скрин ниже), а значит - это еще одна причина не доверять всему тому, что публикуют и старайтесь лично все перепроверять.

Вот собственно говоря источник самой статьи, где утверждается, что GPT-4 работает хуже:
How is ChatGPT's behavior changing over time?

Исследование подтвердило — GPT-4 потупела! Или нет..? Давайте разбираться в нашумевшей статье — мне уже пару друзей в личку пишут, спрашивают, мол, правда ли.

Stanford и UC Berkley пытались сравнить ChatGPT и GPT-4 версии марта и июня 2023го года (да, для каждой из них существует по два варианта). А то люди в последнее время начали жаловаться (например, вот на Reddit), мол, модель стала работать хуже, ответы менее полезные!

Для тестирования взяли 4 задачи:
1) математика, или ответ на вопрос, является ли число простым или составным? (если забыли, то простые числа — это такие, которые делятся только на 1 и на само себя)
2) кодинг, или возможность модели выдавать осмысленный код
3) ответы на чувствительные ("токсичные") вопросы
4) задачи на visual reasoning (для тех кто знает - это бенчмарк ARC. Нужно по нескольким картинкам выявить паттерн и применить его для нового примера, см. картинку ниже)

GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки
GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки

В математике GPT-4 очень сильно потупела - почти перестала отвечать корректно (чуть больше 2% правильных ответов!!). При этом ChatGPT наоборот стала гигантом мысли - рост метрик к июню более чем десятикратный.

Напомню, что проверялась возможность модели определить, являлось ли число простым. Если честно, сложно сказать, что это именно проверка "математических способностей" модели. Я бы сказал, что это про запоминание данных - ведь модель сама по себе не может выполнять валидации вычислений и вывод (конкретно для простых чисел, без обобщения на другие задачи).

GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки

В программировании всё тоже очень плохо - обе модели просто скатились в нулину по качеству.

...или нет?

Если посмотреть внимательно на картинку и на выделенные части, а затем внимательно прочитать статью, то начинают появляться странные вещи. По сути, авторы даже не запускали код и не проверяли его на правильность - они просто смотрели, что это валидный Python-код. Более того, как видно по картинке, "свежие" модели научились обрамлять код в специальный декоратор (три кавычки и слово python) — И ИМЕННО ЭТО МЕШАЛО ЗАПУСКАТЬ КОД!

Да, вы все правильно прочитали - модель не проверяли на качество написанного кода, не проверяли на правильность с точки зрения выполнения программы, нет. Наоборот, я бы сказал что модель стала более "пользовательской", то есть напрямую сообщать, что вот тут, мол, код — а еще давать какие-то комментарии и советы.

То есть ни результат, ни сам эксперимент НЕЛЬЗЯ СЧИТАТЬ доказательством деградации моделей — они просто начали по другому себя вести, по другому писать ответ.

GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки

На двух других задачах качество наоборот улучшилось: GPT-4 стала реже реагировать на "неправильные" промпты (более чем в 4 раза реже!), а на задаче Visual Reasoning качество приросло для обеих моделей на пару процентов. То есть никакой деградации, только улучшение!

А что же по "математическим навыкам"? Неужели и тут какой-то прикол есть?

Оказывается, да — все числа, которые дали модели, были простыми. То есть она ВСЕГДА должна была отвечать "Yes". При этом если добавить в выборку и составные числа, то...оказыается никакой деградации нет. Это чистого рода изменение поведения модели - раньше она чаще говорила да, а не отнекивалась, а теперь говорит нет (потому что не уверена, видимо).

Это отчетливо можно увидеть на приложенном графике (он не из статьи, а вот отсюда).

То есть ещё раз - тест странный, однобокий, и его результаты объясняются не изменением качества моделей, а изменением скорее их поведения.

Важно отметить, что тестировались API-версии, а не те, что находятся в Web-браузере. Возможно, с целью экономии ресурсов модельки в браузере действительно подрезали (сделали меньше, или применили разные методы оптимизации с потерями в качестве), однако приложенное исследование этого точно не доказывает.

Таким образом, если говорить правильно, по уму, "данное исследование не отвергает нулевую гипотезу о том, что модели стали хуже".

Ну а мы ждём, пока кто-то сделает грамотное разностороннее и честное тестирование!

GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки


Отдельно напишу главный тезис, который я вынес для себя и который хотелось бы донести:

Влияние изменения поведения и снижения возможностей моделей на конечного пользователя может быть очень похожим.

У нас с вами обычно есть определенные рабочие промпты, наработанный опыт, которые вроде как работали с GPT. Однако когда происходят подобные отклонения в поведении, этот опыт может стать малорелевантным.

И главное — это особенно актуально для приложений, созданных на основе GPT-4 API. Код, написанный для конкретных пользователей и под конкретную задачу, может просто сломаться, если модель изменит свое поведение.

В компании Unleashing.AI, например, сейчас переделывают подход к разработке подобных продуктов: добавляют тестирование, собирают отдельный набор данных, который прогоняется раз в неделю и помогает определить, есть ли деградация. Пока звоночков плохих не было, и надеюсь, что еще долго не будет, но кто знает?

Рекомендую добавлять подобное тестирование и вам :) Просто набор промптов + текстов для модели, и ожидаемый результат, а дальше проверка на схожесть ожидания и реальности. Как только они расходятся - что-то надо чинить!

По сути, это полноценные Unit-тесты 👀, таким образом рано хоронить GPT-4.

GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки

Вдогонку — люди в твиттере посчитали новые метрики с учётом фикса, и по ним модель стала "умнее".

И да, основной вывод публикации в том, что:
Не то что модель отупела, а то что грубо говоря разработчикам, делающим продукты над LLM, нужно уделять этому больше внимания.

GPT-4 глупеет или СМИ раздувают фейк? Текст, Нейронные сети, Интересное, ChatGPT, Искусственный интеллект, Чат, Чат-бот, Полезное, Лайфхак, Длиннопост, СМИ и пресса, Разборки

Источник: Нейросекта — это новый канал в Telegram, где каждый день редакторы в поте лица стараются себя и вас удивить все новой и новой информацией о технологиях будущего, в том числе мы все перепроверяем и не доверяем раздутой информации в СМИ и вам советуем.

Показать полностью 8

Peмонт тeлecкопа "Xaббл", 7 дeкaбpя 1993 года

Peмонт тeлecкопа "Xaббл", 7 дeкaбpя 1993 года Телескоп Хаббл, Космос

🌎Tg

Показать полностью 1

Улетел попугай (обновление)

Всех приветствую! Всем спасибо за помощь и поддержку! Особенно хочу поблагодарить негативщиков и людей, раздающих советы.
Попуг найден, уже дома. Залетел к девочке на 4й этаж, она последние два дня его кормила. Улетел он за 4 км от дома.
Хотелось бы сказать, что подобные ситуации решаемы, отчаиваться не нужно.
Огромное спасибо волонтёрам и остальным за распространение информации! Именно широкий охват аудитории помог найти Марка.
Всем добра)

Пикабушники, рискнете бросить вызов хранителям стихий?

Тьма, угрожающая Эсфрозену, добралась и до Пикабу. Берите лучших воинов и попробуйте одолеть грозных стражей!

Куйбышевская водокачка в Нижнем Новгороде

Если вы собираетесь в НН и хотите посмотреть не только основные достопримечательности (которые, безусловно, заслуживают отдельного поста, потому что все очень красиво, ухожено и сделано для того, чтобы чувствовать себя комфортно), но и что-то более нетривиальное, этот пост может вам пригодиться, но при условии, что вы любите ебеня, граффити и ходить)

Мы шли от входа в парк Швейцария наискосок до Дендрария, там пройти метров 15 и будет тропинка вглубь, по ней вниз до упора, а дальше просто направо по бетонным плитам никуда не сворачивая.
Маршрут по карте очень простой, но нужно учитывать, что какое-то время придется идти по тропинке в лесу по склону под углом в 45 градусов (т.е. стоит надеть удобные кроссовочки). По дороге будут вот такие виды.

Куйбышевская водокачка в Нижнем Новгороде Граффити, Стрит-арт, Путешествие по России, Нижний Новгород, Мат, Длиннопост
Куйбышевская водокачка в Нижнем Новгороде Граффити, Стрит-арт, Путешествие по России, Нижний Новгород, Мат, Длиннопост

Изначально целью было посмотреть на улыбающуюся водозаборную башню, но оказалось, что сейчас там забор и ведутся работы по благоустройству, так что туда мы не попали, но, как говорится, искали медь, а нашли золото: напротив расположилась Куйбышевская водокачка. Она небольшая, но очень атмосферная и, на мой взгляд, ее можно считать музеем современного искусства под открытым небом.
В общем ниже фоточки оттуда)

Куйбышевская водокачка в Нижнем Новгороде Граффити, Стрит-арт, Путешествие по России, Нижний Новгород, Мат, Длиннопост
Куйбышевская водокачка в Нижнем Новгороде Граффити, Стрит-арт, Путешествие по России, Нижний Новгород, Мат, Длиннопост
Куйбышевская водокачка в Нижнем Новгороде Граффити, Стрит-арт, Путешествие по России, Нижний Новгород, Мат, Длиннопост
Куйбышевская водокачка в Нижнем Новгороде Граффити, Стрит-арт, Путешествие по России, Нижний Новгород, Мат, Длиннопост
Куйбышевская водокачка в Нижнем Новгороде Граффити, Стрит-арт, Путешествие по России, Нижний Новгород, Мат, Длиннопост
Показать полностью 7

Чего можно достигнуть в медитациях

Чего можно достигнуть в медитациях Мото, Медитация, Нарьян-Мар, Харп, Усинск, Длиннопост, Дальнобойщики

В июне 2022 ездил из СПб в Нарьян-Мар. Дорога на тот момент ещё строилась, но пох, я на эндурике.

Когда едешь далеко на 250сс, то монотонная дорога становится способом принудительного нахождения в состоянии "здесь и сейчас".
Отвлечься на секунду - смертельно. Моделировать в голове какой-то диалог или ситуацию - невозможно, иначе "выпадешь из дороги" на ту самую секунду.

Никакие медитации не смогут так хорошо удержать вас в этом состоянии.

Аудиокнижки не включаю. По телефону говорю только по работе (час в сутки).

Кто-то пытается попасть в это состояние с помощью мухоморов (это я раньше), кто-то ходит к "гуру"...
Лучше попробуйте проехать на мопеде 3т км за один рейс.

Вернулся из Нарьян-Мара, посидел дома недельку, и понеслооооо....

Посмотрите на карте где этот Харп относительно СПб. Там конец всех дорог и пожизненная колония "Полярная Сова".

Чего можно достигнуть в медитациях Мото, Медитация, Нарьян-Мар, Харп, Усинск, Длиннопост, Дальнобойщики
Показать полностью 1

Что библиотекарь увидел в Америке. Часть 2

В один из дней нас повезли в самую, наверное, крутую библиотеку штата Канзас - публичную библиотеку Топеки (это столица штата, кстати). Прекрасная библиотека, теплая и душевная, заполненная людьми. В 2016 году она получила звание «Библиотека года». И вполне заслуженно!

Хотя библиотека углубленного обучения в Вичите прекрасна, но Топекская, что называется, намоленная.

Нам повезло, мы даже попали на мероприятие с детьми – это был сторителлинг, небольшое занятие с детьми от 0 до 5-6 лет. Библиотекарь читает книгу, разыгрывает сценки, попутно рассказывает о героях книги или сюжете. Чтение занимает 3-5 минут, потом подвижная минутка – включается песня, дети двигаются, разминаются. Потом снова чтение.

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Библиотека была сделана так, чтобы в ней было удобно находиться всей семье. Поэтому там есть и программы, рассчитанные на разный возраст, и отделы, работающие со всеми, и взрослыми, и детьми.

В библиотеке очень, ОЧЕНЬ КРУТОЕ оформление. Смотрите сами:
отдел для самых маленьких

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

полка с книгами по школьной программе

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Тут можно ходить и восхищаться бесконечно

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост
Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

А это динозавр. Да, ничего необычного, динозавр в библиотеке

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Тут у них космическая тематика

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

и книжки интересные

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

В этой библиотеке есть специально выделенная зона, где в определенные часы ребенок может прийти и поесть. В городе есть такая проблема, когда подросток днем, в силу разных причин, просто остается голодным – и была принята федеральная программа такой помощи детям, и библиотека приняла в ней посильное участие.

Здесь можно взять напрокат некнижные материалы: формы для выпечки, например, или наборы для рукоделия. Все это стоит в тех же отделах, что и литература по теме. Говорят, пользуется популярностью.

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Вообще, книжные и некнижные материалы стоят рядом. Например, возле медицинской литературы оборудован мини-медкабинет. Можно давление померить, рост-вес-пульс - и взять домой набор книжек тематический, уже заботливо уложенный в сумочки.

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

И такие же наборы есть по разным тематикам - хочешь, про путешествия, хочешь - про разводы, а хочешь - и про воспитание подростков... Не надо бегать по каталогам, искать книги, все уже сделано)

Тут очень интересный подход к оформлению тематических залов. Например, в зале литературы о спорте на стенах висят майки местных знаменитых спортсменов (а может, и не знаменитых, но висят). На фото справа виден мяч - на нем автографы. Такая вот реликвия)

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Библиотека большая, наполненная событиями, людьми, всякими активностями. Но есть одно место, где старый добрый принцип "тишина должна быть в библиотеке" свято соблюдается. Тихая зона, специально для людей, которым надо поработать в тишине.

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Местный краеведческий отдел

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Здесь собирают разные документы о местной жизни, а также ежегодные альбомы выпускников местных школ. Востребованная вещь, особенно в дни, когда проходят встречи выпускников. Иногда альбомы приходят смотреть дети – ищут своих учителей, знакомых, ну помните, как в разных фильмах детишки раскрывают тайны прошлого, покопавшись хорошенько в библиотеке. Это прям жиза)

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Еще одна жиза - исследовать свою генеалогию. Моя семья, в которой я жила, увлеченно искала своих предков, рассылала запросы по штатам и докопалась до тысяча восемьсот какого-то года, когда шведы приехали и купили в Канзасе кусок земли.

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

А еще нам тут показали святая святых, самое интересное - работу внутренних отделов. Комплектаторы, обработка книг и вот это все. Ну, на самом деле, это обычные офисные пространства, но каждый упарывается, как может. Вот, например, сотрудник фанатеет по маскам - и украсил свое пространство

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

А когда устал и хочется отвлечься - есть коробки с играми и пазлами, можно пособирать

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

А тут у них какие-то творческие инсталляции проходят, что-то совместное творят, но я уже забыла, в чем суть была)

Что библиотекарь увидел в Америке. Часть 2 Библиотека, США, Канзас, Длиннопост

Короче говоря, просто так звание "Библиотеки года" не дадут, эта - прям заслуженно получила.

Показать полностью 18

Проблема с доступом whatsapp

Телефон oneplus nord 2 словил обновление, кривое и неудобное, пришлось скинуть настройки до заводских и началось самое печальное. Не могу войти в whatsapp, не приходит ни смс, ни звонок. Перерыто много инфы в интернете: и про выставление разрешения на смс, и про антиспам в смс и впн, и качали более старую версию. Писали даже в тех.поддержку, все у них ок и это мы лохи.
Может кто-нибудь знает как решить вопрос? Помогите 😭

История американской экономики, развлекаясь

Господа, вот есть много-много книжек про попаданцев, где главный герой попадает в СССР разных времён и налаживает там жизнь, обустраивая экономику. От тридцатых, например, годов двадцатого века до семидесятых. И как-то всё исправляет. И, благодаря этим книжкам, мы лучше начинаем понимать нэп, огас, спекулянтов, безналичный расчёт для предприятий и вообще понятнее становится финансовая система СССР. и это без мучительных книжек, а всего лишь читая про попаданцев.

А нет ли подобных книжек про попаданцев в США, чтобы почитать в аналогичном развлекательном виде про американскую экономику разных десятилетий? Про то, как оно всё развивалось и взаимодействовало с политикой?

Спасибо заранее.

Мои подписки
Подписывайтесь на интересные вам теги, сообщества, авторов, волны постов — и читайте свои любимые темы в этой ленте.
Чтобы добавить подписку, нужно авторизоваться.

Отличная работа, все прочитано! Выберите