Начнем выходные с новостей об искусственном интеллекте, а именно о компании OpenAI, которая итак в последнее время на слуху с их решениями и заявлениями. Обо всем по порядку.
Совет директоров OpenAI уволила Сэма Альтмана из-за недоверия
Компания OpenAl объявила в пятницу о том, что ее генеральный директор и основатель Сэм Альтман уволен и покинет компанию немедленно.
Совет директоров компании OpenAI принял решение уволить Сэма Альтмана с поста генерального директора компании. Пока его место займёт Мира Мурати, до этого она занимала пост технологического директора OpenAI. Постоянного преемника определят позже.
Согласно официальному пресс-релизу, Совет директоров принял такое решение после тщательного анализа, который выявил, что Сэм Альтман "не был последовательно откровенен в общении с советом директоров, что мешало ему выполнять свои обязанности. Совет директоров больше не уверен в его способности продолжать руководить OpenAI".
Сам же Альтман в своем X (бывший Twitter) сообщил:
"Мне понравилось проводить время в OpenAI. Это изменило лично меня и, надеюсь, немного изменило мир".
"что-то вроде чтения собственной надгробной речи, пока ты еще жив" и поблагодарил всех за слова поддержки, - "Излучение любви - это потрясающе. идите и расскажите своим друзьям, какими замечательными вы их считаете".
И это было только начало.
Уход с сооснователя OpenAI и одного из создателей ChatGPT
Сооснователь OpenAI и один из создателей ChatGPT Грег Брокман
Кроме этого, об уходе с поста председателя директоров и президента заявил Грег Брокман - сооснователь OpenAI и один из создателей ChatGPT. Ранее предполагалось, что он сохранит должность в компании и будет подчиняться Мурати. Но спустя несколько часов Брокман в своем X разместил посланиеOpenAI:
"Я очень горжусь тем, что мы все вместе построили с момента начала работы в моей квартире 8 лет назад. Мы вместе пережили трудные и великие времена, добились многого, несмотря на все причины, по которым это было невозможно. Но, исходя из сегодняшних новостей, я ухожу.
Я искренне желаю всем вам только самого лучшего. Я продолжаю верить в миссию создания безопасных AGI, которые принесут пользу всему человечеству."
Вот такие страсти творятся 🫣 Еще две недели назад Сэм Альтман представлял новую продвинутую модель ChatGPT Turbo, затем в эту среду приостановили продажу платной подписки новым пользователям. Потом он же объявил, что OpenAI намерена получить дополнительное финансирование от Microsoft на создание универсального искусственного интеллекта (компьютерная программа с интеллектом на уровне человеческого, обладающая способностью выполнять любые когнитивные задачи, которые обычно выполняются человеком). Так же Сэм Альтман объявил, что компания работает над GPT-5, следующим поколением модели ИИ. И вот уже в пятницу такие заявления 🤯
🤔Что думаете, череда таких уходов действительно из-за того, что Сэм Альтман и Грег Брокман подвели Совет директоров? Или дело в получении финансирования от Microsoft и классическое поведение корпораций: Перекупить конкурента/ перспективный стартап, избавиться от основателей и присвоить все себе?
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса
Компания Microsoft представила новую утилиту Copilot, которая объединяет возможности Bing Chat, поисковой системы и других проектов. Этот бесплатный нейросетевой чат-бот доступен в Windows, браузере Edge, поисковике Bing, Microsoft Office, GitHub. Для использования Copilot необходим аккаунт Microsoft.
Copilot и Bing Chat основаны на разработке ChaGPT компании OpenAI, с которой Microsoft является ведущим инвестором и технологическим партнером.
Недавно, гуляя по просторам авито я нашел один из первых IBook-ов на процессоре G4 причем за вменяемую цену! Что-же может ноутбук начала нулевых сейчас, сегодня узнаем.
Хороший дизайн это отсутствие дизайна.
Данный ноутбук полностью сопутствует этой философии: полностью белый корпус с вкраплениями серого выглядит крайне просто, но в то же время прекрасно. В этом и был основной смысл дизайна Apple начала нулевых: сделать так, чтобы техника сливалась вместе с окружением тем самым, не отвлекая от работы. Но вернемся к ноутбуку, на передней стороне расположена кнопка на магнитах, при нажатии которой рычажок держащий экран элегантно уходит в паз. Слева расположены основные порты периферии: 2 входа usb 2.0, 1 разъем Firewire 400, вход для телефонного модема и ethernet порт и наконец аудиовход и видеовход MiniVGA. С правой же стороны расположен слотовый DVD/CD дисковод, и разьём для зарядки. Сама же зарядка выглядит таким же образом, как и сам ноутбук: это маленький кирпичик, взади которого располагаются ушки для удобного наматывания провода, который при подключении к ноутбуку будет гореть либо зелёным, либо красным в зависимости от заряда аккумулятора. И теперь, после внешнего вида, пришло время перейти к железу.
Сильное железо в портативном формате
Ноутбук обладает процессором IBM PowerPC G4 на 1.07 ГГц., 768 Мб. оперативной памяти, что, для 2003, года довольно много. В ноутбуке установлена батарея на 4000 MaH которая до сих пор работает, жёсткий диск Seagate на 55 Гб., а также коаксиальный DVD дисковод. И скажу так, для начала нулевых это вполне неплохо. Особенно вся сила компьютера раскрывается на системе, с которой поставлялся ноутбук - Mac OS X Tiger, которая является последней системой эпохи IBM процессоров. Итак, у нас стоит сильное железо, лёгкая система и ёмкая батарея, пришло время проверить его в офисных задачах!
Офисные задачи для ноутбука нулевых!
Начнём с базовых задач, к примеру с Microsoft Office. И да! Офисный пакет от Майкрософт изначально выходил под Mac OS X Tiger. В этот раз будем использовать версию Microsoft Office 2004 (аналог офиса 2003). И он работает здесь идеально!. Далее можно переходиь к более сложным задачам, например к интернету. И тут не обойдется без проблем… Во-первых, важно выбрать правильный браузер, поддерживающий HTML 4, CSS 6 и не нагружал комьютер. Важно понимать, что Mac OS X Tiger - это старая система, которой уже более 15 лет и прекратилась поддержка, что означает отсутствие поддержки современных версий браузеров как Chrome, Opera и Firefox. Они просто не заработают, а их старые версии не поддерживают современные стандарты. После долгих поисков был выбран браузер TenFourFox, который поддерживает все современные стандарты и открывает практически все современные сайты. И каким бы браузер ни являлся иделальным есть у него одна проблема: данный браузер крайне сильно нагружает ноутбук, в некоторых сайтах процессор компьютера нагружается на 90 или даже 100%! И, к сожалению, этого не избежать. В любом случае на этом компьютере возможно использовать интернет.
Теперь пришло время проверить этот ноутбук в мультимедии: музыка, фильмы и даже YouTube: всё будет запущено на этом ноутбуке!
Мультимедиа, музыка,мультимедиа
И как театр начинается с вешалки, так и фильмы начинаются с медиаплеера. В этот раз буду использовать VLC Media Player версии 0.8.6, который вполне хорошо воспроизводит DVD и Blu-ray образы. Для воспроизведения CD-DVD видео я использую утилиту DVD Player – утилиту, идущую с системой. Для воспроизведения MP-3, vlac и других кодеков используется QuickTime Media Player. И он, даже спустя 20 лет, до сих пор воспроизводит музыку! Во время воспроизведения музыки были найдены 2 нюанса: во-первых, во время воспроизведения была найдена некая оссобенность, при увиличении звука колонки начинают немного с дефектами воспроизводить музыку, во-вторых, при подключении гарнитуры к ноутбуку музыка начинает проигрываться медленее.
Теперь пришловремя затронуть такую тему как YouTube. Который даже работает, но с некими нюансами. Для начала надо поставить клиент, из-под которого будет загружаться видео. Для меня таким стал PPCMedia Player. Далее надо выбрать то, что воспроизводить (стрим, видео или файл), и следовать указаниям написаным во вкладке. И, к сожалению, он не работает, ссылается на то, что видео нельзя найти. И на такой грустной ноте время перейти к тестам.
Тесты
Тестов под мой Макинтош нашлось крайне мало: всего один, и его имя-Xbench.
И в данном тесте iBook набирает несчастные 11 баллов. И для сравнения: PowerBook G4, который на несколько лет старше нашего испытуемого, набирает 55 балов, iMac G4 2002 года набирает 43 балла. И, честно, это очень понизило мотивацию вообще что-либо делать, и так бы я и закончил с ним работать, если бы не увидел то, как раскрывает себя компьютер в играх.
Ati Radeon 9200 M в деле!
При оглашении характеристик я упустил одну важнейшую деталь, а именно видеокарту, которая установлена в ноутбуке – это Ati Mobility Radeon 9200 на 32 мегабайта. И пусть на сегодняшний день данный обьем памяти может рассмешить, но раньше, в играх конца девяностых - начала нулевых, ей не было равных. И начнём с девяностых: в таких играх как Doom, Duke Nukem 3D, Fallout, Prince of percia и Wolfenstein 3D компьютер выдаёт идеальные кадры, что неудивительно, данные игры работают даже на Motorola 68k! Пришло время перейти к более тяжёлым проектам. Quake 2 в нативном разрешении выдаёт более чем хороший результат: 50-60 кадров при небольших артефактах оружия, Quake 3 при высоких настройках в разрешении 800x600 показывает 45 кадров прерывающихся 25 кадрами и наконец в самом тяжёлом проекте-Returnn to castle Wolfenstein в разрешении 800x600 компьютер показывает 30 кадров. И честно, результат крайне огорчает, в тех проектах, где старые десктопные видеокарты работают на отлично, эта, даже при большом запасе памяти банально лагает даже в проектах на 6 лет старше неё! Но всё же важно помнить то, что IBook это серия ноутбуков дешевого сегмента, следственно всё железо у ноутбука будет не флагманским.
И все же, является ли IBook g4 идеальным ретро ноутбуком? И... Нет, так как на mac os довольно мало портировано игр и программ. Но если говорить об идеальном ретро ноутбуком Apple, то его можно по праву считать таковым!
В любом случае, данный компьютер даже при слабом железе занял свое место в моей коллекции. Ну а пока, до скорых встреч!
Текст для вас писал Даниил (Retrooldpc) на IBook G4 в Word-е 2004. И пока, на этом всё!
Даниил Берко (12 лет). 2023. Написано и отредактировано на Apple iBook G4
Ноутбук на заряде. У провода можно отчётливо видеть световой индикатор, показывающий заряд батареи.
Что можно сказать о продукте, если стоящая за его созданием компания не хочет им пользоваться? Как выяснилось, Microsoft запретила своим сотрудникам использовать популярный чат-бот ChatGPT, в разработке которого она принимает непосредственное участие.
Как стало известно, Microsoft временно запретила своим сотрудникам использовать ChatGPT, объявив об этом на внутреннем веб-сайте, а вместе с тем заблокировав доступ корпоративных устройств к чат-боту. Сделано это было «из соображений безопасности».
Интересно, что именно Microsoft является крупнейшим инвестором компании OpenAI, которая и ответственна за разработку ChatGPT. В начале года корпорация заявила о планах выделить на развитие чат-бота 10 миллиардов долларов в дополнение к уже вложенным 3 миллиардам. Более того, именно языковая модель ChatGPT лежит в основе Copilot — встроенного в Windows чат-бота, — а также чат-бота Bing и ряда других продуктов Microsoft.
По информации CNBC, блокировка длилась недолго, и объявление быстро удалили с внутреннего сайта, оставив лишь упоминание о запрете сервиса Canva. В то же время представитель Microsoft заявил, что это было ошибкой.
В этой статье мы расскажем вам про самые важные фичи, внедренные за последние полгода в ChatGPT (самую мощную нейросетку в мире), а также обсудим – каким видением будущего поделился Сэм Альтман на прошедшей 7 ноября конференции от OpenAI. Спойлер: они хотят запилить «агентов Смитов», которые смогут самостоятельно взаимодействовать с миром!
Сэм Альтман здесь be like: «Ну мы, короче, сейчас настрогаем этих агентов и навыпускаем в сеть – а чего дальше будет, так вы в фильме сестер Вачовски посмотрите, не буду вам спойлерить...»
У этой статьи как будто бы два автора, но на самом деле почти весь текст написал Игорь Котенков (автор канала Сиолошная про машинное обучение, космос и технологии). Можно сказать, что Игорь тут отвечал за техническую корректность и экспертизу в искусственном интеллекте, а потом еще Павел Комаровский (автор канала RationalAnswer про рациональный подход к жизни и финансам) навалил поверх странных мемов. Короче, нет времени объяснять, поехали!
С момента выхода нашей прошлой статьи «GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато» произошло много интересного. Были как обновления уже существующих продуктов, так и релизы кардинально новых. Разработчики не успевают клепать новые AI-стартапы, компании наперегонки привлекают миллиарды долларов инвестиций, а люди теряются в новостях и не понимают, что происходит в мире искусственного интеллекта. В общем, мы решили, что пора уже нам запилить обзор ключевых изменений, произошедших за более чем полгода, а также рассказать про самые свежие анонсы с только-только закончившейся конференции OpenAI DevDay 2023. Даже если вы внимательно следили за развитием ChatGPT — уверены, будет познавательно и интересно!
Примечание о ChatGPT/ChatGPT-3.5/GPT-4 во избежание путаницы (читать только педантам и занудам)
В целом, все эти слова означают примерно одно и то же. Но давайте всё же поясним используемую нами терминологию:
LLM, Large Language Model — большая языковая модель. Собственно, любая текстовая нейросетка, ярким представителем которой является и ChatGPT.
GPT-3.5 — это базовая текстовая модель (LLM) от OpenAI, долгое время существовавшая в виде сервиса для разработчиков. По навыкам похожа на завирусившуюся в декабре 2022-го ChatGPT.
ChatGPT, она же ChatGPT-3.5 — первая версия диалогового ИИ-ассистента, основанного на GPT-3.5. Добавлен формат диалога и проведено дообучение конкретно под этот формат.
GPT-4 или ChatGPT-4 — продвинутая версия модели от OpenAI. Она больше, тренировали ее дольше, поэтому она умнее и понимает больше языков. Сразу же была добавлена на сайт ChatGPT, поэтому фактически с марта 2023 года ChatGPT может обозначать и GPT-4: слова используются как синонимы. Отдельная версия GPT-4 без Chat-формата никогда не показывалась публике.
По большому счету, ChatGPT обозначает диалоговую LLM в общем. Почти во всех контекстах можно воспринимать это как GPT-4, так как смысла говорить о старых и менее способных моделях нет. Так что да, ChatGPT = GPT-4. :)
Если вы раньше вдруг не читали два наших прошлых лонгрида с объяснением простым языком принципов работы технологии текстовых нейросеток — то самое время наверстать это упущение (это поможет вам и в понимании текущей статьи):
Для начала скажем пару слов про то, насколько прокачалась ChatGPT с точки зрения популярности и проникновения в широкие массы. (Кстати, опрос среди авторов данной статьи показал, что эту нейросетку регулярно используют уже 50% людей!)
Сэм Альтман (глава OpenAI) на конференции OpenAI DevDay 2023 раскрыл следующую статистику: недельная аудитория (WAU, Weekly Active Users) ChatGPT превышает сто миллионов человек. Интересно, что недельный показатель — не самый частоиспользуемый, обычно говорят про DAU (дневную аудиторию) или MAU (месячную). Мы помним, что в начале 2023-го продуктом уже пользовалось больше 100 млн человек в месяц. Аккуратно предположим, что эта цифра не выросла драматически, и поэтому решено было чуть-чуть изменить способ подачи. Например, согласно подсчетам по интернет-трафику, MAU составляет примерно 180 млн человек, что всё еще очень недурно для годовалого продукта!
Если вы финансист, то вам должно быть интересно следующее: 92% компаний из списка Fortune 500 (крупнейшие компании США по размеру выручки) уже используют продукты OpenAI. Короче, бизнесы вовсю пытаются придумать, как бы эту вашу технологическую сингулярность половчее использовать, чтобы бабосов побольше заработать!
Но, как говорится, есть нюанс: если натренировать нейросетку на базе данных с чатами, в которых программисты общаются по работе – она довольно быстро начинает отвечать на любые запросы в стиле «ох, что-то я выгорела, щас бы свеженький смузи выпить...»
А главное, всё это достигнуто совершенно без какой-либо платной рекламы — только сам продукт, молва о котором передается из уст в уста! (Disclaimer: этот материал не был проплачен OpenAI).
Ок, а теперь — давайте кратко пройдемся по ключевым вехам развития детища OpenAI, которые мы наблюдали с момента релиза флагманской модели GPT-4 в марте 2023-го.
Весна 2023: Инструменты и плагины для ChatGPT, или как приделать нейросетке «ручки»
Многие пользователи уже давно и справедливо критиковали «маломощные» способности языковых моделей, так как те не имеют доступа в интернет – а значит, не могут находить и использовать свежую информацию для формирования ответов на запросы. Все знания, что в них заложены, диктуются тренировочной выборкой, которую видела модель. Более того, в своем первозданном виде LLM довольно плохи в математике, и осуществляют лишь приблизительные вычисления (хоть иногда они и могут оказываться точными).
OpenAI, понимая эту проблему, адаптировали концепцию «инструментов». Как человек пользуется калькулятором для сложных вычислений вместо прикидки в голове, так и ChatGPT может обратиться к внешнему сервису с целью сделать одно конкретное действие — даже если оно сильно сложнее сложения двух да двух. Почти сразу после выхода модели GPT-4 появились «плагины», основными из которых стали доступ в поисковик Bing (эх, не пошутить про то, что модель «гуглит»!) и интерпретатор кода. Первый помогает актуализировать знания по разным темам, передавая в GPT результаты работы поисковика по конкретному текстовому запросу (который модель же и формирует), а второй — определяет, когда модель хочет запустить Python-программу, выполняет все действия и показывает результат.
Пример использования поисковика моделью. Пятая новость вообще появилась в день написания статьи — так что материал свежачок!
У самых любознательных читателей может возникнуть вопрос: а как это вообще работает? Как «подключить» реальный мир к языковой модели, которая не умеет делать ничего, кроме как читать и писать текст? Для того, чтобы ответить на этот вопрос, необходимо вспомнить два факта, которые мы разбирали в первой статье «Как работает ChatGPT»:
Современные языковые модели были обучены следовать инструкциям.
Современные языковые модели хорошо понимают концепцию программирования и сносно пишут код. (Ну конечно, они же весь интернет прочитали! Столько жарких споров на форумах разработчиков, ну и документация тоже помогла, конечно.)
Исходя из этого, намечается следующая идея: а давайте напишем инструкцию, которая покажет модели, в каком формате она может обращаться к тому же калькулятору с помощью кода? А внешняя программа будет просто «читать» вывод модели по словам и выполнять соответствующие действия.
Пример: мы написали ChatGPT, какой формат ответа мы от нее ожидаем. Единственный для нее способ удовлетворить пользователя — это следовать нашей инструкции, и делать ровно то, что мы ее попросили (даже несмотря на то, что мы задали странный порядок).
Звучит максимально просто, но это работает даже для сложных плагинов! Может не вериться, но именно по такой логике подключается браузер (когда текст с экрана переводится в обычный текст, и модель выбирает, куда нужно «кликнуть»). А во всех деталях про обучение модели веб-сёрфингу можно прочитать в статье Игоря «ChatGPT как инструмент для поиска».
И еще один из самых полезных и популярных инструментов, доступных модели — это математический движок Wolfram Alpha, с которым знаком каждый студент-технарь (гуманитарии, вы пока сидите спокойно). Любые сложные вычисления теперь не помеха и для LLM!
Исследования показывают, что GPT-4 может даже справиться с управлением автоматизированной химической лабораторией и осуществлять синтез веществ разной полезности, но это уже другая история.
GPT-4 была подключена к системе управления пробирками (изображено слева сверху). Ей давались простые задачи, описываемые естественным языком, на построение определённых фигур из реагентов. Модель успешно прошла тесты.
Единственная проблема с инструментами (плагинами) — модель может потеряться, если их слишком много. Не всегда ясно, в какой последовательности к ним нужно обращаться, и какой конкретно выбрать. Навык модели скорее близок к «неплохо» нежели к «отлично». Поэтому сейчас их выделили в разные чаты: в одном можно сёрфить по интернету, в другом программировать, а в третьем — писать курсовую вместе с Wolfram (преподу только не рассказывайте, чем вы занимаетесь). Но со временем модель прокачалась, и теперь можно делать всё и сразу, без компромиссов!
Осень 2023: Текстово-картиночная модель Dall-E 3, или квест по генерации идеального чебурека
Отдельным продуктом, который был представлен OpenAI совсем недавно, в конце сентября, является генеративная нейросеть Dall-E 3. Она, как и ее предшественники первого-второго поколения, генерирует изображения по входному запросу. Но большинство подобных нейронок имеет жесткое ограничение: чем длиннее промпт (входной текстовый запрос) и чем больше в нем деталей, тем меньше изображение будет соответствовать описанию. Поэтому зачастую промпты состоят всего из 1-2 предложений (иногда даже из пары слов), и большая часть деталей остается на откуп модели: уж как она представит себе объект, так и будет. Для художников/дизайнеров инструмент хоть и может быть полезным, но не в полной мере — ибо сложно добиться чего-либо, полностью соответствующего авторскому видению и задуманной композиции.
Например, вот картина Théâtre D'opéra Spatial, победившая в конкурсе штата Колорадо в 2022 году. Работа обошла другие, созданные живыми людьми, но на ее создание потребовалось более 600 запросов к модели MidJourney!
OpenAI здесь сделали огромный шаг вперед: теперь Dall-E 3 понимает гигантские промпты, и создает изображения, которые точно соответствуют заданному тексту. Давайте посмотрим на пример с лендинга продукта:
Конечно, для рекламы на официальном сайте выбирается самый лучший пример, и такие складные генерации всё-таки получаются не каждый раз. Но по первым субъективным тестам и отзывам в сети внимание свежей нейросетки к деталям всё равно поражает.
Причина, по которой Dall-E 3 попала на эту страницу — ведь она, на первый взгляд, никак не связана с ChatGPT и большими языковыми моделями — заключается в принципе ее работы. Dall-E 3 с первых дней создавался на основе ChatGPT, ведь именна эта LLM генерирует козырные подробные промпты для модели (на базе ваших «колхозно сформулированных» запросов). Просто коротко укажите ChatGPT, что вы хотите видеть, пусть даже в двух словах. Она перепишет промпт, обогатит его деталями, и только после этого передаст в Dall-E 3. И интегрируется это точно также, как и описанная выше идея «плагинов»!
AI буквально берет на себя часть работы по промпт-инженирингу, заменяя ленивого человека и вместе с тем предлагая новые идеи для изображения. Вы пишете «чебурек», а получаете (заранее просим прощения у всех, кто сейчас голоден!)...
Сгенерированный промпт: «A freshly made cheburek on a wooden cutting board, half-cut to reveal the juicy meat filling inside. The dough is golden-brown and crispy, with steam rising from the filling. The background is a rustic kitchen setting...»
Интереснее, как эту модель тренировали. У нас нет всех деталей обучения, OpenAI поделились самыми важными отличиями. Насколько нам известно, это первый раз, когда модель такого масштаба обучается на синтетических данных, а не на произведенных человеком. Вы не ослышались — 95% набора пар «картинка <-> текст» (именно на них и тренируется модель) были порождены GPT-4-Vision, анонсированной еще весной. Модель смотрела на изображения из интернета и писала несколько длинных описаний, и эту процедуру повторили несколько миллиардов раз. Вот так вот модели начали помогать обучать другие модели, и никаких остановок на пути к сингулярности уже не будет!
Осень 2023: AI-ассистент из мира фантастики
Помните такого ассистента Siri? Сразу после его появления, кажется, возникло ощущение, что еще чуть-чуть — и мы окажемся в мире этих супер-умных и крутых робо-помощников, понимающих нас с полуслова и умеющих делать тысячу вещей. Но за более чем десятилетнюю историю развития продукта от Apple, как будто бы никаких поражающих воображение обновлений и не вышло. Siri-бот (или «ботиня», как там сейчас правильно?) всё так же тупит, путает звонок «моей маме» и «моей бабе»...
Тем временем, в сентябре вышло обновление мобильного приложения для ChatGPT, позволяющее ему видеть, слышать и говорить. Теперь самая мощная нейросеть современности имеет удобные интерфейсы коммуникации с вами. А самое главное — понимает десятки языков и умеет на них отвечать, а также способна гуглить (пардон, «бингить») под капотом.
Вот здесь можно посмотреть пример, как парень из Твиттера (ой, простите, X) пытается учить русский язык — обратите внимание, что приложение отвечает ему на разных языках, не меняя голос. В целом, выглядит прямо очень круто, Джарвис из «Железного человека» уже явно бессильно грызет свою шляпу от зависти!
На основе этой же технологии функционирует и работа с изображениями. Можно загрузить несколько фото (и даже документов), выделить интересную часть и расспросить ChatGPT о ней. Как починить велосипед? Какой ключ из набора взять (чтобы не огрести от бати)?
Пример с картинкой: можно обвести конкретное место на фото и спросить ChatGPT «что это за вундервафля?!»
Некоторые даже спрашивали дорогу до ближайшего магазина по фотографии! Нет, не то чтобы ChatGPT знает каждую улочку, просто понимая урбанистику и глядя на указатели, смогла подсказать, как добраться. На этой же идее основан и продукт компании Be My Eyes — он помогает слепым или слабовидящим выполнять задачи, связанные со зрениием, будь то поиск ключей или что-то поважнее. Раньше там работали волонтеры, а теперь их заменяет GPT. Уже в ближайшем будущем для кого-то без возможности видеть технология может стать буквально глазами в наш мир.
Здесь и сейчас: GPT-4, включаем Turbo-ускорение!
Ну что ж, вот мы, кажется, и добрались до сегодняшнего дня. 7 ноября произошло событие, благодаря которому мы и сели писать этот материал — конференция OpenAI DevDay 2023, где было представлено более десятка мелких и крупных обновлений почти к каждому продукту компании. Как мы видели ранее, за последние полгода GPT-4 и так серьезно прокачалась, обросла вспомогательными инструментами и интерфейсами. Некоторые компании уже начали применять ее в бизнесе и даже строить отдельные продукты исключительно на этой технологии. При этом, у нее остается много ограничений, и разработчики гадали — что же конкретно нам покажут на долгожданном DevDay?
OpenAI начали с козырей: GPT-4-Turbo. Было заявлено 7 улучшений, но многие из них носят технический характер (конференция ведь для разработчиков, всё-таки), поэтому мы сфокусируемся только на самом главном и интересном.
Если вы пользовались ChatGPT целый год, то заметили, что на вопросы, касающиеся событий после сентября 2021 года, модель не отвечает (или вовсе галлюцинирует). Если вам хотелось обработать подобного рода информацию, то на помощь приходил режим работы с поисковиком Bing. Альтернативно, можно было вручную загрузить документ, чтобы модель его «прочитала» и дала соответствующие этому тексту ответы.
На конференции было анонсировано, что актуальность знаний подтянули аж до апреля 2023-го, и впредь не планируют оставлять «в памяти» модели таких больших временных разрывов. Это означает, что примерно каждые 1-3 месяца знания нейросетки будут «подтягивать» до более свежего момента. Главное только, чтобы ничего из прошлого при этом не забылось!
Ходят слухи, что когда бедную модель заставили «учить» новости за 2022 год — из серверной OpenAI были слышны страшные крики...
В дополнение к этому, в модели прокачали возможность загрузки файлов — теперь можно заливать до нескольких гигабайт своих файлов на веб-сайт OpenAI, и модель при генерации ответа будет сначала искать релевантную страницу, и уже потом отвечать. Это не означает, что проблема решена полностью и для всех типов вопросов, но точно улучшит качество ответов в интересном вам домене знаний.
Кроме того, существенно прокачали и длину контекста модели — до 128 тысяч токенов, или больше 300 страниц текста. Теперь можно будет вести с ChatGPT последовательный диалог в течение пары недель и быть уверенным, что модель не забудет детали, обговоренные в прошлый понедельник. Отметим, что пока что это самый большой контекст, доступный на рынке от приватных компаний — до этого лидировали Anthropic с моделью Claude 2 и контекстом в 100 тысяч токенов. А вот среди открытых (но и, вместе с тем, более глупых) GPT буквально вчера появились «гиганты» с окном в 200 тысяч токенов.
График сравнения разных моделей до того, как на танцпол ворвалась GPT-4-Turbo.
У читателя может возникнуть закономерный вопрос: а зачем это вообще надо, в чем польза таких длинных чатов? Можно пофантазировать о нескольких сценариях:
В промпт модели-ассистента в разработке можно положить не один файл или кусок кода, а сразу весь проект или значимую его часть. В этом случае AI будет лучше ориентироваться, понимать, какие подсказки стоит дать, какие баги могут появиться, и так далее. Схожую логику можно применить и к модели-юристу, читающей, например, всё налоговое законодательство за один присест.
Написание огромной инструкции длиной в книгу, с описанием всех тонкостей выполняемой задачи. Очень часто модель не учитывает какую-то особенность, понимаемую человеком, а в промпте не хватает места для нюансов. Но теперь будет влезать!
Один из самых популярных и рабочих способов улучшения качества ответов модели является few-shot prompting: это когда перед постановкой задачи нейронке показывают пару десятков примеров, что нужно делать. Понятно, что такой набор не может покрыть каждый блок логики, но вот если его расширить до тысяч примеров, то ситуация может измениться в корне.
Вот так выглядит few-shot: в промпте есть 3 примера определения сентимента отзыва (2 позитивных и один негативный). ChatGPT в данном случае предсказывает неправильный ответ — возможно, здесь как раз не помешало бы загрузить в промпт не 3, а 3000 примеров
Итого, основная цель подобных изменений — это улучшение общего качества ответов ChatGPT с помошью более детального описания задачи, будь то примеры, инструкции или подробный контекст работы. Сделаем аккуратное предположение, что те, кто заявлял о неминуемой смерти промпт-инжениринга до того, как появились модели с длинным контекстом, скорее всего просто обладали слабым воображением. Мы по сути еще и не начали писать (и автоматически генерировать) промпты на полную!
Кстати, Сэм Альтман подчеркнул, что модель умнее, чем обычная GPT-4. Она уже доступна в официальном UI на chat.openai.com, пробуйте и делитесь своими впечатлениями — стало лучше или хуже?
API-доступ ко всем моделям и снижение цены: рождественские подарки для разработчиков
Как с большой силой приходит большая ответственность, так и с большим промптом приходит большой счет за использование GPT. Платить за использование API (интерфейса доступа к GPT, к которому обращаются разработчики) нужно тем больше, чем длиннее промпт и генерируемый текст — вполне логично, ведь это напрямую влияет на количество вычислений, необходимых для работы нейросети.
Поэтому больше всего оваций на конференции сорвал анонс снижения цен на Turbo-модель. Использование такой модели дешевле в 3 раза на текст из промпта, и в 2 раза на генерируемые токены (их обычно меньше). Почему важно такое разделение? Как было указано выше, иногда в промпт хочется запихать ну уж очень много деталей и примеров. Теперь в ту же цену влезет в 3 раза больше, да еще и работать должно лучше — либо можно просто сэкономить на стоимости использования. Как ни посмотри, одни плюсы!
Кроме этого, разработчики получили доступ к API для всех упомянутых моделей: и для работы с изображениями (GPT-4-Vision), и для генерации картинок в Dall-E 3, и для генерации голоса по тексту (а перевод голоса в текст уже был доступен раньше, его просто прокачали новой моделью). API — это способ простому смертному обратиться к закрытым моделям, работающим на каком-то сервере, и получить результат. То есть теперь каждый разработчик может интегрировать эти технологии в свое приложение по частям.
Вот пример, как GPT-4-Vision помогает провести домашнюю инвентаризацию, определив предметы из IKEA. Правда, в одном она ошиблась — внимательным читателям предлагается найти неточность!
Народные умельцы уже в первые сутки забабахали несколько интересных прототипов. Например, AI-комментатор футбола! Из видеозаписи берется по 2 кадра каждую секунду, сотни извлеченных кадров подаются в GPT-4 — а та, в свою очередь, пишет речь от лица комментатора. Затем это озвучивается одним из шести представленных OpenAI голосов, и вот результат.
Получилось не так эмоционально, как у испанского комментатора, но это всего лишь 2023 год, дайте AI маленькую скидку и немного времени! Тем более что работники индустрии озвучки уже жалуются на то, что у них отбирают работу.
Идея лежит настолько на поверхности, что почти одновременно появился и второй жестяной комментатор — на этот раз, для популярной онлайн-игры League of Legends. Качество сгенерированной речи выше, а комментарии уместны и относятся к стратегии в игре.
Да, это не что-то, что поражает воображение, и подобные приложения на телефонах уже давно были. Однако тут важно, что это всё смесь из двух-трех разных моделей, подключаемых в одну строчку кода. Теперь эти инструменты доступны каждому, они работают над широчайшим кругом задач (зачастую даже лучше, чем специализированные системы, заточенные решать одну конкретную задачу — например, находить кошек и собак на видео), а прототип можно накидать за час. При этом технология становится всё более доступной.
В Твиттере даже завирусился мем, высмеивающий стартапы, которые являлись тонкими прокладками с минимальной добавочной ценностью относительно продуктов OpenAI.
Картинка сделана в Фотошопе, но это всё равно lol — тут не поспоришь
Например, сайты по типу ChatWithPDF / AskPDF позволяли загрузить файл (даже большой, в 100 страниц), а потом задавать вопросы по документу, при этом ответ формировался на основе предоставленного источника. Лень читать 50-страничный отчет по работе? Изучите его за 3 минуты! Правда, технология была уж очень простой — при желании можно накидать такую же функциональность за вечер. OpenAI почесали голову и сказали: давайте каждому пользователю предоставим возможность чатиться с документами? Бабах, и маленький наколеночный стартап испаряется, как будто по щелчку пальцев. Однако, настоящим стартапам, развивающим доменную экспретизу и предоставляющим большую ценность и без вспомогательной технологии такая судьба не грозит... ну, пока по крайней мере, lol.
Поддержка в судебных делах по копирайту, или как пользоваться плодами нейронок безопасно
Мы живем в такое время, что иногда сложно отделить настоящее искусство от пустышки. Хотя дебаты по этому поводу идут уж точно не меньше века (как минимум, с появления «Черного квадрата» Малевича), сейчас, в эпоху AI, они особенно остры. Пока в крупнейших юрисдикциях идут споры по поводу легальности текстовых данных и изображений из интернета для тренировки нейросетей, большие компании видят риски в их использовании. Вдруг завтра прилетит судебная повестка из-за нарушения копирайта? А вдруг сгенерированная картинка для обложки журнала или постер для фильма на самом деле неоригинальны?
Понимая и разделяя переживания бизнесов, ключевые поставщики технологии спешат навстречу. Так, например, если третья сторона подаст в суд на коммерческого клиента Github Copilot (грубо говоря, это ChatGPT для программистов) за нарушение авторских прав из-за использовании продукта или результатов его работы, то Microsoft будет защищать клиента в суде, а также при необходимости выплатит сумму штрафов или неустоек. Схожие анонсы сделали: Adobe — при использовании генеративных функций фотошопа (модель Firefly), Google — почти для всех своих продуктов, IBM, и другие.
В общем, сейчас, если кто-то вам предъявляет за неуместное копирование чужих идей — смело отвечайте «Гугл мне вот это всё разрешил!»
И вот на конференции DevDay было объявлено, что OpenAI тоже вступает в эту игру, запустив программу Copyright Shield. Распространяется она, увы, не на всех пользователей, а только на Enterprise и разработчиков. Другими словами, если вы на официальном сайте что-то сгенерировали, то под защиту оно не попадет (если ваша компания не оформила партнерство с OpenAI отдельным договором).
Интересно, что буквально за пару недель до анонса произошло следующее: трое художников подали иск против технологических компаний (Midjourney, Stability AI и DeviantArt) по обвинению в нарушении авторских прав. В свою очередь, эти компании подали ходатайство о прекращении дела. Судья Окружного суда США удовлетворил это ходатайство. Основная причина такого решения заключается в том, что художники не зарегистрировали авторские права на каждую из своих работ. Однако суд также выдал рекомендации по корректировке претензий. Что будет дальше — узнаем в следующих сериях!
Кстати, если вы переживаете за свои данные, то вот еще новость: Сэм Альтман заверил, что OpenAI не тренирует модели на данных пользователей. Это верно по умолчанию для бизнесов и разработчиков, работающих по API, а вот обычным пользователям необходимо убрать специальный флажок в настройках на сайте ChatGPT.
Миссия Microsoft и OpenAI: счастье для всех, и пусть никто не уйдет обиженным (ну или типа того)
Перед самой главной частью презентации на сцену вышел Сатья Наделла, СЕО Microsoft. На пару с Сэмом Альтманом они обсудили партнерство двух компаний, а также общее видение. Официальная миссия Microsoft звучит так: «to empower every person and every organization on the planet to achieve more» (дать возможность каждому человеку и каждой организации на планете достичь большего).
И разработка инструментов, увеличивающих эффективность выполнения работы и расширяющих возможности, точно согласуется с этой миссией. Умные AI-ассистенты на основе ChatGPT уже сегодня справляются с этим, если верить исследованиям (от MIT, от Harvard University). Что же будет дальше, каков план OpenAI? Глобально их видение — это создание AGI (Artificial General Intelligence, универсальный искусственный интеллект), который приносит пользу всему человечеству. Не смейтесь, не пугайтесь, сейчас всё объясним. У AGI много определений, поэтому важно правильно выстроить ожидания. Определение, которое используют OpenAI, можно сформулировать примерно так: AGI — это высокоавтономные системы, которые превосходят людей в большинстве экономически ценных работ. Уже не так страшно, да? Никаких терминаторов (вроде бы...).
Сатья и Сэм смотрят на тебя как на кожаного мешка, чью жизнь они вот-вот неимоверно улучшат своими высокоавтономными сверхумными ИИ
В этом определении несколько ключевых составляющих. Первая — это автономность систем. Они должны функционировать с минимальным вовлечением человека, получая верхнеуровнево сформулированную задачу. Работает по схеме «дал задачу и забыл». Вторая — фокус на экономическую составляющую, на увеличение эффективности интеллектуального труда.
Конечная цель — сделать так, чтобы можно было просто сказать компьютеру, какой итоговый результат ты хочешь получить, а он сам придумает и реализует все необходимые подзадачи для достижения этой цели. Системы такого рода с указанным уровнем возможностей в области AI часто называют «агентами». Сам факт появления подобной технологии, и уж тем более ее внедрение, потребуют большого количества вдумчивых обсуждений всем обществом — что делать людям, которые потеряют работу? Как изменится политика? Какие права будут у AI-«работников»? Но пока это чуть более отдаленное и туманное будущее, а мы находимся здесь и сейчас. И OpenAI в рамках конференции рассказали про первый маленький шажок по направлению к этому будущему: GPTs.
Тут мы вынуждены прерваться, так как заложенный на Пикабу лимит символов на статью не позволяет впихнуть остаток материала. Так что, окончание лонгрида про GPTs-агентов Смитов и про гигантский плавучий суперкомпьютер либертарианцев, который будет компилировать интегралы в нейтральных водах, можно прочитать вот здесь.
В прошлом месяце Microsoft усложнила загрузку Google Chrome через Edge, добавив опрос о причинах нежелания работать с браузером софтверного гиганта. Теперь же стало известно, что прежде чем закрыть облачное хранилище OneDrive, пользователям придётся ответить на вопрос, по какой причине они хотят сделать это.
The Verge
По сообщениям сетевых источников, недавнее обновление OneDrive добавило приложению раздражающую функцию. Речь идёт о диалоговом окне, которое появляется при попытке закрыть OneDrive. Оно предлагает пользователю выбрать причину закрытия приложения, причём отказаться от этого, по всей видимости, нельзя. Что касается предлагаемых на выбор вариантов, то они выглядят следующим образом:
Я не хочу, чтобы OneDrive работал постоянно.
Я не знаю, что такое OneDrive.
Я не пользуюсь OneDrive.
Я пытаюсь решить проблему с OneDrive.
Я пытаюсь ускорить работу своего компьютера.
Я получаю слишком много уведомлений.
Другое.
The Verge
Пользователю необходимо выбрать один из предложенных вариантов, поскольку просто закрыть диалоговое окно и выйти из приложения OneDrive не получится. Microsoft не первый год активно продвигает облачное хранилище OneDrive. К примеру, в Windows 11 содержимое папок «Документы» и «Изображения» по умолчанию синхронизируется с облачным хранилищем софтверного гиганта. Если пользователь не настроил OneDrive, то в Windows есть множество подсказок, как это сделать.
Create a table [topic] in [location] from [year 1] to [year 2]
2. Экспортируем результат в Excel в один клик.Достаточно нажать на иконку в верхнем правом углу — Bing автоматически экспортирует таблицу как файл .xlsx и продолжить ее редактирование в Excel. Ее можно дополнить и редактировать.
Все. Теперь делаем новые таблицы в два клика.
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса
Здравствуйте, появилась такая проблема. Нужно из PDF файла в котором много страниц, выбрать некоторые и сохранить их как другой PDF файл, я делаю это через принтер Microsoft print to PDF, выбираю нужные страницы и нажимаю ПЕЧАТЬ. После этого обычно вылезает окно с выбором места куда нужно сохранить новый PDF файл. Но сейчас это окно перестало вылезать и после нажатия кнопки ПЕЧАТЬ ничего не происходит. Подскажите что не так?