EventHorizonTech

На Пикабу
Дата рождения: 11 ноября
111 рейтинг 0 подписчиков 0 подписок 2 поста 0 в горячем
4

OpenAI добавила новую функцию, с помощью которой можно тестировать модели ещё проще, чем прежде


OpenAI добавила новую функцию в панель логов, благодаря которой можно быстро сравнить ответы разных моделей и уровней «reasoning effort» на уже имеющихся запросах.

Работает это таким образом:

1) Заходим в логи.

2) Нажимаем кнопочку «Quick Eval», запускается встроенный «грейдер».

3) «Грейдер» начинает автоматически прогонять запросы через выбранные модели (например: GPT-5 или GPT o4-mini) с разным «reasoning effort».

4) Интерфейс показывает ответы бок о бок, помогает быстро выбрать, какая модель и какой режим лучше подходят для текущей задачи.

Может быть полезно для подбора модели, легко экспериментируя с качеством рассуждения.

Ну а совсем скоро мы разберем более детально, что из себя представляет «reasoning effort» на самом деле и как его правильно использовать с другими техниками, недавно опубликованными openAI.

Не забудь подписаться, чтобы прочитать среди первых.

Показать полностью
10

Google опубликовала результаты, ставящие под вопрос универсальность принципа “чем больше данных, тем лучше” для нейросетей1

Результаты исследования, предоставленные Google.

Результаты исследования, предоставленные Google.

Вместо наращивания объёмов был применен метод активного обучения (Active Learning). Это умный цикл обратной связи, где модель не просто пассивно поглощает информацию, а сама определяет зоны своей неуверенности и «запрашивает» помощь человека с самыми сложными примерами.

За поиск таких «слабых мест» отвечает система «LLM-as-Scout». Она находит в данных так называемые «пограничные случаи». Это примеры на грани двух категорий (например, сарказм и токсичность). Именно здесь точечная разметка эксперта приносит максимальную пользу.

Результаты говорят сами за себя. Модели Gemini Nano хватило всего 250–450 примеров, отобранных экспертами, чтобы обойти по качеству системы, натренированные на 100 000 случайных меток.

Это смена всей философии разработки: умные данные оказываются важнее больших данных.

Однако, конечно же, делать преждевременные выводы рано. Результаты, описанные в исследовании, относятся исключительно к задачам модерации рекламы (ads-safety), а не ко всем NLP-задачам. Эффективность метода сильно зависит от качества экспертных разметок.

Также стоит упомянуть, что метод активного обучения (Active Learning) не нов: Google лишь предоставила масштабную демонстрацию его применимости в продакшене.

Исследование
Тг-Канал

Показать полностью
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества