Машинное обучение: истории из жизни, советы, новости, юмор и картинки — Все посты, страница 20

3

TheFounder

Как правильно оценивать модель?⁠⁠

1 год назад

Подобрали датасет, написали код, получили первые результаты работы нейронки после обучения.

Но модель нужно тестить со всех сторон.

Не получится продать ИИ заказчику или сдать своему руководителю без нормальной отчетности.

Всего есть 7 важных метрик, по которым модель оценивается.

Accuracy: Процент правильных предсказаний относительно общего числа предсказаний.
Полнота (Recall): Доля истинных положительных предсказаний относительно фактического числа положительных случаев.
Точность (Precision): Доля истинных положительных предсказаний среди всех положительных предсказаний.
F1-мера: Гармоническое среднее точности и полноты, полезное для неравномерно распределённых классов.
ROC-AUC: Площадь под кривой ROC; показывает, как модель различает положительные и отрицательные классы.
Mean Absolute Error (MAE) и Mean Squared Error (MSE) для регрессионных задач.

Идеальных моделей не бывает, поэтому метрики нужно догонять в зависимости от задачи.

Помимо учета метрик, нужно уметь: и оптимизировать модель через настройку гиперпараметров (о ней в статье на Хабре), и уменьшать предвзятость ИИ через кросс-валидацию или попросту разбиение тренировочных данных, и убирать эффект переобучения через регуляризацию.

Идеальный анализ качества модели, кстати, не обходится без графиков.

Но иногда всех вышеприведенных методов недостаточно.

Например, при ковариационном сдвиге распределение входных данных каждого слоя нейронки в меняется процессе обучения, из-за чего сети становится сложнее обучать.

Чтобы пофиксить проблему используется батч-нормализация, где среднее значение приближается к нулю, а стандартное к единицу через преобразование входных данных каждого слоя.

Чтобы пофиксить чрезмерную зависимость работы модели от отдельных нейронов применяют дропаут, который рандомно будет выключать некоторые узлы в сети на каждом этапе обучения.

Но главное – это не просто знать методы, а уметь анализировать.

Показать полностью 1

Программирование IT Машинное обучение Нейронные сети

0

TheFounder

Самодистилляция без меток!⁠⁠

1 год назад

Или DINO – архитектура для тех, кто не может аннотировать.

Метод самодистилляции – разновидность дистилляции знаний (knowledge distillation).

Но с тем важным отличием, что вместо передачи знаний от одной модели к другой (например, от большой "учительской" модели к более компактной "ученической"), модель обучает саму себя, используя свои же прогнозы.

Dino создает модели "учителя" и "ученика" – они обучаются одновременно.

В отличие от классической дистилляции, здесь обе модели имеют идентичную архитектуру, и "учитель" генерирует прогнозы на основе данных, которые затем используются "учеником" для обновления своих параметров.

Архитектура работает через data augmentation, создание нескольких вариаций картинкок на основе изменения контраста, яркости и так далее.

Модель "ученика" обучается на одной версии изображения, в то время как модель "учителя" получает другую версию того же изображения.

Так, кодеры получают инвариативную/гибкую модель.

Утилита также использует метод регрессии по кросс-энтропии (cross-entropy regression) – "ученическая" модель стремится минимизировать расхождение между своими прогнозами и прогнозами "учительской" модели.

Эффект достигается через применение мягкой классификации (soft classification), когда вместо того, чтобы обучаться на жестких метках классов, модель обучается на вероятностных распределениях, которые генерирует "учитель".

Другой важный аспект DINO — это использование проекционной головы (projection head), которая закидывает продукты работы в низкоразмерное пространство, своего рода буфер для сопоставления результатов и прерывания деградации модели.

DINO – своего рода прорыв в DL. Некоторые коммерческие проекты не позволяют из-за отсутствия специалистов, денег попросту составить адекватную разметку, которая иногда требует килотонны часов.

А эта архитектура для CV учится, как минимум, сегментировать и сопоставлять изображения: анализ аэроснимков, контентный поиск, разделение транспортных средств, инстанс-сегментация...

Спецы, которые работают с DINO нужны везде.

Разобраться в DINO – кинуть себе +5 очков в резюме.

Показать полностью 1

Программирование IT Машинное обучение Нейронные сети

0

TheFounder

Иногда разметить данные невозможно…⁠⁠

1 год назад

Существует понятие «сырые данные».

Когда мы не проводим аннотации, но пытаемся учить нейронку работать на непроизвольные закономерности. Те самые, что вычислить самостоятельно мы не можем, при помощи интуиции – ИИ все делает за нас.

Таких данных много. Причем, бизнес рекомендует делать уклон в сторону анонимизированной информации. Те же кредитные карты работают по этому принципу.

Понятно, что кредитной истории недостаточно для адекватной оценки клиента. Data labeling – совсем необязательный процесс.

Представьте себе, что у вас есть огромное количество фотографий цветочков, но вы не знаете, что изображено на каждой из них.

Вы можете использовать автоэнкодеры. Может, вы и не узнаете, что за цветочки на фотографии. Но хотя бы сможете их различить и классифицировать.

Нейронка находит не цветы на фотографиях, а паттерны пикселей.

Например, если вы используете алгоритм k-средних, нейронная сеть будет искать центры кластеров и назначать каждой точке данных принадлежность к определенному кластеру.

Это позволяет сети выявлять общие черты и паттерны в данных, даже без знания точных меток.

Стоит также упомянуть обучение с использованием псевдометок. В этом подходе нейронная сеть первоначально обучается на небольшом наборе размеченных данных, если такие имеются, а затем используется для предсказания меток для остальных данных.

Эти предсказанные метки, называемые псевдометками, используются для дальнейшего обучения сети.

Постепенно сеть улучшает свои способности, используя все больше и больше псевдометок, что позволяет ей извлекать информацию из сырых данных.

🏖Сырые данные – кладезь. Можно и не знать, что в данных есть закономерности и находить их. Научные открытия от нейронок…

Классный пример обучения на сырых данных – тут.

Показать полностью 1

Программирование IT Машинное обучение Нейронные сети

0

12

TheFounder

#мемы⁠⁠

1 год назад

Как жаль, что никто не пользуется архитектурой нейронных сетей Switch Case 🥲

1/4

Показать полностью 4

IT Программирование Машинное обучение Нейронные сети Длиннопост Картинка с текстом

3

8

CrowsHaveEyes

Лига программистов

Llama 3.1 и Mistral Large 2⁠⁠

1 год назад

В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.

Самое заметное отличие Llama 3.1 от предыдущих моделей - у нее есть версия 405B- 405 миллиардов обучаемых параметров. Это самая большая открытая языковая модель, и опубликованные метрики показывают ее производительность на уровне GPT-4. Тесты проводились как на общих бенчмарках, например MMLU, так и специализированных - на код и математику.

Для меня особенно интересными показались улучшенные мультиязычные возможности этой модели, так как я давно экспериментирую с обучением LLM на мультиязычных данных, моя последняя модель ruslandev/llama-3-8b-gpt-4o-ru1.0 превзошла GPT-3.5 на русскоязычной версии бенчмарка MT-Bench.

Llama 3.1 поддерживает семь языков, кроме английского - французский, немецкий, хинди, итальянский, португальский, испанский и тайский. Русского в списке нет, как легко заметить, но это не значит, что в корпусе базовой модели нет примеров на русском. Есть, и предостаточно, это становится очевидно при файнтюнинге. У меня есть мой собственный датасет для файнтюнинга ruslandev/tagengo-rus-gpt-4o, который я сгенерировал из преимущественно русскоязычных промптов датасета Tagengo с помощью GPT-4o.

Теперь о минусах модели Llama 3.1 - файнтюнинг 405B версии обойдется дорого, так как даже при сжатии в 4bit необходимо выделить около 200 ГБ VRAM для такой задачи. Поэтому я файнтюнил версию 8b на вышеупомянутом датасете, арендуя две видеокарты A100 на облачном сервисе immers.cloud. Но я не заметил особого превосходства версии 3.1 над третьей версией. Даже наоборот, я столкнулся с несколькими проблемами - например, 3.1 после файнтюнинга на моем датасете показала тенденцию прерывать генерацию, не завершив ответ - до причины я так и не докопался, но у Llama 3 такой проблемы не было.

Кстати, если вам тоже кажется неподъемной версия 405B для запуска на своем железе, стоит обратить внимание на модель Mistral Large 2, которая вышла почти одновременно с Llama 3.1. У этой модели 123 миллиарда параметров - в три с лишним раза меньше, чем у Llama 3.1 405B. Но вот интересные результаты бенчмарков, по которым можно сравнить эти две модели.

Мистраль побеждает ламу на MT-Bench:

А также на задачах по генерации кода и математике:

При этом очевидно, что инференс Mistral Large 2 обходится дешевле.

Я еще не пробовал файнтюнинг Mistral - у Llama, на мой взгляд, больше инструментов для этого, включая официальные скрипты llama-recipes, которые поддерживают FSDP - Fully-Sharded Data Parallel, эффективный способ распределенного файнтюнинга, когда на нескольких видеокартах параллелятся не только данные (в отличие от DDP - Distributed Data Parallel), но и параметры и градиенты модели.

Так что по крайней мере 8B версия llama 3 и 3.1 остается отличным материалом для ИИ разработки, при ее легковесности и высокой производительности.

Показать полностью 3

[моё] Искусственный интеллект Nlp Машинное обучение Длиннопост

0

3

BigDataExclusive

Meta* стремится сделать свои умные очки чем-то большим, чем просто развлечение⁠⁠

1 год назад

Компания запатентовала систему, использующую машинное обучение, дополненную реальность и ИИ для улучшения восприятия пользователя . Эта технология предназначена для того, чтобы помочь людям с нарушениями восприятия увидеть, услышать и ощутить мир по-новому.

Система собирает данные о местоположении юзера, контексте и окружении. Очки оборудованы камерами и микрофонами, используют встроенный акселерометр и могут считывать жесты и тактильные сигналы от трости, протеза или перчаток.

Meta* стремится сделать свои умные очки чем-то большим, чем просто развлечение

Затем все эти данные анализируются ИИ в облаке, чтобы выявить возможные риски в окружающей среде. Например, если поблизости проезжает автомобиль или звучит сигнал тревоги, очки интерпретируют эти события для пользователя. Если у человека проблемы со зрением, они предложат аудио или тактильные сигналы. В случаях ухудшенного слуха, будут показаны визуальные сигналы.

Meta утверждает, что эти технологии помогут пользователям распознавать знаки, оценивать глубину и перспективу, а также идентифицировать объекты вокруг.

* — запрещена в России

Показать полностью 1

Инновации Технологии Bigdata Виртуальная реальность Искусственный интеллект Будущее Машинное обучение Видео Без звука

0

4

AstroDario

Не удержался и я с мемом про Юсуфа Декича⁠⁠

1 год назад

Не ругайте строго, это мой первый пост

Мемы Юмор Юсуф Дикеч Python Машинное обучение C++ IT юмор

6

1

TheFounder

ИИ = нейросети?⁠⁠

1 год назад

Нейросети, или искусственные нейронные сети (АНС) – это конкретная технология внутри ИИ. Они вдохновлены биологическими нейронами в нашем мозге. Сложные математические модели, которые могут обучаться на данных.

Нейросети состоят из слоев узлов (нейронов), где каждый узел выполняет простые вычисления. Входные данные проходят через эти слои, и на каждом этапе сеть пытается выделить важные особенности и связи в данных.

Например, в задаче распознавания изображений нейросеть сначала может научиться распознавать простые формы, а затем, на более высоких слоях, сложные объекты.

Кажется, про классические MLP вы знаете...

Одна из самых известных видов нейросетей – это глубокие нейронные сети (DNN), которые имеют много слоев (отсюда и термин "глубокие").

Глубокое обучение (DL) – это методика обучения таких сетей, часто с использованием больших объемов данных и мощных графических процессоров (GPU), чтобы ускорить вычисления.

Поэтому нейросети сегодня – любые DNN системы с использованием Big Data, но далеко не каждый подход в ML.

Отличие между ИИ и нейросетями можно сравнить с разницей между строительством дома и использованием кирпичей.

ИИ – это процесс строительства умной системы, тогда как нейросети – это один из инструментов (или материалов), который можно использовать для этого строительства.

Есть и другие инструменты:

Символический ИИ, или логический ИИ, основывается на использовании четких правил и логических выражений для моделирования знаний и рассуждений.

В символическом ИИ широко применяются экспертные системы, которые включают в себя базы знаний и механизмы логического вывода.

Такие системы особенно эффективны в задачах, требующих структурированных знаний, например, в медицинской диагностике или юридическом консультировании.

Системы продукционных правил (если-то правила) и логическое программирование (например, язык Prolog) также относятся к символическому ИИ, кстати.

Байесовские модели, RL, методы программирования на основе примеров (case-based reasoning, CBR) методы опорных векторов - ИИ, но не относятся к классу нейросетей.

Но на уровне обычной жизни упомянуть ИИ в контексте нейросетей не так уж и зазорно.

Показать полностью 1

Программирование IT Машинное обучение Нейронные сети

1