2

Как нас нейросеть и табуны лошадей научили управляться с дедлайнами

Лошади и нейросети, или как мы почти похоронили дедлайн, но в итоге собрали датасет мечты.

Если вы думаете, что работа с искуственным интеллектом — это всегда только про код, серверы и алгоритмы, то… частично вы правы. Но в этот раз наша команда работала в таких условиях, о которых мы даже думать не могли: скачки, фермы, табуны и дедлайны. Запасайтесь чаем, будет история с неожиданными поворотами.

Лошадиный вопрос, или как нас втянули в проект

Все началось пару лет назад. Один заказчик пришел к нам с заманчивым проектом. Задача была экзотическая, как прогулка на единороге: создать нейросеть, которая сможет различать лошадей по их фотографиям, чтобы понять, не смешались ли табуны.

Зачем? Ну, у лошадей в табунах есть жесткая иерархия. Обычно одним табуном "рулит" самый главный самец. Если табуны смешиваются, начинаются разборки между жеребцами, и вся эта "лошадиная иерархия" летит к чертям. Это стресс для всех, и заказчик хотел придумать способ предотвратить катастрофу.

Помочь могла только биометрия, но не человеческая. Распознавание лошади по её, что называется, морде. А теперь к главному: где вообще взять 10 000 уникальных лошадей?

Как мы искали цифровой табун

Для начала клиент попросил собрать 10 000 уникальных фотографий лошадей, по 10 на каждую. Звучит просто? В теории!

  • Мы ринулись искать изображения на YouTube, TikTok, ВКонтакте, конных форумах и всевозможных уголках Интернета.

  • Условие: на каждой морде лошади должны были быть видны пять ключевых точек (вроде глаз, ноздрей и рта). Ещё красивый прямоугольник морды в минимум 224 пикселя.

Через два месяца стало ясно: темп был черепашьим. Собрали 30 000 изображений с разных ресурсов, но уникальных лошадей среди них оказалось лишь 3 000. Мы были в шаге от провала, а на горизонте уже маячил дедлайн.

Как нас нейросеть и табуны лошадей научили управляться с дедлайнами Искусственный интеллект, Разработка, Нейронные сети, Компьютерное зрение, Разметка, Видео, Без звука, Короткие видео, Длиннопост

Итак, пора дружить с нейросетями!

"Когда сам не справляешься — позови помощника", — подумали мы. Сделали короткий перерыв, пересмотрели свой подход и решили автоматизировать процесс. Что мы придумали:

  1. Обучили нейросеть. Она распознавала морду лошади в кадре и проверяла, есть ли там необходимые точки (глаза, ноздри, рот).

  2. Для сбора фотографий придумали Telegram-бота, который принимал изображения, определял уникальных лошадей и складывал подходящие кадры в папочки.

А теперь главное: мы стали собирать больше данных за меньшее время. Если раньше наша скорость была 500 изображений в день, то после внедрения автоматизации она выросла до 5 384 изображений в день!

Результат: Новый подход спас дедлайн

Используя обновленный метод, мы собрали 70 000 изображений всего за 13 дней. В базе оказалось 7 000 уникальных лошадей — минимум по 10 снимков на каждую. И самое главное: все данные были идеального качества для обучения нейросети.

Что мы вынесли из этого проекта:

  • Иногда решение проблемы лежит прямо перед вами. Нужно просто использовать уже известные инструменты с неожиданной стороны.

  • Технологии реально спасают нервы, репутацию и даже жизни (в случае с табунами).


Дальше — только интереснее. Если у вас есть необычные задачки для нейронок, мы готовы всё обсудить. Оставляйте заявку на нашем сайте!

Искусственный интеллект

4.6K постов11.3K подписчика

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан