4

Ответ на пост «"Шедеврум" от "Яндекса" дискредитирует армию России»

Блин, вот не так я хотел написать о своих увлечениях. Я просто не ожидал от Яндекса такой херни.
но немного не про это. Месяц назад примерно, я затеял, забавы ради сделать бота в телеграм. Ну и там что-то прикрутил синтезатор речи, потом нейронку распознавания речи. Еще тупонький нейросетевой переводчик... Вобщем более эксперементировал. DeepSeek туды подвязал (прикиньте у них api платный) и вот, незнаю каким то образим, следующее, что мне взбрело в голову - нейронка, идентификатор растений. Есть готовые приложения, но они сейчас все дружно работают только через vpn. Так вот, я нашел датасет растений, ну точнее как нашел - скачал на https://www.imageclef.org/PlantCLEF2025
Выбрал модель и начал обучать на своем импровизированном серваке.
Блииииин, похоже пост длинный будет, вы уж потерпите, ибо есть что сказать.
Вобщем про процесс обучения я скажу в двух словах - мой сервак лох, так что арендовал с четырьмя Nvidia Tesla t4 16gb
Вот такая штука:

и спустя несколько дней эксперементов, понял, что для такого большого датасета - мало памяти у видях. Нашел предобученную модель и развернул, а т.к. 7806 растений это мало, я вдогонку подключил еще нейронку натренированную на данных iNaturalist. Так что теперь не только растения, но и животные и даже рыбов могет определять. Но естественно не все
А тепер перейдем к самой мякушке.
без арендованного забугорного сервера в Нидерландах, я не смог скачать ничего, ни датасета, ни модели
Ну вы поняли...

И тот факт, что модели еще можно дообучить или вообще переобучить на своём датасете, в месте с тем фактом, что там еще есть куда стремиться, натолкнул меня на несколько важных мыслей, а именно:
1. Они там за бугром чо, охренели доступ ограничивать? Получается, я не имею доступ к научным данным просто по праву рождения в своей стране??? (Рассуждает про нацизм)
2. Я хочу дополнять собранные датасеты, и для этого мне нужен сервер, мой, личный, который я пока потихой собираю.
3. Я хочу в перспективе, подкопить данные датасета, и переобучить модель. А лучше, сделать этот процесс постоянным, и чтобы могли участвавать все желающие
_
Таким образом я внесу вклад в развитие науки (как бы наивно и по детски это ни звучало) и обеспечу суверенность и независиость знаний.
А что касается Яндекса, то это фиаско братан. Это просто былинный отказ. Имея ваши ресурсы, имея ваши наработки с поисковой системой, разве трудно собрать свой датасет??? Разве трудно на серверах с видяхами натравить скрипт с той-же blip2 или че по веселее, чтобы оно вам изображения из поиска по папкам складывало??? Разве для вас обучить потом болшую модель на этих данных это проблема???? Собрали свои данные, сделали сетку и вы в шоколаде... А я как вижу у них там похоже датасет банально общедоступный просто тьфу, халтура
Вот ссылка на мою поделку если что. Я там делаю что попало, но как минимум диалог с DeepSeek можно вести голосом, и растения распознает. Плюс я его развиваю по мере возможностей
https://t.me/DigitalWeed_ai_bot

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества