Субтитры YouTube как отдельный вид искусства
Шёл 2023 год, нейронные сети бороздили просторы вселенной, ютуб всё учился переводить голос в текст.
Фул, если кому нужен:
Шёл 2023 год, нейронные сети бороздили просторы вселенной, ютуб всё учился переводить голос в текст.
Фул, если кому нужен:
Показываю синтез речи, рассказываю о проблемах распознования речи с которыми столкнулся при использовании Whisper от OpenAI и раскрываю немного деталей по игре.
Если перед нами два класса — животные и растения, то куда отнести сковородку?
Задачи Бонгарда — это задачи зрительного распознавания образов. Каждая задача представлена двумя группами изображений по 6 каждая, слева и справа. В каждой группе изображения объединены общим признаком, и этим же признаком две группы отличаются между собой. Задача состоит в том, чтобы определить этот признак. Признаки могут быть как простыми и даже тривиальными, например, форма, цвет, размер, так и весьма изощрёнными. Например на заглавном рисунке выше у фигур слева ровно 3 «простых» (прямых) стороны, а у фигур справа — ровно 3 «сложных».
Задачи впервые появились в 1967 году в книге Михаила Моисеевича Бонгарда «Проблема узнавания» издательства «Наука» и стали широко известны после выхода в 1979 году книги Дугласа Хофштадтера «Гёдель, Эшер, Бах: эта бесконечная гирлянда» (Douglas Hofstadter, “Gödel, Escher, Bach: an Eternal Golden Braid”, переведена на русский язык издательством «Бахрах-М» в Самаре в 2001 году). Хофштадтера заинтересовали не столько идеи Бонгарда, сколько сами задачи, он также предложил собственные задачи, выходящие за рамки простого распознавания изображений и посвящённые абстрактным отношениям и построению аналогий. В 2006 году Гарри Фундалис (Harry Foundalis) под руководством Хофштадтера защитил диссертацию по теме создания компьютерной программы, способной решать задачи Бонгарда — Foundalis H. E. “PHAEACO: A cognitive architecture inspired by Bongard’s problems” («PHAEACO (Фиако): Когнитивная система для задач Бонгарда»), Bloomington, Indiana, USA; May 2006.
Исследования Бонгарда и Фундалиса направлены на создание «искусственного интеллекта»: компьютерных программ, автоматов, роботов. Последний даже в какой-то момент решил, что такие исследования могут иметь неприятные для человечества последствия. Тем не менее, решение и составление подобных задач может быть полезным и для «естественного интеллекта». Во-первых, это занимательные головоломки. Во-вторых, это полезный и, вероятно, важнейший способ мышления и систематизации знаний. Это именно то, на что обратил внимание Хофштадтер, и об этом говорит Бонгард во введении к своей книги приводя в пример марсиан, решивших «найти такое расположение некоторого числа атомов в пространстве, чтобы их совокупность могла перевозить человека по хорошей дороге со скоростью не меньшей, чем лошадь»:
Именно умение думать «не атомами, а крупными блоками» и дало возможность людям создать достаточно сложные устройства. И именно отсутствие такой возможности лишает марсиан надежды на успех. Пока они не создадут предпосылок для «крупноблочного мышления» (механики, химии, технологии материалов и т. п.), им придётся довольствоваться сознанием того, что изготовить автомобиль в принципе возможно, ездить же на автомобилях будут только герои фантастических романов.
Не обязательно иметь именно 12 и именно картинок, это могут быть любые абстрактные понятия, например глаголы или их временны́е формы и ситуации, в которых их надо применять (при изучении иностранных языков). В конце концов, любая идея записанная словами — это изображение. Это могут быть числа, например «слева» 7 5 11 3 9 и «справа» 10 4 18 6 2, записанные арабскими или римскими цифрами, или словами, или математическими выражениями, или любыми другими способами, в том числе на разных языках, причём либо только слева или справа, либо вперемешку. Это могут быть названия, фрагменты, краткие изложения или иллюстрации повестей А. С. Пушкина и А. П. Чехова. Идея может быть использована для составления тестов для проверки знаний. Например, для теста не годится вопрос «Кто из перечисленных людей написал повесть „Капитанская дочка“?», потому что на него существует только один правильный ответ. Пример хорошего вопроса: «Которая из перечисленных повестей написана А. С. Пушкиным?» — на этот вопрос есть множество правильных и множество неправильных ответов (например, повести Чехова), можно составить несколько вариантов теста одинаковых по сложности, но разных по содержанию. Для ответа на такой вопрос требуется знакомство с произведениями нескольких авторов, понимание их стиля или тематики. По сути хорошие тесты являются «обратными задачами Бонгарда», когда известен признак и нужно рассортировать объекты по этому признаку.
Ниже ещё несколько примеров задач Бонгарда, а полная коллекция Фундалиса доступна по ссылке «Задачи Бонгарда»:
Делюсь своим опытом по созданию нейросети для работы с deepfake и faceswap. За основу взят проект deepfacelab.
Обнаружил интересную функцию в приложении Яндекса — подбирает стихи по картинке: наводите камеру на предмет и получаете отрывок произведения, где этот предмет упоминается. Только вот про калькулятор стихов не нашёл Яндекс.
Ну вот и потестил я исcкуственный интеллект на камерах HikVision
Большой минус оборудования это цена, она настолько высокая что IP видеорегистраторы с технологией AcuSense нельзя купить просто так, ибо это проектное оборудование, но можно купить отдельно IP камеры с AcuSense, поставить внутрь карту памяти micro SD 256GB и оценить четкость работы:
Вот такой комплект взяли, честно скажу это не бюджетное решение 4шт 4мп smart IP камеры+ poe switch(на 9 портов)+ карты памяти256+уличная витая + монтаж=100т.р.
Сразу скажу про POE, на кабеле средней ценовой категории PROCONNECT(алюминевая омедненка всепогодная) POE(питание по витой паре) без проблем поднялся на 90 метров... а ещё есть режим POE MAX, на нем обещают 250метров, правда только на двух портах из 8poe.
Но сначала я решил эти камеры отnестить у себя в квартире, благо у меня 12 этаж, и есть диагонали до пешеходных дорожек по 40 метров, чтобы просто понять как камера будет ловить там людей:
и ловит она их даже на краю, качество не айс ибо писал с экрана телефона....
Также важное отличие от DAHUA. Hikvision умеет посылать уведомления об обнаружение людей прямо в мобильное приложение EZVIZ, и там по клику можно все отсмотреть, а DAHUA шлёт письмо со временем и скрином на почту, и тебе надо вручную искать этот момент...
Большой плюс HIK, что поставить на охрану или снять с охраны(чтобы приходили уведомления) ты можешь прямо с мобильного приложения... а на Dahua надо мышкой нажимать на мониторе регистратора, т.е. уехал и забыл поставить на охрану, сам себе злобный буратино...
можете также оценить качество и дальность ИК подсветки, по моему честные 40 метров
а вот тоже место днем.
Пока за полдня ложных сработок не было, но надо наблюдать на большем интервале.
Я писал в прошлом посте, про установку камер с интеллектуальным распознаванием автомобилей и лиц в кадре, на видеорегистраторе DAHUA.
И вот восторг сменился небольшим разочарованием, ложные сработки по пару раз в сутки, клиент, которому поставили оборудование несильно, но жалуется...
Вот например птичку посчитала человеком.
А вот паучка приняла за гуманоида)))
А тут она в бревнах видит живое)))
Короче пока не идеально, каждый вечер удаленно подкручиваю чувствительность датчиков, меняю маски камер.
Но людей и автомобили камера определяет исправно, ни одного пропущенного человека...
На неделе буду тестировать распознавание, от ещё одного крупного производителя HIK-VISION, уже непосредственно в IP камерах, а не на гибридном регистраторе... И там уверен, всё будет точнее реализовано.