С 9 по 14 октября в Сочи прошел девятый российский форум “Микроэлектроника” – ключевое информационное событие в мире электронных технологий. Площадка, задуманная как диалог между разработчиками электронной компонентной базы и производителями готовой продукции, ежегодно вызывает колоссальный интерес участников всех отраслей промышленности. Ауригу на форуме представили Денис Тюрин, руководитель подразделения по разработке системного и встраиваемого ПО, и Виталий Лазарев, аккаунт-менеджер. Коллеги рассказали о том, как проходил форум и какие тенденции они отметили на рынке. Делимся материалами в этой статье.
Программа форума включала в себя три блока:
– Научная конференция, на которой были представлены доклады о технологиях производства, используемых материалах и других аспектах работы с полупроводниками.
– Деловая программа, в рамках которой прошли круглые столы, и эксперты поделились вариантами готовых решений и идей. Особое внимание было уделено вопросам развития цифровой экономики в России, формированию нормативно-правовой базы, разработке ЭКБ, развитию производственных мощностей и выпуску готовой продукции.
– Выставка, где было представлено более 125 объектов на двух зонах экспозиции.
Производство полупроводников в России переживает бум. Это подтверждается, в том числе, выступлением на форуме министра промышленности и торговли Дениса Мантурова и представителей других министерств: государство активно поддерживает производство, планы на дальнейшее развитие отрасли грандиозные. Разумеется, есть и сложности. Своим мнением по этому вопросу поделился Денис Тюрин, Руководитель подразделения по разработке системного и встраиваемого ПО в Ауриге:
“Основная проблема – отсутствие высококвалифицированных специалистов. Вакансий много, но они не закрываются из-за дефицита кадров. Однако производители сотрудничают с университетами, активно приглашают молодых специалистов на стажировки – прогресс, безусловно, есть. Помимо этого, существуют некоторые трудности с системами автоматизированного проектирования. Отечественное ПО не успело достичь пика в своем развитии”.
Форум “Микроэлектроника” послужил отличной площадкой для того, чтобы главные игроки отрасли обменялись знаниями и экспертизой, а также ознакомились с передовыми решениями в мире электронных технологий. Больше о технологических решениях читайте в корпоративном блоге Ауриги.
Однажды у меня возникла потребность подключения своего узла учета электрической энергии к системе умного дома «Home Assistant», но вот беда, установленный счетчик ЭНЕРГОМЕРА СЕ101 не обладал смарт функциями, позволяющими без проблем подключать его к системам умного дома, а цена электросчетчиков со смарт функциями просто заоблачная. Но я нашел экономичное решение с ценой решения задачи менее $5 и об этом далее.
❯ Исходные данные
Итак, как я говорил ранее, для учета электрической энергии у нас установлен счетчик ЭНЕРГОМЕРА СЕ101 модификации R5 — достаточно бюджетное решение. Чтобы изучить подопытного в плане доступных интерфейсов, изучим техническую документацию на данный счетчик. Я особо не испытывал иллюзий в плане наличия доступных интерфейсов, но мне повезло.
Бинго! — сказал я, найдя в документации следующие пункты:
2.3.1. Принцип действия счетчика основан на перемножении входных сигналов тока и напряжения по методу сигма-дельта модуляции с последующим преобразованием сигнала в частоту следования импульсов, пропорциональную входной мощности. Суммирование этих импульсов отсчетным устройством дает количество активной энергии. Счетчик также имеет в своем составе испытательный выход для подключения к системам автоматизированного учета потребленной электроэнергии или для поверки.
2.3.2. Конструктивно счетчик выполнен в пластмассовом корпусе. В корпусе размещена печатная плата, на которой расположена вся схема счетчика. В качестве датчика входного тока используется шунт, соединенный с контактами колодки. Зажимы для подсоединения счетчика к сети, испытательный выход закрываются пластмассовой крышкой.
2.3.3. Испытательный выход реализован на транзисторе с «открытым» коллектором, для его функционирования необходимо подать питающее напряжение постоянного тока от 5 до 24 В. Величина номинального тока через контакты испытательного выхода в состоянии «замкнуто» равна (10±1) мА, максимально допустимая не более 30 мА.
Техническая документация нам прямо говорит:
Счетчик имеет в своем составе испытательный выход для подключения к системам автоматизированного учета потребленной электроэнергии или для поверки.
Ниже приведена схема подключения счетчика
Решено! Будем использовать данный выход для интеграции электросчетчика с Home Assistant. Нам останется только преобразовать импульсный сигнал в удобную форму данных, чем и займется дешевый микроконтроллер ESP8266.
Дополнительная информация по испытательному выходу:
Импульсный выход электросчетчика реализован с гальванической развязкой с помощью оптопары, поэтому мы можем смело подключать данный выход напрямую к микроконтроллеру без дополнительной развязки. Как правило, к данному выходу имеется свободный доступ и клеммы не пломбируются энергоснабжающей компанией.
❯ Алгоритм преобразования данных
Здесь все просто. Каждый счетчик имеет параметр «частота следования импульсов, пропорциональная входной мощности», который указан на панели счетчика, в моём случае это 3200 imp/kW*h. То есть, чтобы нам узнать накопленную мощность, просто нужно будет значение инкрементного счетчика, который суммирует входящие импульсы от счетчика, поделить на 3200. Чтобы отслеживать потребление за определенный период времени нам нужно будет реализовать дополнительные интервальные счетчики.
❯ Разработка аппаратной части
Итак, как описывалось ранее, преобразование импульсных значений электросчетчика достаточно тривиальная задача, с которой вполне справится микроконтроллер ESP8266.
Принципиальная схема устройства:
Рендер печатной платы:
На самом деле, схема настолько простая, что монтаж можно реализовать навесным методом.
Пример навесного монтажа. Особо впечатлительным не смотреть! )
❯ Корпус
Модель корпуса, как обычно, я разрабатывал во FreeCAD.
В корпусе предусмотрен отсек для аккумулятора, который обеспечит устройство резервным питанием. Питание устройства и зарядка аккумулятора выполняется с помощью популярной платы на буде контроллера заряда TP4056. Но использование аккумулятора не обязательно, я просто перестраховался.
Модель корпуса напечатана HIPS пластиком на 3D принтере.
❯ Микро ПО
Прошивка устройства написана в среде Arduino IDE, большую часть прошивки занимает веб интерфейс и функция работы с MQTT протоколом. Для работы с входным сигналом используется аппаратное прерывание. Ссылку на исходный код прошивки я оставлю конце статьи, а теперь давайте рассмотрим веб интерфейс устройства:
Вход в устройство
Для входа в устройство требуется авторизация, пароль по умолчанию: admin
Главная страница устройства
На главной странице отображены данные по потреблению электроэнергии:
Потребляемая мощность (сред. 10 сек, 1 мин, 5 мин, 60 мин), Вт*ч — усредненное рассчитанное часовое потребление за период 10 сек, 1 мин, 5 мин, 60 мин. Для отслеживания динамики по потреблению эл.энергии.
Показания счетчика — накопленное значение кВт*ч
Конфигурация передачи данных по MQTT протоколу
Как вы могли заметить, для интеграции с Home Assistant используется протокол MQTT, настройки вполне понятные, не требует дополнительных описаний.
Ниже указаны топики, для примера, указано корневое имя топика «m_power»:
m_power/10s — передача значения «Потребляемая мощность (сред. 10 сек)», периодичность отправки 10 сек.
m_power/1m — передача значения «Потребляемая мощность (сред. 1 мин)», периодичность отправки 1 мин.
m_power/5m— передача значения «Потребляемая мощность (сред. 5 мин)», периодичность отправки 5 мин.
m_power/60m — передача значения «Потребляемая мощность (сред. 60 мин)», периодичность отправки 60 мин.
m_power/total — передача значения «Накопленная мощность», периодичность отправки 5 мин.
Настройка типа счетчика
Здесь необходимо ввести два параметра вашего электросчетчика:
"Количество импульсов счетчика на 1 кВт*ч" — данный параметр указан на табло счетчика
"Текущие показания счетчика" — данный параметр передается в устройство, как начальное значение накопленной мощности, далее к этому параметру будут прибавляться рассчитанные контроллером данные.
С интерфейсом можно закончить, интерфейс интуитивно понятен и разработан для обычного пользователя, надеюсь что проблем с использованием не должно возникнуть.
❯ Интеграция в Home Assistant
Чтобы интегрировать данное устройство в Home Assistant, необходимо прописать в файле конфигурации configuration.yaml следующий код:
Обратите внимание, что в примере указан корень топика с именем «m_power».
Код карточки «объекты» для вывода данных:
В результате у вас должно получиться что-то подобное:
❯ Подключение нашего контроллера к электросчетчику
Важное предупреждение!
Подключение нашего контроллера к импульсному выходу электросчетчика выполняется согласно схеме, что была указана выше. Ниже пример подключения к моему электросчетчику.
Подключение выполнялось свободной «витой парой», которая шла из моей квартиры, потому нет необходимости размещения контроллера в щите, где установлен электросчетчик. После подключения витой пары, крышка которая закрывает клеммник, была установлена на место.
Ниже фотография собранного устройства с подключенным счетчиком.
Видео работы контроллера при включенном электрическом водонагревателе.
Ниже демонстрация графиков данных, полученных с контроллера:
❯ Подводим итоги
В итоге у получилось простое и дешевое устройство для интеграции «глупого» электросчетчика в системы умного дома. Я очень доволен результатом! Теперь нет необходимости переодически записывать показания со счетчика для отправки, а просмотр статистики потребления, по временным интервалам, дает возможность анализа расхода электроэнергии с последующей оптимизацией.
Дополнительная опция
Если у счетчика отсутствует испытательный выход, то в качестве источника импульсов можно использовать светодиод, подключив фототранзистор ко входу собранного контроллера. Спасибо всем за уделенное внимание!
В начале 2023 года, во многих СМИ появилась информация, что стрелки часов Судного дня перевели на десять секунд. Сейчас они замерли на отметке 90 секунд до полуночи, и теперь часы показывают самый высокий уровень риска ядерной катастрофы за всю историю проекта. Эта информация побудила меня создать устройство для мониторинга фоновой радиации — мог бы написать я, но на самом деле, всё началось гораздо раньше и об этом расскажу далее.
Однажды вечером, в 2015 году, мне захотелось посмотреть статистику фоновой радиации в регионе где я проживаю, зашел на мой любимый проект под названием «Народный мониторинг» и начал искать близлежащие датчики, которые могли бы измерять фоновую радиацию. На моё удивление, я не обнаружил подобных датчиков. Ладно, не беда, сказал я себе, ведь я живу в регионе, где есть государственные предприятия атомной энергетики, на их сайте должна же быть публичная информация об уровне фонового излучения. Зашел на сайт, да, действительно, есть статистика по уровню фонового излучения, где на графике показана прямая линия без намека на динамику, естественно, данный результат меня не устроил и я решил собирать статистику самостоятельно, разработав свое устройство.
Немного информации о том, что собой представляет ионизирующее излучение (радиация)
На рисунке схематично изображена проникающая способность трех видов излучения
Альфа-излучение представляет собой поток альфа-частиц (ядер гелия-4). Альфа-частицы излучаются при радиоактивном распаде и могут быть легко остановлены листом бумаги. Бета-излучение — это поток электронов, возникающих при бета-распаде, для защиты от бета-частиц энергией до 1 МэВ достаточно алюминиевой пластины толщиной в несколько миллиметров. Гамма-излучение обладает гораздо большей проникающей способностью, поскольку состоит из фотонов с высокой энергией, не обладающих зарядом, для защиты эффективны тяжёлые элементы (свинец и т. д.), поглощающие фотоны Гамма-излучения в слое толщиной несколько см.
Как можно видеть, наиболее опасные типы радиационного излучения это Бетта и Гамма, если речь идет о внешнем воздействии. При попадании излучающих частиц во внутрь человека, все виды излучения представляют опасность.
Так, немного разобрались что такое радиация, надеюсь, эта информация не утомила вас. Предлагаю перейти к конструкции устройства.
❯ Аппаратная часть устройства
Так как основным эффектом радиационного излучения является ионизация, то для детектирования излучения используется простое решение — трубка (счетчик) Гейгера-Мюллера.
Краткое описание работы трубки(счетчика) Гейгера-Мюллера:
При пролете частицы с высокой энергией сквозь трубку, образуется ионный канал, который замыкает цепь электродов, создавая импульс на загрузочном резисторе. Эти импульсы и будут сигналом регистрации фонового излучения, остается только передать эти импульсы в микроконтроллер для вычисления накопленной дозы излучения.
Чтобы работать с трубкой, необходим источник высокого напряжения на 400В. В качестве источника высокого напряжения я решил применить повышающий Step-UP преобразователь на базе ШИМ контроллера MAX1771, который хорошо себя показал в проекте часов на ламповых индикаторах. За интеллектуальную часть устройства отвечает микроконтроллер ESP8266. Итак, ниже размещена принципиальная схема разработанного устройства.
Рендер печатной платы
Печатная плата в собранном виде
Один из вариантов корпуса устройства
❯ Разработка корпуса устройства
Корпус спроектирован во FreeCAD, данный вариант корпуса изготовлен с учетом применения трубки СИ180Г.
Еще немного картинок готового устройства:
На фото вариант устройства с применением массива трубок СИ1-Г
❯ Разработка программной части устройства
Программная часть не подразумевает каких-то сложных решений, наша задача подсчитать импульсы, приходящие с трубки Гейгера-Мюллера за определенный промежуток времени и применить расчетный коэффициент трубки. В прошивке устройства будет использоваться несколько временных интервалов подсчета импульсов, 10 сек, 1 мин, 5 мин, 60 мин. Подсчет импульсов будет выполняться с помощью аппаратного прерывания.
Так как у нас, для усиления сигнала импульса трубки, используется транзистор с обратной проводимостью, то нам необходимо использовать параметр FALLING в аппаратном прерывании.
Ниже представлена функция счетчиков импульса
Функция вычисления накопленной дозы для разных временных интервалов
Ссылка на исходный код будет добавлена конце статьи.
❯ Конфигурация устройства / интерфейс
В данной версии программного обеспечения для конфигурации устройства используется веб-интерфейс. Для первичной настройки при отсутствии подключения к сети устройство создает Wi-Fi точку доступа, при подключение к которой выполняется автоматическая переадресация на веб-страницу устройства (реализована с применением технологии Captive portal).
Интерфейс главной страницы
Доступ к конфигурации устройства выполняется только после авторизации.
Интерфейс настройки подключения по MQTT протоколу
❯ Интеграция в Home Assistant
Для передачи данных в Home Assistant, как вы уже могли догадаться, используется протокол MQTT. Ниже приведен пример интеграции, в примере использован формат данных JSON и имя топика «r_sensor/jsondata».
Формат данных JSON для данного устройства:
Ключи, которые начинаются на «CP» — это «сырые» данные, полученные от трубки, Ключи начинающиеся на «val» — это итоговое значение уровня излучения.
Для интеграции в Home Assistant в конфигурационном файле configuration.yaml, добавьте следующий код (пример):
Чтобы добавить в dashboard Home Assistant карточку с отображением данных, создайте карточку «Объекты» и в текстовом редакторе необходимо вставить следующий код:
В итоге должна получиться подобная карточка с отображением данных:
На этом мы закончили базовую интеграцию датчика в Home Assistant.
Немного информации о дополнительных функциях
В устройстве предусмотрена функция звуковой индикации. Да-да, это тот самый звук потрескивания при регистрации частицы. Думаю, радиофилы и радиофобы будут довольны).
Так же в устройстве предусмотрена звуковая сигнализация о превышении допустимого уровня излучения, она срабатывает при достижении уровня радиации более 100 мкР/ч. Демонстрацию можно увидеть здесь
❯ Итог
В итоге у нас получилось интересное и компактное решение для мониторинга уровня фоновой радиации, которое запитывается от обычного USB порта.
Устройство прошло несколько итераций развития, как программного, так и аппаратного. На данный момент это проверенное временем и отлаженное устройство, которое не стыдно показать.
Первая версия устройства (2015 год):
На этом можно завершать. Всем большое спасибо за внимание!
Небольшая бонусная история, связанная с данным устройством:
В конце сентября 2017 года, внезапно устройство начало регистрировать повышенный уровень фоновой радиации, о чем оно меня предупредило. Я не мог понять, что происходит и склонялся к тому, что возникла какая-то аппаратная проблема и не принял в серьез эту ситуацию. Спустя пару минут всё нормализовалось. Диагностика не показала каких-либо проблем с устройством. В начале октября появилась информация в СМИ о выбросе изотопа Рутений-103 и все стало ясно. Облако Рутения-103 пролетело где-то рядом. Это была первая аномалия, которая была зафиксирована моим устройством.
По определению, презентация — это визуальный инструмент, который помогает рассказать историю. Эта история может быть для разных целей: обучение, развлечение или бизнес. Хорошая презентация может стимулировать рынки и укрепить репутацию.
Когда в 1987-м году был продемонстрирован PowerPoint, презентации изменились навсегда. Конечно, развитие презентаций было делом рук не только Microsoft. Пожалуй, самая запоминающаяся презентация всех времён — анонс Стива Джобса iPhone на Macworld 2007 — сделана вовсе не на PowerPoint.
Когда ПО для презентаций стали популярными, такие инструменты, как диафильмы и слайд-проекторы, превратились в хлам в кладовке. До компьютеров презентации делались с помощью флипчартов и слайд-проекторов, и они применялись в учебных заведениях и конференц-залах по всему миру. Интересно, что дизайн слайдов олицетворял визуальный стиль графического дизайна своего времени. Эволюция презентаций следовала тенденциям, так же как реклама и мода. В этой статье рассмотрим, как искусство презентаций развивалась с течением времени и как она превратились в то, что мы знаем сегодня.
❯ Первые презентации
Наскальные рисунки пещерных людей считаются первыми произведениями искусства в истории человечества. И эти рисунки можно назвать первыми презентациями. Забегая вперёд на тысячи лет, ещё одним подобным примером можно считать средневековые готические соборы, которые были украшены большими красочными витражами. На витражах были изображены истории из Библии и жизни святых. Цель этих окон состояла в том, чтобы визуально обогатить проповеди. Каждое такое окно старинных времён можно считать «винтажным слайдом». Также в пример можно привести буддийские храмы.
Витражи Кентерберийского собора
Первой целью презентаций было обучение. Позже люди начали использовать презентации для торговли. Первым инструментом, который использовался в школьных уроках, была всем известная классная доска. Учителя использовали классные доски на протяжении сотен лет, чтобы обучать многие поколения школяров. Одни учителя писали, пока говорили, а другие заранее готовили доски. Можно сказать, что последний был наиболее похож на презентацию, в привычном нам понимании сегодня.
На протяжении десятилетий учёные использовали классные доски для представления своих идей. Их расчёты и формулы заполняли большие доски. Во время рассказа или выступления они указывали на разные участки доски указкой.
Группа учёных НАСА в 1961-м году
Ещё одним инструментом, широко использовавшимся во время уроков был флипчарт. Первые флипчарты представляли собой распечатанные плакаты, соединённые металлическими застёжками. Учителя переворачивали эти плакаты один за другим, чтобы представить и объяснить каждый из них. Флипчарты были созданы для наглядных уроков и могли использоваться многократно.
Science Charts — образовательный флипчарт 1940-х годов
Флипчарты также использовались для бизнеса. Их первое зарегистрированное использование для встречи по продажам было описано в книге «Принципы продаж Паттерсона» в 1912-м году. Флипчарты всё ещё используются сегодня, потому что их можно легко заламинировать, повесить на стену и просматривать при необходимости.
Презентация флипчарта компании Coca-Cola 1940-х годов
Первый бумажный флипчарт был представлен в 1970-х годах Питером Кентом. Бумажный флипчарт представляет собой большой блок листов белой бумаги, прикреплённый к отдельно стоящей доске. Выступающие могут рисовать или писать на бумажном флипчарте во время выступления или заранее создавать его с помощью диаграмм, графиков и иллюстраций.
Флипчарты в основном использовались до появления PowerPoint, но они также стали чем-то вроде культовой классики для проведения живых презентаций. Многие до сих пор используют их в своих проектах. В 1960-х годах помимо флипчартов и проекторов некоторые презентации визуализировались с помощью картонных плакатов, установленных на деревянных мольбертах.
❯ Презентация как шоу
Классные доски, флипчарты и плакаты были прекрасными инструментами для представления информации, но они были ограничены. С развитием технологий преподаватели и продавцы хотели сделать презентацию более увлекательной и интерактивной, и они стали использовать проекторы разных типов. Первым проектором был «Magic Lantern». Вместо лампочки в нём использовалась свеча или керосиновая лампа для проецирования света через прозрачную плёнку.
Первые «слайды» использовались в диафильмах. Это были короткие 35-мм плёночные негативы, проецируемые на стену. Эти машины управлялись вручную с помощью колеса сбоку. Это колесо перемещало диафильм на один кадр или «слайд» за раз. Подготовленные диафильмы обычно сопровождались аудиофайлом на виниловой пластинке. В других случаях диафильмы поставлялись с печатным текстом, который рассказчик читал во время презентации. Аудиозаписи, которые сопровождали диафильмы, имели специальную звуковую подсказку, чтобы сообщить учителю, когда пришло время перейти к следующему кадру/слайду. В печатном тексте тоже были письменные подсказки. Более современные диафильмы имели автоматические движения слайдов и слот для кассеты, которая воспроизводилась синхронно.
В конце 40-х мультимедиа были в новинку. Но по мере того, как слайд-проекторы становились всё более популярными, компании хотели иметь свои собственные слайды для торговых встреч и презентаций. К началу 1960-х годов почти все компании с национальными рекламными бюджетами использовали мультимедийное оборудование — 16-миллиметровые проекторы и диапроекторы — в своих тренингах по продажам и рекламных акциях, для связей с общественностью и в рамках своих внутренних коммуникаций. Многие нанимали штатных аудио- и видеорежиссеров, которые были не только техниками, но и шоуменами. Потому что, несмотря на репутацию утомительных презентаций, когда они сделаны правильно, они превращаются в настоящее шоу. Компании использовали драматическую силу изображений, чтобы продавать свои идеи миру.
В 1965-м году была представлена известная Kodak Carousel. Именно тогда в конечном итоге начали появляться более сложные конструкции слайдов. Финал сериала «Безумцы» — телесериала о маркетинговой компании 1960-х годов — включает запоминающуюся сцену, в которой главный герой предлагает маркетинговую идею для Kodak Carousel.
До PowerPoint и задолго до появления цифровых проекторов главными были 35-миллиметровые слайды. Более крупные, чёткие и менее дорогие в производстве, чем 16-миллиметровая плёнка, и более красочные и с более высоким разрешением, чем видео, слайды были единственным средством для впечатляющих презентаций, устраиваемых на ежегодных собраниях акционеров. Для проведения этих презентаций, известных в бизнесе как «мульти-имиджевые шоу», требовалась небольшая армия продюсеров, фотографов и съёмочного персонала. Сначала всё шоу нужно было написать, раскадровать и озвучить. Выбирались изображения из библиотеки, устраивались фотосессии, произведились анимации и спецэффекты. Техники в белых перчатках разрабатывали, монтировали и протирали пыль с каждого слайда перед тем, как поместить его в карусель слайдов. Тысячи сигналов программировались в компьютеры управления шоу, а затем проверялись и снова проверялись. Потому что проекторы ломались. Перегорались лампы. Карусели слайдов застревали.
Презентация Saab от Дугласа Месни
Одним из востребованных фотографов, который устраивал мульти-имиджевое шоу был Дуглас Месни. На пике карьеры Месни в его шоу требовалось до 100 проекторов, скреплённых вместе в головокружительных установках. С несколькими проекторами, направленными на один и тот же экран, он мог создавать бесшовные панорамы и сложные анимации, синхронизированные с лентой. Хотя риск фиаско всегда был высок, когда ему это удавалось, его шоу ошеломляли публику. Среди клиентов Месни были IKEA, Saab, Kodak и Shell; он распоряжался производственным бюджетом в сотни тысяч долларов. И это было дёшево. Более крупные компании по постановке мультимедиа, такие как Carabiner International, брали до 1 миллиона долларов за организацию корпоративных встреч, оживляя свои презентации лазерными и световыми шоу, танцевальными номерами и знаменитыми артистами, такими как Hall & Oates, Allman Brothers и даже Маппеты.
С момента своего создания в 1976-м году до середины 1980-х годов Ассоциация мультиизображений, торговая ассоциация производителей слайдов, выросла с нуля до 5000 членов. На пике своего развития в мульти-имиджевом бизнесе работало около 20 000 человек, и он поддерживал несколько фестивалей и четыре различных отраслевых журнала. В одном из них в 1980-м году был опубликован профиль Дугласа Месни; когда его спросили о его прогнозе о будущем слайдов, он ответил: «Мы можем разбогатеть или разориться через год». И он не ошибся.
В то время около 30 производителей электронных устройств для программирования слайдов боролись за доллар. Чтобы удовлетворить спрос на высокоэффективные шоу, технология быстро эволюционировала от ручных устройств и базовых систем управления, запрограммированных с помощью перфоленты, а затем аудиокассет, до специализированных компьютеров для управления слайдами, таких как AVL Eagle I, которые могли управлять 30 проекторами. Eagle, который поставлялся с программным обеспечением для обработки текстов и бухгалтерского учёта, был настоящим бизнес-компьютером — настолько, что, когда Eagle отделился от своей материнской компании Audio Visual Labs в начале 80-х, он стал одним из самых многообещающих компьютеров Силиконовой долины.
Сегодня если вы до этого не видели слайд-шоу, то скорей всего уже никогда не увидите. Машины, которые могли показать их, были захоронены. Сами слайды редко архивировались. Время от времени несколько коробок со старым «модулем» с несколькими изображениями обнаруживаются в хранилищах, а иногда они даже не повреждены. Но, за исключением нескольких любителей и программистов на пенсии, ноу-хау для восстановления и создания слайд-шоу из нескольких изображений мало. Вся индустрия, существовавшая на неожиданном пересечении аналогового и высокотехнологичного искусства, возникла и исчезла чуть более чем за 20 лет.
Последний слайд-проектор сошёл с конвейера в 2004-м году. Внутренняя часть его корпуса была подписана заводскими рабочими и руководством Kodak, прежде чем устройство было передано Смитсоновскому институту.
❯ Изобретение PowerPoint
В 1984-м году у Роберта Гаскинса, учёного-компьютерщика, возникла идея. Он устал часами готовить диапозитивы для презентаций и использовать классные доски для иллюстрирования. И поэтому он с помощью разработчиков Томаса Рудкина и Денниса Остина решил создать программу для презентаций, которая обеспечивала бы простой способ создания и представления слайдов. Они назвали эту программу Presenter, которая позже была переименована в PowerPoint.
Команда представила программу и бизнес-план своей компании-разработчику программного обеспечения Forethought в Саннивейле, штат Калифорния. Forethought быстро распространила революционную идею PowerPoint по всему миру. Первая версия PowerPoint для компьютеров Apple была выпущена в чёрно-белом цвете.
Apple инвестировала 432 000 долларов в PowerPoint, что сделало это первой венчурной инвестицией Apple. К 1986 году команда PowerPoint использовала PowerPoint для объяснения своей бизнес-стратегии. В 1987-м году Microsoft удалось в кои-то веки превзойти Apple и выкупить PowerPoint за 14 миллионов долларов. После их приобретения Microsoft выпустила свою первую официальную версию PowerPoint в 1990-м году. К 1993-му году продажи PowerPoint составляли 100 миллионов долларов в год.
Когда Microsoft приобрела PowerPoint, они перезапустили его с поддержкой всех цветов. Было несколько «мастеров слайдов», которые сегодня называются шаблонами. Пользователи могли изменять цвета с помощью предварительно разработанных цветовых схем, доступных в программе. Когда PowerPoint впервые появился, он был доступен только тем, у кого были компьютеры, например рекламным и креативным агентствам. К середине 90-х PowerPoint стала популярной программой для создания презентаций. Ею пользовались все — учителя, ученики и, конечно же, на каждом собрании компаний была презентация в PowerPoint.
1997-й год стал годом, навсегда изменившим ход истории PowerPoint. PowerPoint 97 был выпущен со значительными улучшениями и обновлениями, в первую очередь с настраиваемой анимацией. Это позволяло презентациям плавно приближаться к будущему. А тот факт, что пользователям не требовалось специальных навыков программирования для анимации своих презентаций, заставил всех влюбиться в PowerPoint. С 1997-го года PowerPoint продолжает улучшаться и расти. Вышли новые версии с встраиванием аудио и видео, веб-поддержкой и большим количеством переходов между слайдами, чем когда-либо прежде. К 2003-му году доходы Microsoft от PowerPoint превышали 1 миллиард долларов в год.
Продолжающееся доминирование PowerPoint может быть связано со статусом программы как золотого стандарта в образовательных учреждениях для студентов и преподавателей. И, по большей части, люди довольны работой с PowerPoint — нет веских причин что-то менять. Тем временем основатель Роберт Гаскинс уже вышел на пенсию и написал книгу об изобретении PowerPoint для тех, кто хочет узнать больше о рождении этой инновационной и надёжной программы.
Что действительно имело значение, так это то, что презентации больше не предназначались для встреч в конце года и больших идей, достойных усилий и затрат, необходимых для подготовки цветных слайдов. Масштабируемость информации и аудитории, которую PowerPoint привнёс, были просто невероятными. Нет ни одного ученика любого уровня, который не видел презентацию в PowerPoint. Действительно, PowerPoint используется в школах, компаниях, религиозных проповедях, на похоронах и свадьбах. В 2010-м году Microsoft объявила, что PowerPoint установлен более чем на миллиарде компьютеров по всему миру. PowerPoint занимает 95% рынка программного обеспечения для презентаций, затмевая таких конкурентов, как Apple Keynote, Google Presentations и Prezi.
В таком масштабе влияние PowerPoint на то, как мир общается, было неизмеримым. Но есть кое-что, что можно измерить: Microsoft выросла в десять раз за те годы, когда Роберт Гаскинс руководил подразделением графики. Технологические корпорации, как и сама PowerPoint, продолжает процветать. Большие презентации больше не проходят за закрытыми дверями. Теперь это полуобщественные события, за которыми охотно и с энтузиазмом следят потребители по всему миру. Никому больше не нужно беспокоиться о том, что карусели слайдов застревают, а проекторы ломаются. Хотя всё по-прежнему может пойти наперекосяк, от глючных технических демонстраций и до скучного рассказчика.
В июне этого года ростовский суд признал эмодзи с поднятым вверх пальцем, отправленный в мессенджере, эквивалентом подписи под юридически обязывающим документом. Знаковое событие.
И началось оно ровно 41 год назад, 19 сентября 1982… Или раньше… Или позже… Сегодня мы празднуем день рождения смайлика, отца эмодзи, стикеров и того странного баклажана из телеграмм, однако его история оказалась куда сложнее его незамысловатого внешнего вида.
:) Жёлтый кружок с глазами и улыбкой
Представьте себе одну ужасающую картину: идут масштабные процессы в корпоративной жизни страны, многие люди рискуют в любой момент потерять работу, остаться без средств к существованию, потерять возможность кормить свои семьи и выплачивать долги за дом, машину, медстраховку, а значит рискуют потерять и дом, и машину, и медстраховку. Тревожно. Вот именно так и чувствовали себя тысячи офисных работников по всей Америке в 60-е годы, когда начался процесс слияния крупных страховых компаний.
В декабре 1963 компания «State Mutual Life Assurance Cos. of America» решила подбодрить своих сотрудников. Она дала им денег? Гарантии сохранения рабочих мест? Улучшила условия их труда? Может быть оплачиваемые отпуска для всей семьи? Не, это всё какие-то неважные и вторичные мелочи, берите выше: она заказала у художника Харви Болла символ для значков и наклеек, чтобы вешать их на одежду сотрудников и клеить на всякие рабочие поверхности.
По признанию самого мистера Болла, работа заняла у него не больше 10 минут и он получил за неё аж целых 45 долларов. В те годы 45 долларов были более весомой суммой, чем сейчас, а за десять минут работы так и подавно, так что художник посчитал это весьма выгодной сделкой. Он не стал даже утруждаться с регистрацией рисунка в качестве торговой марки или ещё как-то защищать своё авторское право (делаем тут мысленную пометку, этот момент всплывёт позже). Сам Харви Болл в итоге не заработал больше ни цента на своём творении, о чём, правда, никогда не жалел.
Значки с жёлтой улыбающейся рожицей имели большой успех, и вскоре страховщики заказали партию ещё в 10 000 штук. А в 1970 году добавили к символу слоган «Have a Happy Day» и смайлик получил второй буст популярности, став известным по всему миру. Символ появился на открытках, майках, бейсболках, кружках, номерных знаках – в общем, на всём, чём только можно.
Было лишь вопросом времени, когда он появится в интернет-общении. Времени и авторства.
:) Двоеточие, тире и закрывающая скобка
После того, как простой и привычный смайлик в виде кружочка появился в мире, сама идея перенести его в текстовое общение витала в воздухе. Разные люди в примерно одно и то же время приходили к этой идее, далеко не все эту идею выразили или хоть где-то зафиксировали. Иногда авторство могло быть весьма неожиданным. Так, например, среди одного из «изобретателей» часто называют писателя Владимира Набокова. В 1969 на одном из интервью он сказал буквально следующее:
«Мне часто приходит на ум, что надо придумать какой-нибудь типографический знак, обозначающий улыбку, — какую-нибудь закорючку или упавшую навзничь скобку, которой я бы мог сопроводить ответ на ваш вопрос».
В те же годы электронные смайлики появились на специализированной платформе PLATO. В отличие от привычного нам формата, где улыбающееся лицо как бы лежит на боку, эти смайлики были расположены вертикально и представляли из себя наложение одних символов на другие. На PLATO сочетание клавиш Shift+Spacebar вызывало смещение курсора на одну позицию влево, и вводимый после символ не замещал и не сдвигал последующий, а накладывался поверх первого. Получившиеся рожицы программисты тех лет развлечения ради печатали на перфокартах и перфолентах. Их также использовали при создании простейших компьютерных игр. Однако кто первым додумался до этого фокуса с наложением – неизвестно.
Как выглядели смайлики на PLATO
Ряд исследователей интернет-культуры (да, есть и такая профессия) считают, что смайлик появился задолго до семидесятых годов прошлого века. Как минимум весёлая детская считалочка «точка, точка, запятая – вышла рожица смешная» существовала уже на тот момент очень давно, а самые первое подобие смайлика было обнаружено на образцах древнекитайской письменности 17 века до нашей эры. Честно сказать, увидеть там предумышленный смайлик – это надо ещё постараться, вполне может быть и случайный узор, но так говорят серьёзные люди в серьёзных очках – спорить мы с ними не будем, пусть говорят.
Нет, ну в принципе то похоже (тут автор серьезно поправляет серьезные очки)
Большинство же исследователей и людей простых, считает днём рождения ASCII-смайлика (то есть смайлика, составленного из букв, цифр и знаков препинания, входящих в набор символов ASCII) 19 сентября 1982 года. Именно в этот день профессор Скотт Фалманн предложил своим коллегам таким образом обозначать положительные эмоции, и сразу же после изобрёл и грустный смайлик, для эмоций отрицательных. В те годы группа американских учёных из разных университетов была подключена к экспериментальной сети под названием Arpanet, которую сделали по заказу Минобороны США. Это даже не было интернетом в прямом смысле, но простенький интерфейс позволял создавать некоторое подобие чатов и обмениваться небольшими сообщениями.
Вообще мистер Фалман — учёный-программист, в научном сообществе наиболее известный как автор новаторских работ в сфере развития раннего искусственного интеллекта 80-х. Однако его научные работы в итоге мало кому известны, и прославился он именно этим свои изобретением, которому сам Фалман не придал особого значения и никому не рассказывал об этом годами. Ну придумал и придумал, чё бубнеть то. Когда корпорация Майкрософт раскрыла его авторство, он прокомментировал это так:
«Да, я – изобретатель горизонтального «улыбающегося лица», который обычно используется в электронной почте, чатах и сообщениях форумов. Или, по крайней мере, я – один из изобретателей».
И второй «отец» смайлика также «поработал» не больше 10 минут
Новые университеты из разных стран продолжали подключать к системе Arpanet, и всех новых участников электронных переписок приветствовали теми самыми смайлами Фалмана. Стали появляться и новые варианты, а после открытия всемирной паутины в 1991 году, смайлы мигом перешли туда вслед за пользователями и стали массовым явлением.
:) Галочка, нижнее подчёркивание, галочка
Выделяют как минимум несколько систем выражения эмоций символами: западную, японскую, корейскую и китайскую. Все они принципиально отличаются: если западная базируется на вертикальном сочетании знаков препинания «:)», то японская «*_*» и корейская «ㅜ.ㅜ» – на горизонтальном сочетании знаков препинания и слоговых азбук, а китайская «囧» – на визуальной схожести иероглифов с выражениями лиц. И если в западных смайлах больше внимания уделяется форме и положению рта, то на востоке в центре внимание глаза.
Японские смайлики, которые базируются на демонстрации эмоций персонажей в манге, крайне разнообразны. В Интернете можно встретить цифру 10000, но ряд исследователей (ох уж эти исследователи), полагает, что их даже больше. Такое многообразие объясняется как минимум двумя факторами:
в отличие от кириллицы и латиницы, которые чаще всего записываются в однобайтовых кодировках, японскому письму необходимы как минимум двухбайтовые кодировки, имеющие более широкий охват символов;
каомодзи могут обозначать не только отдельные эмоции, но и сложные действия, а их комбинации – даже целые истории.
Неполный (!) список каомодзи для обозначения всего одной эмоции – радости
Понять, кто изобрёл эти региональные версии смайлов также нет никакой возможности: никто так и не признался.
Однако мы знаем, кто создал первый полноценный набор эмодзи: японец – Курита Сигэтака, сотрудник оператора сотовой связи NTT DoCoMo. Он вместе с командой работал для мобильного портала i-mode и, будучи дизайнером, захотел как-нибудь обновить интерфейс. Кроме того, передача информации таким образом способствовала экономии трафика и быстрой загрузке страницы – важное преимущество в те годы. Курита, который рисовал каждый эмодзи собственноручно, столкнулся с таким ограничением, как разрешение в 144 пикселя, и именно поэтому его эмодзи выглядят иначе, чем современные.
Самый первый набор эмодзи
Забавный факт: в России тоже есть своя региональная особенность. Если прочие представители западной интернет-культуры сократили символ смайлика до двоеточия и скобки :), то мы пошли ещё дальше, и оставили одну только скобку). Такие вот мы занятые люди))). Ну и соответственно, чем больше скобок, тем больше смеха и радости))))))). Однако у людей за пределами нашей великой Родины подобное вызывает недоумение.
Так что если вы планируете карьеру шпиона и рассчитываете успешно внедриться в стан противника – не забудьте об этом маленьком нюансе, товарищи))).
:) Права собственности и деньги
Внимательный читатель уже мог заметить одну интересную особенность смайлов – из всех людей, кому приходила в голову делать знаки в виде улыбающегося лица, мало кому приходила в голову идея зарегистрировать авторское право и хоть как-то на этом заработать. Возвращаясь на минуту к корпоративному художнику Харви Боллу – он был даже не первый, кто нарисовал улыбающееся лицо таким образом. «Счастливое лицо» использовалось в рекламных кампаниях фильмов «Лили» в 1953 году и «Жижи» в 1958 году, более чем за 10 лет до его работы.
Зарегистрировал ли автор плаката свою работу? Думаю, вы уже знаете ответ.
Как следствие, изображение смайлика во все годы использовали все, кому не лень. В 1967 году дизайн Болла использовался в рекламной кампании Университета федеральных сбережений и займа в Сиэтле. Даже государственная контора, почтовая служба США, выпустила марку со смайлом Болла, и никого и нигде это не смущало. Сложно, конечно, представить такое в наше время, когда товарный знак и право собственности пытаются оформить даже на слова «glass» или «king», или же на ведро определённого объёма.
В 1971 году французский предприниматель по имени Франклин Лоуфрани (Franklin Loufrani) зарегистрировал улыбающееся лицо как торговую марку в более чем 100 странах, основал корпорацию Smiley Licensing, и весьма неплохо заработал на этом деле. В США он и его компания при этом старались не светиться.
Лоуфрани утверждал, что это он изобрёл символ в 1968 году в Париже в 1997 году Франклин Лауфрани таки преисполнился уверенности в себе и попытался приобрести права на товарный знак смайлика, и даже на само это слово в США. Забавно, что Харви Болл не стал подавать на него в суд, но это, внезапно, сделала компания Wal-Mart, которая годом раньше начала использовать заметно отличающееся счастливое лицо в своей рекламной кампании.
Wal-Mart отреагировала первой, пытаясь блокировать предложение Лауфрани, а позже пытаясь самим зарегистрировать смайлик. Лауфрани в свою очередь подал иск в суд, чтобы остановить применение смайлика в Wal-Mart. В 2002 году дело дошло до рассмотрения, но так вопрос оказался сложным и запутанным (вот уж неожиданность), решение можно было ожидать в течение семи лет.
И хотя Wal-Mart с 2006 начал постепенный отказ от смайлика на жилетахи на своём веб-сайте, компания параллельно подала в суд на онлайн-пародиста по обвинению в «нарушении использования торговой марки» после того, как он использовал этот символ. Оцените просто масштаб наглости.
Они проиграли в марте 2008 года. Судья принял решение, что смайлик не является «отличительным» знаком, и поэтому не может быть ничьим товарным знаком, а значит Wal-Mart не может иметь на него никаких претензий.
Дело Лауфрани против Wal-Mart протянулось таки семь лет и было окончательно закрыто в марте 2009 года. Судья отклонил все претензии Лауфрани на какие-либо права на какой бы то ни было символ улыбающегося лица и слово «смайлик», отметив, что оба они стали «повсеместными» в американской культуре задолго до первой заявки на товарный знак Лауфрани.
Эти два судебных решения фактически узаконили смайлик в качестве общественного достояния, по крайней мере в пределах юрисдикции США. Судебные решения США не распространяются на другие страны, поэтому компания Лауфрани SmileyWorld продолжает утверждать (и применять) свои права на товарный знак в большей части остального мира. Учитывая размах дерзости товарища, он вполне может однажды подать в суд и на тебя, читатель: улыбаясь, ты незаконно используешь его товарный знак.
Нашлись, однако, и другие изобретатели «смайлика», и в конце концов Харви Болл с запозданием (аж в 1999 году) зарегистрировал свою версию улыбки, в которую включил свои инициалы.
Основанную Харви Боллом «Корпорацию мировой улыбки» (World Smile Corporation) возглавляет его сын Чарльз, который внимательнейшим образом следит за тем, кем и как используется марка. Вся прибыль, произведённая World Smile Corporation после уплаты налогов, идёт на благотворительную деятельность.
:) Каждый шестой сайт
По приблизительным оценкам, смайлы используются на каждом шестом сайте по всей мировой сети, и это учитываются только классические улыбающиеся лица. Чего уж там, пока я готовил материал для этой статьи, то случайно заметил смайлик даже в начальной странице моего браузера – Opera.
При этом эволюция смайлов не стоит на месте, их становится все больше с каждым годом, а диапазон выражаемых эмоций – шире. При определённой сноровке можно в общении буквы не использовать вовсе, и при этом тебя поймут и ответят, возможно тоже с помощью одних лишь эмотиконов.
На частоту использования смайлов и эмодзи вообще очень сильное влияние оказывают культурные и языковые особенности. Так в той же Японии, относящейся к ряду высококонтекстуальных культур, в разговоре используется больше невербальных элементов, и потому на письме без графических знаков в переписке обойтись достаточно затруднительно. В низкоконтекстуальных культурах, где люди выражают мысли и свою позицию напрямую (Германия, США, Скандинавия), смайлы и эмодзи популярны в ощутимо меньшей степени. Это не значит, что их там не используют, просто опять же, вы видели сколько у японцев смайлов для обозначения радости?
Часть смайлов, кстати, вышла из массового употребления. Так, например, популярный в ICQ смайл, бьющийся головой об стену, в новые мессенджеры и соцсети почему-то не перекочевал. Хотя как же иногда его не хватает.
Но за исключением небольших шажков назад, эмодзи постепенно занимают все больше места в нашем мире, и уже одной ногой зашли даже в сферу деловой переписки. На профильных SMM курсах посвящают целую главу изучению грамотного и уместного использования «улыбочек» и других смайлов, как в постах, так и при оформлении сайтов. Как я уже говорил вам в начале статьи, суд нашей страны недавно уже признал эмодзи с поднятым вверх пальцем эквивалентом подписи под юридически обязывающим документом.
«Данный знак в обычно принятом и распространенном понимании при общении посредством электронной переписки означает «хорошо»,— говорится в постановлении суда.
В мире искусственного интеллекта произошло настоящее открытие - появилась нейросеть, способная определить ложь, анализируя видеоматериалы. Этот прорыв открывает новые горизонты в области безопасности, юриспруденции и многих других сферах. Система работает на основе анализа мимики, пульса и движений человека. Процесс прост: пользователь скачивает приложение, загружает видео или запускает видеозвонок, а затем открывает LiarLiar. После этого выбирается область для анализа - все это происходит в режиме реального времени. Анализ проводится практически мгновенно.
Когда дело доходит до автоматического создания изображений на основе собственных идей, на помощь приходят две самых популярных среди пользователей нейросети — DALL-E 2 и Midjourney. Обе являются инструментами, способными создавать реалистичные изображения с хорошим качеством. Эти ИИ обычно понимают, чего вы хотите, и пытаются генерировать новые изображения, в том числе что-то похожее на конкретный пример, но часто можно увидеть, что результат совершенно не соответствует запросам. Что ж, это изменится с новой моделью от NVIDIA — Perfusion, нейросетью, которая позволяет создавать изображения из описаний на естественном языке.
В отличие от своих тяжеловесных конкурентов, Perfusion выделяется компактным размером моделей всего в 100 КБ и 4-минутным временем обучения. Perfusion предлагает пользователям возможность комбинировать различные настраиваемые элементы с набором изображений, которые функционируют как «концепции». Модель способна изучить «концепцию» объекта (например, вещи, животного или человека), а затем генерировать эти концепции в новых сценариях.
❯ Всё дело в концепции
Модель преобразования текста в изображение (T2I) — это алгоритм машинного обучения, который позволяет пользователям писать подсказки на естественном языке для создания изображения, сгенерированного ИИ. Модели T2I предлагают новый уровень гибкости, позволяя пользователям управлять творческим процессом. Однако персонализация этих моделей в соответствии с визуальными концепциями, предоставленными пользователями, остаётся сложной проблемой. Задача персонализации T2I ставит перед собой множество сложных задач, таких как поддержание высокой визуальной точности, объединение нескольких персонализированных концепций в одном изображении и сохранение небольшого размера модели. Perfusion может решить эти задачи.
Основная фишка Perfusion заключается в его новой технике Key-Locking («блокировка ключей»). Связывая определённые концепции с другими концепциями во время создания изображений, Perfusion может создавать больше версий начальной концепции, сохраняя при этом её суть. Это позволяет пользователям персонализировать изображения с помощью определённых объектов, например, таким как «кот», сохраняя при этом уникальные характеристики, которые определяют конкретного «кота».
Блокировка ключей смягчает проблему переобучения, из-за чего модели сложно создавать новые версии идеи, потому что она тесно связана с изображениями, на которых она изначально обучалась. Perfusion корректирует математические преобразования, превращающие слова в картинки. Key-Locking позволяет модели связывать конкретные запросы пользователей с более широкой категорией или «надкатегорией». Например, запрос на создание кота побудил бы модель сопоставить термин «кот» с более широкой категорией «кошачий». После этого выравнивания модель обрабатывает дополнительные сведения, предоставленные в текстовом запросе пользователя.
Привязав нового кота к общему понятию «кот», модель может изобразить кота во многих различных позах, внешности и окружении. Но кот по-прежнему будет сохранять свою «кошачесть», которая делает его похожим на определённого кота, а не просто на случайного Барсика. Например, можно добавить концепцию «шляпа» к концепции «кот» и «блокировать ключ» общей концепции «кот в шляпе». Любое переобучение происходит на основе введённых новых концепций, а не всей модели, что означает меньшую потребность в дорогостоящих вычислительных мощностях и хранилищах.
Проще говоря, Key-Locking позволяет ИИ гибко отображать персонализированные концепции, сохраняя при этом их основную идентичность. Это всё равно, что давать художнику следующие указания: «Нарисуй моего кота Тома, когда он спит, играет с мячиком и нюхает цветы».
Еще одно преимущество модели Perfusion заключается в её адаптивности. В зависимости от требований пользователя модель можно настроить так, чтобы она строго соответствовала текстовой подсказке, или предоставить определённую степень творческой свободы в своих выходных данных. Эта универсальность гарантирует, что модель может быть точно настроена для получения результатов, варьирующихся от точных до более общих, в зависимости от конкретных потребностей пользователя.
Фронт Парето
Это позволяет пользователям легко исследовать фронт Парето (сходство текста и сходство изображений) и выбирать оптимальный компромисс. Важно отметить, что обучение модели требует некоторой ловкости. Слишком сильное сосредоточение на воспроизведении модели приводит к тому, что модель снова и снова выдает один и тот же результат, а слишком точное следование текстовому запросу без какой-либо свободы обычно приводит к плохому результату. Гибкость настройки того, насколько близко генератор следует запросу, является важной частью настройки.
Текстовый запрос преобразуется в серию кодировок. Каждое кодирование подаётся в модули перекрёстного внимания диффузионного шумоподавителя U-Net (фиолетовые блоки). U-Net демонстрирует, как кодирование текста влияет на пути ключа и значения
❯ Меньше значит лучше
Perfusion основывается на Stable Diffusion с дополнительными механизмами для захвата и одновременного создания нескольких «концепций». В отличие от существующих генераторов изображений, которые изучают концепции изолированно, Perfusion позволяет нескольким персонализированным концепциям сосуществовать в одном изображении с естественным взаимодействием. Эта открывает перед художниками новые возможности для экспериментов и создания уникального визуального контента.
Perfusion может обеспечить более анимационные результаты с лучшим сопоставлением подсказок и меньшей восприимчивостью к фоновым чертам исходного изображения. Для сравнения для каждой концепции прилагаются образцы из обучающего набора, а также сгенерированные изображения, их кондиционирующие тексты с текущих методов Custom-Diffusion, Dreambooth и Textual-Inversion.
Сравнение результата Perfusion с другими методами
Другие генераторы AI изображений тоже могут предлагать варианты тонкой настройки, но их громоздкий размер может быть недостатком. Самые популярные модели T2I, в том числе Stable Diffusion и Dall-E, имеют миллиарды параметров, что означает, что они занимают несколько гигабайт в автономном режиме. Для Perfusion требуется всего 100 КБ пространства, что является впечатляющим достижением по сравнению с Midjourney, для которого требуется более 2 гигабайт хранилища. Сверхэффективный размер позволяет просто обновлять те части, которые нужны, по сравнению с методами, которые обновляют всю модель.
Для справки: LoRA — это популярный метод точной настройки, используемый в Stable Diffusion. Он может добавить к приложению от десятков мегабайт до более одного гигабайта. Другой метод, Textual-Inversion, легче, но менее точен. Модель, обученная с помощью Dreambooth, самого точного метода на данный момент, весит более 2 ГБ.
Эффективно блокировать концепции и уменьшать размер модели удаётся с помощью метода, называемого редактированием модели ранга-1. В современных моделях преобразования текста в изображение, основанных на Custom-Diffusion всегда есть текстовая подсказка, которая закодирована для извлечения соответствующей информации. Эта информация так или иначе добавляется, обычно через механизм перекрестного внимания к процессу генерации изображений, который является итеративным процессом. Редактирование ранга-1 контролирует то, что появляется в конечном изображении.
Качество изображения, создаваемое моделью Perfusion, примерно такое же, как у Stable Diffusion v1.5. С точки зрения эффективности, благодаря лёгкому объёму, эффективность модели Perfusion находится в «первом эшелоне» в отрасли.
Это всё ещё не идеально, но это большой шаг вперёд для моделей преобразования текста в изображение с полным контролем над генерацией. Здесь модель ещё борется с сохранением идентичности объекта, который ему отправляется. Объекта, который является «суперкатегорией», что иногда приводит к чрезмерному обобщению, поскольку некоторые суперкатегории слишком широки и включают много разных объектов или специфических стилей, которые не обязательно нужны. Объединение концепций пока ещё требует большого количества оперативной инженерной работы, что является ещё одной причиной научиться делать текстовые запросы лучше.
❯ Новый игрок
Инновации в Perfusion пользователям делиться своими персонализированными концепциями в виде небольших дополнительных файлов, избегая необходимости делиться громоздкими контрольными точками модели. Это также делает персонализацию моделей менее затратной, открывая больше возможностей для большего количества людей.
С точки зрения распространения, модели, адаптированные для конкретных организаций, легче распространять или развёртывать на периферии. По мере того, как практика преобразования текста в изображение становится всё более популярной, возможность добиться такого значительного уменьшения размера без ущерба для функциональности будет иметь первостепенное значение.
Однако важно отметить, что Perfusion в первую очередь обеспечивает персонализацию модели, а не саму полную генеративную способность. Несмотря на то, что этот метод многообещающий, он имеет некоторые ограничения. Авторы отмечают, что критический выбор во время обучения может иногда чрезмерно обобщать концепцию. По-прежнему необходимы дополнительные исследования, чтобы легко объединить несколько персонализированных идей в одном изображении.
Nvidia сообщила о планах выпустить код в будущем, что позволит более широко изучить и понять потенциал этой компактной нейронной сети. Хотя код Perfusion пока недоступен, заявленный авторами план подразумевает, что эта эффективная персонализированная система искусственного интеллекта может со временем попасть в руки разработчиков, отраслей и создателей.
Это исследование согласуется с растущим вниманием Nvidia к ИИ. По мере роста спроса на технологии искусственного интеллекта Nvidia стратегически позиционирует себя как доминирующего игрока в этой области. Акции компании выросли более чем на 230% в 2023-м году, поскольку её графические процессоры продолжают доминировать в моделях обучения ИИ. Учитывая, что такие компании как Google, Microsoft и Baidu, вкладывают миллиарды в генеративный ИИ, инновационная модель Perfusion от Nvidia может дать ей преимущество.
Помимо Perfusion, Nvidia также разработалаOmniverse Audio2Face, инструмент, который позволяет создавать 3D-анимации из аудио. Кроме того, с начала года стало известно, что компания разрабатывает драйверы на основе ИИ для оптимизации производительности своих видеокарт.
Более подробная информация о Perfusion представлена на выставке SIGGRAPH 2023.
Больше интересных статей в нашем блоге на Хабре. Недорогие сервера для ваших проектов — здесь.