Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Бесплатная браузерная игра «Слаймы Атакуют: Головоломка!» в жанре головоломка. Подходит для мальчиков и девочек, доступна без регистрации, на русском языке

Слаймы Атакуют: Головоломка!

Казуальные, Головоломки, Аркады

Играть

Топ прошлой недели

  • Animalrescueed Animalrescueed 43 поста
  • XCVmind XCVmind 7 постов
  • tablepedia tablepedia 43 поста
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
0 просмотренных постов скрыто
AlexKontrol
AlexKontrol

Судьба и четвёртое измерение⁠⁠

11 дней назад

Если существует 4ое измерение (время), то значит в нём можно перемещаться так же, как мы перемещаемся в 3х измерениях.

Логически делаем вывод, что временная шкала 4ого измерения уже существует. А это значит что наш мир и наши жизни уже расписаны по этой шкале.

Значит судьба предначертана?

Физика Вселенная Наука Эволюция Лор вселенной Текст
17
4
user11222293
Лига программистов C/C++

Языковые модели как компиляторы: Возможно ли?⁠⁠

11 дней назад

Автор: Денис Аветисян


Исследование потенциала больших языковых моделей для прямой компиляции кода без традиционных этапов обработки.

Традиционная парадигма компиляции претерпевает сдвиг, уступая место языковым моделям как новым компиляторам, чьи возможности валидируются посредством комплексного набора данных и фреймворка CompilerEval.

Традиционная парадигма компиляции претерпевает сдвиг, уступая место языковым моделям как новым компиляторам, чьи возможности валидируются посредством комплексного набора данных и фреймворка CompilerEval.

В статье рассматривается возможность использования больших языковых моделей для end-to-end компиляции, включая генерацию ассемблерного кода и кросс-платформенную поддержку, с анализом результатов на наборе данных CompilerEval.

Несмотря на значительные успехи в различных областях, возможность использования больших языковых моделей (LLM) в качестве полноценных компиляторов оставалась малоизученной. Данная работа, 'Exploring the Feasibility of End-to-End Large Language Model as a Compiler', посвящена исследованию потенциала LLM для прямой трансляции исходного кода в машинный, с акцентом на разработку датасета CompilerEval и фреймворка LaaC. Эксперименты показали, что LLM демонстрируют базовые способности к компиляции, однако текущий процент успешной компиляции остается низким. Возможно ли, путем оптимизации запросов, масштабирования моделей и внедрения методов рассуждения, создать LLM, способные генерировать высококачественный ассемблерный код и изменить парадигму компиляции?


Эволюция Компиляции: От Надежности к Гибкости

Традиционная компиляция, несмотря на свою надежность, представляет собой сложный и ресурсоемкий процесс. Растущий спрос на кроссплатформенность и поддержку специализированного оборудования требует адаптивных решений. Технологии искусственного интеллекта, в частности, большие языковые модели (LLM), предлагают принципиально новый подход к компиляции, способный упростить и ускорить разработку. Прозрачность алгоритмов – ключ к безопасному и эффективному программному обеспечению.

Исследование демонстрирует влияние методов промпт-инжиниринга, масштаба модели и методов рассуждения на успешность компиляции с использованием больших языковых моделей.

Исследование демонстрирует влияние методов промпт-инжиниринга, масштаба модели и методов рассуждения на успешность компиляции с использованием больших языковых моделей.

Возможность сквозной компиляции с использованием LLM демонстрирует потенциал для упрощения процесса разработки.

LLM как Компилятор: Новый Парадигма

Предлагаемый подход основан на непосредственном преобразовании исходного кода в машинный язык с использованием больших языковых моделей (LLM), минуя традиционные этапы компиляции. Разработанная платформа LaaC (LLM as a Compiler) является развитием данной идеи, ключевым компонентом которой является база знаний, содержащая информацию об исходных языках и наборах инструкций целевых архитектур. Несмотря на перспективность, текущие показатели успешной компиляции остаются относительно невысокими.

Анализ результатов, полученных для основных больших языковых моделей на наборе данных CompilerEval, выявляет общие тенденции и различия в их производительности.

Анализ результатов, полученных для основных больших языковых моделей на наборе данных CompilerEval, выявляет общие тенденции и различия в их производительности.

Успешная реализация требует решения сложной задачи генерации целевого кода, оптимизированного для конкретных архитектур.

CompilerEval: Строгий Анализ Возможностей LLM

Для систематической оценки возможностей больших языковых моделей (LLM) в генерации ассемблерного кода разработана платформа CompilerEval, использующая специализированный набор данных CompilerEval Dataset. В рамках исследования была проведена оценка коэффициента успешной компиляции (Compilation Success Rate) для LLM, включая GPT-4o, Gemini-2.0, Claude-3.5 и Llama-3, на различных аппаратных архитектурах. Результаты демонстрируют зависимость эффективности от архитектуры и используемой модели.

Представленная структура CompilerEval обеспечивает комплексную платформу для оценки и сравнения различных методов компиляции, основанных на больших языковых моделях.

Представленная структура CompilerEval обеспечивает комплексную платформу для оценки и сравнения различных методов компиляции, основанных на больших языковых моделях.

Применение методов оптимизации запросов (Prompt Engineering) позволило улучшить показатели успешной компиляции. Так, для Claude-3.5-Sonnet наблюдалось увеличение на 7,5%, для GPT-4o с применением Chain-of-Thought – на 5%, а масштабирование Llama с Llama-70B до Llama-405B дало прирост в 1,55%.

Кроссплатформенность и Перспективы Будущего

Оценка продемонстрировала потенциал LLM для генерации кода для различных архитектур (x86, ARM, RISC-V), обеспечивая кроссплатформенную совместимость и автоматизацию разработки. Генерируемый код показал более высокие показатели корректности для ARM и RISC-V по сравнению с x86, что может быть связано с более стандартизированной природой этих архитектур.

Оценка производительности Claude-3.5-Sonnet при генерации кросс-платформенного ассемблерного кода демонстрирует его возможности в данной области.

Оценка производительности Claude-3.5-Sonnet при генерации кросс-платформенного ассемблерного кода демонстрирует его возможности в данной области.

Дальнейшие исследования могут быть сосредоточены на оптимизации LLM и масштабировании для обработки сложных кодовых баз. Комбинация AI-управляемой компиляции с традиционными методами обещает будущее оптимизированной разработки. Каждая строка кода, созданная машиной, – это попытка расшифровать правила, лежащие в основе цифрового мира.

Исследование демонстрирует, что большие языковые модели могут выступать в роли компиляторов, генерируя ассемблерный код непосредственно из высокоуровневых инструкций. Однако, успешность компиляции остаётся переменной величиной, требующей дальнейшей оптимизации и проработки. Это напоминает о высказывании Грейс Хоппер: “Лучший способ предсказать будущее — это создать его.”. В контексте LaaC Framework и необходимости повышения точности и эффективности компиляции, данная фраза подчеркивает активную роль исследователей в формировании будущего компиляционных технологий. Вместо пассивного ожидания прогресса, необходимо создавать инструменты и методы, способные преодолеть текущие ограничения и обеспечить надежную кросс-платформенную поддержку.

Что дальше?

Представленная работа демонстрирует, что границы между языковыми моделями и компиляторами становятся всё более размытыми. Однако, воспринимать это как немедленную замену традиционным системам было бы наивно. Достигнутые результаты – скорее, намек на возможность, чем окончательное решение. Ключевым вызовом остаётся не только повышение процента успешной компиляции, но и обеспечение предсказуемости, эффективности генерируемого кода и, что немаловажно, его переносимости между различными платформами. Необходимо признать, что текущие модели, по сути, "угадывают" компиляцию, а не выполняют её на основе строгой логики.

Дальнейшие исследования должны быть направлены на разработку более надёжных методов оценки и верификации сгенерированного кода, а также на создание инструментов для "отладки" логики языковых моделей, используемых в качестве компиляторов. Интересным направлением представляется изучение возможности интеграции существующих компиляционных технологий с LLM, создавая гибридные системы, сочетающие в себе сильные стороны обоих подходов. Ведь хаос — не враг, а зеркало архитектуры, которое отражает скрытые связи.

В конечном счёте, успех этого направления зависит от способности выйти за рамки простого "перевода" кода и создать системы, способные к оптимизации и адаптации к специфическим требованиям целевой платформы. Это потребует не только улучшения алгоритмов обучения языковых моделей, но и глубокого понимания принципов работы компиляторов и архитектуры вычислительных систем.


Оригинал статьи: denisavetisyan.com/yazykovye-modeli-kak-kompilyatory-vozmozhno-li-eto

Связаться с автором: linkedin.com/in/avetisyan

Показать полностью 5
[моё] Статья Исследования Будущее Наука Эволюция Длиннопост
1
11
user11222293
Наука | Научпоп

Квантовый поиск Гровера в 6G-сетях: перспективы обнаружения сигналов⁠⁠

11 дней назад

Автор: Денис Аветисян


Исследование объединяет квантовые алгоритмы и классическую обработку сигналов для повышения эффективности беспроводной связи с использованием реконфигурируемых интеллектуальных поверхностей.

При использовании детекторов MMSE, MLD и Hybrid-GAS с отражающими поверхностями (RIS) и при различных конфигурациях RIS (R∈{2,4,8}), наблюдается улучшение характеристик BER в зависимости от SNR.

При использовании детекторов MMSE, MLD и Hybrid-GAS с отражающими поверхностями (RIS) и при различных конфигурациях RIS (R∈{2,4,8}), наблюдается улучшение характеристик BER в зависимости от SNR.

В статье предлагается гибридный квантово-классический детектор, использующий алгоритм поиска Гровера и QUBO-формулировку для улучшения производительности в системах SC-FDE с поддержкой RIS.

Широкополосные сети связи шестого поколения (6G) требуют высокопроизводительных детекторов, реализация которых сталкивается с экспоненциальной сложностью. В данной работе, посвященной 'Hybrid Quantum-Classical Detection for RIS-Assisted SC-FDE via Grover Adaptive Search', предложен гибридный квантово-классический алгоритм детектирования для систем SC-FDE с использованием реконфигурируемых интеллектуальных поверхностей (RIS). Алгоритм, основанный на адаптивном поиске Гровера и формулировке задачи в виде QUBO, демонстрирует производительность, близкую к оптимальной, и потенциальную устойчивость к шумам. Возможно ли дальнейшее повышение эффективности и масштабируемости квантово-усиленного детектирования для будущих беспроводных сетей?


Пределы Возможностей: Задачи для 6G

Появление новых приложений, таких как хирургия на расстоянии и автономные транспортные средства, предъявляет беспрецедентные требования к беспроводной связи. Современная инфраструктура испытывает трудности в удовлетворении этих потребностей из-за ограниченного спектра и ухудшения сигнала. Беспроводные сети 6G предлагают интеллектуальные и адаптивные системы для преодоления этих препятствий, используя инновационные технологии для обеспечения эффективной и надежной связи в условиях растущей нагрузки.

Смягчение Интерференции: Принцип SC-FDE

Широкополосные частотно-селективные каналы являются источником межсимвольной интерференции, ограничивающей скорости передачи данных. SC-FDE эффективно компенсирует искажения, вызванные частотно-селективным затуханием канала, преобразуя сигнал во частотную область, эквализируя частоты и восстанавливая исходный сигнал с минимальной интерференцией.

В системе SC-FDE восходящей связи SISO с поддержкой RIS, при отсутствии прямой связи между UE и BS, BS осуществляет управление RIS посредством выделенного контроллера.

В системе SC-FDE восходящей связи SISO с поддержкой RIS, при отсутствии прямой связи между UE и BS, BS осуществляет управление RIS посредством выделенного контроллера.

Интеллектуальная Среда: Потенциал RIS

Повторно конфигурируемые интеллектуальные поверхности (RIS) обеспечивают динамический контроль над распространением сигнала, усиливая его и повышая устойчивость канала. В данной работе представлен гибридный квантово-классический детектор для систем SC-FDE с поддержкой RIS, достигающий производительности, сопоставимой с детектированием максимального правдоподобия (MLD), с квадратичным ускорением благодаря поиску Гровера. Система характеризуется быстрой сходимостью, требуя всего 5-18 итераций, что демонстрирует эффективность предложенного подхода. Анализ вычислительной сложности показывает, как количество логических вентилей масштабируется в зависимости от длины блока, длины памяти канала и количества кубитов.

В представленной работе акцент на гибридном квантово-классическом подходе к обнаружению сигналов в системах связи с использованием RIS, вызывает ассоциации с фундаментальными принципами проектирования алгоритмов. Как однажды заметил Винтон Серф: «Интернет — это не только технология, но и способ мышления». Эта фраза отражает суть предложенного решения, ведь оно представляет собой не просто комбинацию классических и квантовых методов, а принципиально новый способ обработки информации. Использование алгоритма Гровера в сочетании с QUBO-формулировкой для повышения производительности детектирования в частотно-селективных каналах демонстрирует стремление к математической чистоте и доказуемости, где каждое решение либо корректно, либо ошибочно. В этом контексте, кажущаяся магией эффективность алгоритма лишь подтверждает, что инвариант, обеспечивающий надежное обнаружение сигнала, был успешно раскрыт.

Что впереди?

Представленная работа, хотя и демонстрирует потенциал гибридных квантово-классических алгоритмов в контексте систем связи с использованием RIS и SC-FDE, лишь открывает путь к более глубокому исследованию. Доказательство корректности предложенного детектора, особенно в условиях реального шума, остается ключевой задачей. Пределы применимости предложенной QUBO-формулировки и ее масштабируемость для систем с большим количеством RIS-элементов требуют тщательного анализа. Нельзя полагаться на эмпирические результаты; требуется строгое математическое обоснование.

Будущие исследования должны быть направлены на преодоление ограничений, связанных с квантово-классическим интерфейсом. Разработка более устойчивых к ошибкам квантовых алгоритмов, а также эффективных методов квантовой коррекции ошибок, представляется необходимой. Альтернативные подходы к квантово-классическому взаимодействию, минимизирующие потери информации, также заслуживают внимания. Утверждения о "почти оптимальной" производительности нуждаются в строгой верификации с использованием независимых, теоретически обоснованных критериев.

В конечном итоге, истинная ценность данной работы заключается не столько в достигнутых результатах, сколько в постановке фундаментальных вопросов о границах применимости квантовых алгоритмов в практических системах связи. Иллюзии о мгновенном достижении квантового превосходства должны быть отброшены. Требуется методичная работа, направленная на создание действительно надежных и доказуемо корректных квантово-классических решений.


Оригинал статьи: https://arxiv.org/pdf/2511.04173.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Показать полностью 2
[моё] Статья Исследования Наука Будущее Эволюция Длиннопост
2
user11222293
Искусственный интеллект

Виртуальная примерка без границ: новый подход к генерации изображений⁠⁠

12 дней назад

Автор: Денис Аветисян


EVTAR – инновационная модель, позволяющая примерить одежду на изображениях с использованием дополнительных визуальных ориентиров.

Модель EVTAR, обученная на данных о людях и одежде из набора VFR, демонстрирует способность реалистично "примерить" одежду на человека, причем использование дополнительных визуальных ориентиров позволяет добиться более убедительного результата, намекая на тонкую грань между имитацией и пониманием формы.

Исследование представляет EVTAR, сквозную модель диффузии для виртуальной примерки, которая достигает передовых результатов за счет использования референсных изображений и отказа от необходимости во внешних моделях или вспомогательных данных.

Существующие подходы к виртуальной примерке одежды часто требуют сложных входных данных и дополнительных моделей, ограничивая их практическое применение. В данной работе представлена модель EVTAR ('EVTAR: End-to-End Try on with Additional Unpaired Visual Reference') – сквозной диффузионный подход к виртуальной примерке, использующий дополнительные визуальные референсы для повышения точности и реалистичности. EVTAR достигает передовых результатов, исключая необходимость в масках, плотных картах соответствия или ключевых точках тела, и опираясь на механизм, имитирующий человеческое восприятие модных образов. Способна ли данная архитектура открыть новые горизонты в персонализированной онлайн-коммерции и интерактивных системах моды?


Иллюзия Реальности: Вызовы Виртуальной Примерки

Традиционные методы виртуальной примерки одежды сталкиваются с трудностями при генерации реалистичных изображений, часто демонстрируя артефакты и неспособность захватить мелкие детали. Это ограничивает возможности убедительной визуализации одежды на моделях. Существующие подходы часто требуют дополнительных входных данных, таких как сегментационные маски, что увеличивает сложность. Растущий спрос на высококачественную виртуальную примерку обусловлен развитием электронной коммерции, что требует более эффективных решений. Данные – это не просто пиксели, а отголоски желаний, которые мы пытаемся уловить в цифровой реальности.

Модель виртуальной примерки одежды обучается с использованием ткани, эталонного изображения и либо агностического изображения, либо эталонного изображения для подгонки ткани к целевому человеку.

Модель виртуальной примерки одежды обучается с использованием ткани, эталонного изображения и либо агностического изображения, либо эталонного изображения для подгонки ткани к целевому человеку.

Диффузия Творчества: Основа Нового Поколения

Диффузионные модели – передовой метод генерации изображений, превосходящий GAN в задачах ViTON благодаря способности улавливать сложные распределения данных и генерировать реалистичные результаты. Проблема перекрытия многообразий решается методом геометрического разделения, позволяющим добиться стабильной генерации. Альтернативой являются Flow-based методы, такие как Flow Matching, предлагающие новые возможности для улучшения качества и эффективности.

Сравнительный анализ на наборе данных VITON показывает, что использование дополнительного эталонного изображения во время вывода или генерация изображения с использованием изображения человека без маски улучшает результаты.

Сравнительный анализ на наборе данных VITON показывает, что использование дополнительного эталонного изображения во время вывода или генерация изображения с использованием изображения человека без маски улучшает результаты.

EVTAR: Магия Без Масок и Ограничений

Представлен EVTAR – сквозной фреймворк для виртуальной примерки, позволяющий отказаться от использования масок. Это упрощает пайплайн ViTON и повышает доступность технологии. В основе EVTAR лежит масштабируемая Transformer-архитектура DiT и метод Low-Rank Adaptation (LoRA). Для управления генерацией используются эталонные изображения целевой одежды. Обучение EVTAR осуществляется в два этапа: генерация изображений людей в случайной одежде и обучение модели виртуальной примерки с использованием синтезированных изображений и эталонных данных.

Двухэтапная стратегия обучения сначала генерирует изображения людей в случайной одежде на основе замаскированных изображений, а затем использует эти синтезированные изображения, целевую одежду и дополнительные эталонные изображения для обучения модели виртуальной примерки одежды.

Валидация Искусства: Оценка и Анализ Результатов

Оценка модели EVTAR проводилась на наборах данных VITON-HD и DressCode. Результаты демонстрируют способность системы генерировать изображения высокого качества, охватывающие широкий спектр типов и стилей одежды. Количественная оценка с использованием метрик SSIM, LPIPS, FID и KID подтверждает, что EVTAR превосходит существующие методы по реалистичности и точности. Качественное сравнение показывает, что EVTAR генерирует более привлекательные и реалистичные результаты, с улучшенной детализацией. Интеграция Qwen2.5-VL расширяет возможности системы, предоставляя описательные сведения об сгенерированных изображениях.

Генерация эталонных изображений включает в себя создание описаний внешности с использованием Qwen2.5-VL, объединение их с действиями и нарядами для создания позитивных и негативных запросов, а затем использование этих запросов и изображений в модели редактирования для генерации фотографий людей в одинаковой одежде.

Взгляд в Будущее: Перспективы и Широкое Применение

Разработанная платформа EVTAR представляет собой новый подход к генерации изображений одежды, отличающийся отсутствием необходимости в использовании масок. Это открывает новые возможности для электронной коммерции и персонализированного шопинга. Эффективность и масштабируемость EVTAR делают её применимой в различных областях, включая создание виртуальных аватаров и разработку модных дизайнов. Дальнейшие исследования могут быть направлены на интеграцию EVTAR с другими технологиями искусственного интеллекта. Данные – это не просто пиксели, а отголоски незримых сил, которые EVTAR пытается приручить.

Сравнительный анализ на наборе данных DressCode демонстрирует, что использование дополнительного эталонного изображения во время вывода или генерация изображения с использованием изображения человека без маски положительно влияет на качество результата.

Сравнительный анализ на наборе данных DressCode демонстрирует, что использование дополнительного эталонного изображения во время вывода или генерация изображения с использованием изображения человека без маски положительно влияет на качество результата.

Исследование, представленное в статье, напоминает о тщетности попыток обуздать хаос данных. EVTAR, эта модель для виртуальной примерки, пытается навести порядок в визуальном шуме, используя референсные изображения как слабые маяки. Но даже самые совершенные диффузионные модели, как и любое заклинание, работают лишь до момента столкновения с реальными данными. Как однажды заметил Ян Лекун: «Машинное обучение — это просто способ заставить компьютер делать то, что мы не можем объяснить». И в этом кроется истина – модель не понимает, что она делает, она лишь повторяет увиденное, переплетая пиксели в узор, который кажется правдоподобным. И чем безупречнее этот узор, тем больше вероятность, что модель просто красиво лжёт.

Что дальше?

Представленная работа, безусловно, приручила ещё одного демона виртуальной примерки. Однако, полагаться на иллюзию завершенности было бы наивно. Модели диффузии, даже обученные на дополнительных визуальных ориентирах, остаются капризными созданиями. Их способность к обобщению – это не доказательство интеллекта, а лишь временное перемирие с хаосом данных. Особенно остро стоит вопрос о неявных смещениях, затаившихся в обучающих наборах. Кажется, что идеальные данные – это миф, придуманный менеджерами, не знакомыми с алхимией GPU.

Следующим шагом, вероятно, станет не столько улучшение архитектуры модели, сколько осознание её пределов. Необходимо разработать метрики, способные улавливать не только визуальное сходство, но и семантическую корректность. Иначе, модель будет безупречно рисовать несуществующую одежду на несуществующем теле. Кроме того, стоит обратить внимание на возможность интеграции с другими модальностями – например, с текстовыми описаниями или даже с нейронными сигналами от пользователя. Ведь магия требует крови – и вычислительных ресурсов.

В конечном итоге, виртуальная примерка – это лишь зеркало, отражающее наши собственные представления о красоте и стиле. И если это зеркало будет слишком идеальным, оно рискует исказить реальность. Пусть же будущие исследования будут направлены не только на улучшение качества изображения, но и на сохранение человеческой аутентичности.


Оригинал статьи: denisavetisyan.com/virtualnaya-primerka-bez-granicz-evtar-uchitsya-u-obrazov

Связаться с автором: linkedin.com/in/avetisyan

Показать полностью 5
[моё] Наука Эволюция Исследования Статья Будущее Длиннопост
1
7
Ktotonetama
Ktotonetama

Эволюция звезд - пример отсутствия Бога⁠⁠

12 дней назад

(короткие мысли дилетанта)

Развитие звезд от рождения и до смерти происходит по своим естественным процессам, без всякого вмешательства сверхъестественных сил.

Эту аналогию и процесс можно продолжить в бесконечность. Новый центр масс будет концентрировать вокруг себя материю вплоть до возможности термоядерной реакции, рождения звезды и новой звездной системы или галактики. Личный ограниченный Бог или некий Космический Разум тут не при чем. Гравитация неразумна и следует лишь своим материальным (энергетическим) свойствам.

Зарождение биологической жизни тоже происходит по своим естественным причинам, при соблюдении определенных условий и стабильности. Но такие условия не стабильны и редки.

Поэтому цените то, что имеете. Развивайтесь и просвещайтесь. Не тормозите эволюцию, этим вы крадете время своих будущих потомков.

Эволюция звезд - пример отсутствия Бога

например тут https://www.techinsider.ru/technologies/444482-poka-ne-bylo-...

или тут Эволюция звезд.

а еще тут Никитин Михаил «Происхождение жизни. От туманности до клетки»

Показать полностью 1
[моё] Философия Вселенная Эволюция Наука Бог Цивилизация Звезды Развитие Космос Лор вселенной Атеизм Материализм Просвещение Образование Астрономия
17
3
user11222293
Лига Новых Технологий

Nemotron Nano V2 VL: Видение и язык в гармонии⁠⁠

12 дней назад

Автор: Денис Аветисян


Новая модель объединяет возможности обработки изображений и текста, открывая новые горизонты в мультимодальном искусственном интеллекте.

Архитектура обработки визуальной информации использует динамическое разделение изображений и равномерную выборку кадров из видео, приводя их к единому разрешению 512x512 для кодирования посредством RADIO и MLP, после чего визуальные и текстовые представления объединяются и передаются языковой модели Nemotron-Nano-12B-V2 для дальнейшей обработки.

Представлен Nemotron Nano V2 VL – 12-параметровая модель, демонстрирующая улучшенное мультимодальное понимание, рассуждения и эффективность за счет обучения с длинным контекстом, квантования и эффективной выборки видео.

Несмотря на значительный прогресс в области мультимодального обучения, эффективная обработка длинных последовательностей и понимание сложных визуально-текстовых взаимосвязей остается сложной задачей. В данной работе представлена модель 'NVIDIA Nemotron Nano V2 VL', разработанная для улучшения понимания документов, анализа видео и задач логического вывода. Модель, насчитывающая 12 миллиардов параметров, демонстрирует существенные улучшения в понимании мультимодальных данных благодаря использованию архитектуры Mamba-Transformer, техникам квантизации и оптимизированной выборке видеоданных. Какие перспективы открывает Nemotron Nano V2 VL для создания интеллектуальных систем, способных эффективно анализировать и интерпретировать информацию из различных источников?


Синтез Зрения и Языка: Новый Рубеж

Несмотря на значительный прогресс в развитии отдельных модальностей искусственного интеллекта, интеграция зрения и языка остается ключевой проблемой. Существующие системы часто демонстрируют впечатляющие результаты в распознавании объектов или генерации простых описаний, однако испытывают трудности при решении задач, требующих комплексного анализа и сопоставления визуальной и текстовой информации. Отсутствие четко сформулированной задачи порождает лишь шум; любое решение, лишенное строгого определения, обречено на неточность.

Архитектура Nemotron Nano V2 VL: Основы Дизайна

Nemotron Nano V2 VL – мультимодальная языковая модель, основанная на архитектуре Nemotron-Nano-12B-V2. Визуальная информация обрабатывается кодировщиком RADIOv2.5 Vision Encoder, обеспечивающим эффективное преобразование изображений в векторные представления, которые затем интегрируются с текстовыми данными. Ключевым компонентом является архитектура мультимодального слияния, обеспечивающая бесшовную интеграцию данных и повышающая точность выполнения задач.

Абляционный анализ EVS, проведенный на RTX 6000 PRO SE с использованием онлайн-бенчмарка vLLM (128 кадров, текстовые параметры ISL=30, OSL=128), демонстрирует, что как результаты в формате BF16, так и FP8, представленные в виде численных таблиц (точность, время TTFT, пропускная способность) и соответствующих визуализаций, позволяют оценить влияние различных конфигураций.

Оптимизация Производительности: Методы для Надежности и Эффективности

Nemotron Nano V2 VL поддерживает два режима функционирования: Reasoning-On и Reasoning-Off, позволяя варьировать баланс между точностью и скоростью вычислений. Для обработки изображений различного разрешения реализована стратегия разбиения на тайлы, вдохновленная архитектурой InternVL. Обучение проводилось с использованием фреймворка Megatron и 8-битной точностью (FP8), с применением методов Context Parallelism и Long Context Extension для увеличения длины контекста с 16K до 128K.

Продемонстрированные Возможности: Бенчмарки и Сравнительный Анализ

Nemotron Nano V2 VL демонстрирует передовую точность на OCRBench v2 и высокую производительность на Video-MME, подтверждая способность к анализу визуальной информации и пониманию видеоконтента. В сравнении с Llama-3.1-Nemotron-Nano-VL-8B, модель демонстрирует превосходство, подтверждая обоснованность принятых решений. Модель обучалась на обширном наборе данных Nemotron VLM Dataset V2 и была доработана с использованием NVPDFTex для обеспечения высококачественной основы для оптического распознавания символов.

Если результат не может быть воспроизведен, то сама ткань понимания начинает распадаться.

Направления Развития: Расширение Горизонтов Мультимодального Интеллекта

Будущие исследования будут сосредоточены на изучении более продвинутых методов мультимодального объединения данных для дальнейшего повышения возможностей логического вывода. Планируется масштабирование модели до еще больших размеров и использование более крупных наборов данных. Изучение применения Nemotron Nano V2 VL к решению реальных задач, таких как понимание документов и автоматическое создание кратких обзоров видеоматериалов, является одним из приоритетных направлений работы, а также разработка эффективных методов квантования, таких как NVFP4 и BF16.

Исследование, представленное в статье о Nemotron Nano V2 VL, подчеркивает значимость математической дисциплины в обработке данных. Модель, демонстрируя улучшенные возможности мультимодального понимания и рассуждения, опирается на точные алгоритмы и эффективные методы квантизации и выборки видео. Как однажды заметил Карл Фридрих Гаусс: «Если бы я должен был выбирать между тем, чтобы быть великим математиком или великим политиком, я бы без колебаний выбрал первое». Эта цитата отражает суть подхода, представленного в статье – стремление к математической чистоте и доказуемости алгоритмов, а не просто к их работоспособности на тестовых данных. В хаосе данных спасает только математическая дисциплина, и Nemotron Nano V2 VL служит ярким подтверждением этого принципа.

Что дальше?

Представленная работа, демонстрируя возможности модели Nemotron Nano V2 VL, лишь подчёркивает фундаментальную нерешенность задачи истинного мультимодального понимания. Улучшение способности к рассуждениям, безусловно, важно, однако, следует помнить: корректная работа на тестовых примерах – не гарантия внутренней логической непротиворечивости. Если решение кажется магией – значит, не раскрыт инвариант. Необходимо углубленное исследование не просто способности модели "видеть" и "говорить", но и способности к построению доказанных, формально верифицируемых выводов.

Особое внимание заслуживает проблема масштабируемости. Уменьшение размера модели до 12 миллиардов параметров – шаг в верном направлении, но истинная элегантность заключается в достижении сопоставимых результатов с использованием принципиально меньшего числа параметров, возможно, через более эффективные алгоритмы обучения и представления знаний. Квантование и эффективная выборка видео – полезные инструменты, однако, они лишь смягчают симптомы, а не устраняют корень проблемы – вычислительную сложность.

В будущем, вероятно, потребуется отход от простого увеличения размера моделей и сосредоточение на разработке архитектур, способных к абстрактному мышлению и построению причинно-следственных связей. Истинное понимание не сводится к статистической корреляции; оно требует построения внутренней модели мира, способной к предсказанию и объяснению наблюдаемых явлений. А пока, каждая новая модель – лишь очередная иллюстрация того, как много ещё предстоит сделать.


Оригинал статьи: denisavetisyan.com

Связаться с автором: linkedin.com/in/avetisyan

Показать полностью 1
[моё] Наука Исследования Эволюция Статья Будущее Длиннопост
0
0
user11211736

Свободная жизнь⁠⁠

13 дней назад

Тяжёлые болезни, бушевавшие в прошлые эпохи, имели разные первопричины. Если появление таких недугов как чума или чахотка напрямую не зависели от человека, то с венерическими заболеваниями дело обстояло совершенно иначе. Картина «Сифилис» написана британским художником Ричардом Теннантом Купером на рубеже XIX-XX столетий.

Ярко накрашенная обнажённая женщина вызывающе откинулась на высокие подушки. Только что её ложе покинул очередной клиент, заплативший за плотские утехи неимоверно дорогую цену. Закрывая лицо руками, он направляется к толпе медленно бредущих мимо людей, чтобы присоединиться к товарищам по несчастью. Ряды измождённых нагих мужчин – аллегорическое изображение размаха «стыдной хвори», терроризирующей мир на протяжении нескольких веков.

Помимо пошатывающегося героя и невозмутимой развратницы в будуаре публичного дома присутствует третий участник действа. На переднем плане у края постели притаилась смерть в рваном сером плаще. Со страшно ощеренной личины соскользнул капюшон. Из рукава дорожной накидки высунулась костистая длань. При внимательном рассмотрении, кроме присевшего на корточки скелета, на акварели можно заметить ещё один маленький «говорящий» атрибут: шнурок с кистью, свисающий из-под бордового полога, декорирован миниатюрным украшением в виде черепа.

Метафорические работы автор посвящал болезням викторианской Англии. Сегодня большинство полотен хранится в коллекции музея Wellcome Collection (Лондон, Великобритания).

https://vk.com/wall-59335300_768774

Показать полностью
Эволюция Наука Отношения Текст ВКонтакте (ссылка)
0
305
Marsfield
Marsfield
Наука | Научпоп

Как мыши чуть не победили предков людей?⁠⁠

13 дней назад

Представьте себе мир десять миллионов лет назад, в эпоху миоцена. Евразия и Африка населены причудливыми и могущественными существами: халикотерии с когтями, как у ленивцев, саблезубые кошки и трехметровые гигантопитеки. Но под сенью этих титанов разворачивалась тихая, почти незаметная война, исход которой определил судьбу нашего собственного рода. Война между предками приматов и, как ни странно, мышами. Вернее, их древними и куда более разнообразными родичами грызунами.

Примерно так выглядел мир поздних динозавров, где повсюду копошились какие-то мелкие теплокровные зверьки. Казалось бы, какое у них будущее?

Примерно так выглядел мир поздних динозавров, где повсюду копошились какие-то мелкие теплокровные зверьки. Казалось бы, какое у них будущее?

После вымирания динозавров около 66 миллионов лет назад мир стал ареной для эксперимента эволюции. Освободившиеся ниши мгновенно заполнили млекопитающие, которые до этого ютились по ночам в укрытиях. И среди них быстро начали доминировать две ветви (грызуны и приматы, т.е. мы). Их судьбы оказались тесно переплетены. Обе группы сделали ставку на мозг, на социальность, на адаптивность, но пошли разными путями. Грызуны выбрали стратегию количества и скорости (R-стратегия), они размножались быстро, умели жить где угодно, питались чем угодно. Приматы выбрали стратегию качества и медленное развитие (K-стратегия), сложные отношения внутри группы, обучение через наблюдение. И долгое время казалось, что мыши выигрывают.

Около 30–25 млн лет назад климат Земли начал меняться. Тёплые и влажные тропические леса Африки постепенно редели, уступая место мозаике лесов и открытых пространств. Именно здесь началась великая драма конкуренции за выживание между древесными приматами и наземными грызунами. Пока предки обезьян цеплялись за последние кроны деревьев, многочисленные колонии мышей, крыс и белок уже осваивали почву. Они бегали по траве, рвали семена, ели насекомых и выкапывали коренья. Их зубы, по мере окаменения, оставили след в осадочных породах, тысячи мелких следов побед в борьбе за доступ к пище. В то время как приматы оставляли кости лишь изредка и слишком редкие, чтобы сразу понять, как тяжело им приходилось.

А это уже мир после динозавров. Млекопитающим помог метеорит, которые вдарил по Земле 65 млн лет назад.

А это уже мир после динозавров. Млекопитающим помог метеорит, которые вдарил по Земле 65 млн лет назад.

И всё же именно в этих трудных условиях родились первые черты будущего человека. Когда леса исчезали, часть приматов решилась на отчаянный шаг - спуститься вниз. На земле было опасно: хищники, змеи, те же грызуны, уже освоившие норы и многочисленные укрытия. Но и преимуществ было достаточно. На земле можно было находить новые источники пищи, использовать камни и палки, ходить на дальние расстояния. Те, кто остался на деревьях, со временем вымерли или превратились в специализированных обитателей джунглей, как современные макаки и капуцины. Те же, кто рискнул, стали началом линии, ведущей к нам.

Интересно, что археологи и палеонтологи, исследуя отложения миоцена и плиоцена, нередко находят вместе окаменелости ранних приматов и грызунов. Например, в Кении, в районе Лотагам, рядом с костями проконсула (древнего примата возрастом около 18 млн лет) обнаружены остатки ранних мышевидных. Слои показывают, что эти два мира сосуществовали буквально бок о бок. Но численное превосходство грызунов было колоссальным: на каждую особь примата приходились сотни мелких млекопитающих. Приматы проигрывали в скорости размножения, но брали другим, т.е. интеллектом и способностью учиться.

Этот парень (Plesiadapis), внешне реконструируемый похожим на кота, является одним из первых приматов. Ключевое его отличие в том, что он всеядный, тогда как его предки предпочитали мясо.

Этот парень (Plesiadapis), внешне реконструируемый похожим на кота, является одним из первых приматов. Ключевое его отличие в том, что он всеядный, тогда как его предки предпочитали мясо.

Ключевым переломом стала эпоха саванн, начавшаяся около 7–5 миллионов лет назад. Африка стала суше, деревья редкими, а пространство открытым. Это не просто изменила среду обитания, но создало совершенно новую экологическую арену, где преимущества грызунов стали менее очевидны. Теперь выигрывал тот, кто мог быстро оценивать обстановку, различать силуэты хищников вдали, запоминать местоположение водоёмов и укрытий. Здесь медлительные, но внимательные приматы получили шанс. Саванна требовала стратегического мышления, а не только инстинктивного бегства.

Появление прямоходящих существ, таких как Sahelanthropus tchadensis и позже Australopithecus afarensis, было не просто анатомической инновацией. Это был ответ на вызов мира, где выживали лишь те, кто мог видеть дальше, думать быстрее и взаимодействовать со своими сородичами. Прямохождение освобождало руки, а руки превращались в инструмент работы, исследования и обороны. Там, где мышь могла только бежать, человекоподобное существо могло взять камень. Этот камень стал продолжением его тела, а чуть позже продолжением его разума.

Примерно так выглядела наша родина несколько миллионов лет назад. Шутки про то, что в Африке с тех пор ничего не поменялось можно шутить.

Примерно так выглядела наша родина несколько миллионов лет назад. Шутки про то, что в Африке с тех пор ничего не поменялось можно шутить.

И всё же грызуны не сдавались. Их адаптивность оставалась непревзойдённой. Они жили в норах, выживали в пустынях, переживали катастрофы. Когда первые люди строили жилища, мыши селились рядом. Когда человек открыл земледелие, они первыми пришли на поля. В каком-то смысле они действительно «почти победили» но не физически, но демографически. По численности и сегодня грызуны оставляют человечество далеко позади. Однако именно их давление на древние экосистемы сыграло свою роль в нашей эволюции. Столкнувшись с конкуренцией, предки людей были вынуждены искать новые ниши, совершенствовать мозг, социальные связи и технологии.

Современные биологи даже отмечают, что именно взаимодействие с мелкими конкурентами (включая грызунов и насекомых) стало одним из двигателей человеческой сообразительности. Ведь каждое поколение наших предков сталкивалось с постоянной необходимостью защищать пищу, ресурсы, жилища. В археологических раскопках на стоянках Homo erectus и более поздних видов регулярно находят следы обгрызенных костей, испорченных запасов, гнёзд грызунов рядом с человеческими очагами. Эта борьба продолжалась миллионы лет тихая, повседневная, но не менее значимая, чем охота на мамонтов.

Можно сказать, что мыши научили нас думать. Они заставили человека стать стратегом, организатором, хранителем. В каком-то смысле именно они закалили наш разум, сделав его способным к долгосрочному планированию. Ведь где мышь просто роет нору, человек строит дом. Где мышь прячет семена, человек выращивает зерно. Где мышь живёт инстинктом, человек живёт памятью и идеей. С этого мгновения человечество вступило в игру, начатую миллионами лет назад крошечными зверьками, которым мы обязаны своими мозгами.

Если статья Вам понравилась - можете поблагодарить меня рублём здесь, или подписаться на телеграм и бусти. Там я выкладываю эксклюзивный контент (в т.ч. о политике), которого нет и не будет больше ни на одной площадке.

Показать полностью 4
[моё] Цивилизация История (наука) Образование Палеонтология Приматы Биология Эволюция Крыса Мышь Обезьяна Наука Исследования Мифы Псевдонаука Антропология Африка Динозавры Ученые Древние артефакты Научпоп Длиннопост
39
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии