Информатика и Программирование: истории из жизни, советы, новости и юмор — Все посты

Каков метод работы? Все файлы это бинарный код, он несжимаемый бинарный код создаёт значения на сжимаемые те замена. по словарю.
по типу 1010101001001010010100101001 на 1111111111000000000000000
через общую постоянную базу данных.

Исходный код на Питоне:
https://drive.google.com/file/d/1WY0l79vVagq9pjx-F85zCNYYNXR...
Исходник + Описание на Гитхабе:

https://github.com/immortalmathematicquantum/3-byte-infinity...

( можете редактирвать ,копировать, присваивать, распространять, и строить свои методы )
( прошу показать и разослать код математикам, учёным и программистам )

Теперь 4 мб видео это 400 кб ссылок. ( упрощённого кода ) сжатие и расжатие без потерь.

Что говорит ИИ на счёт этого алгоритма по словарю? -

В этом алгоритме словари (и coder, и decoder) заполняются уникальными значениями, полученными из 3-байтовых блоков. Так как 3 байта могут принимать 2563=16 777 216256^3 = 16\,777\,2162563=16777216 возможных комбинаций, максимальное число уникальных значений, которое можно встретить, составляет 16 777 216 (при этом значение 0 обрабатывается отдельно, и для него не создаётся новая запись).

Если представить, что все возможные 3-байтовые комбинации встречаются, то:

В словаре coder окажется до 16 777 215 записей.
Аналогично, decoder будет содержать такое же число записей.

Фактический размер в памяти зависит от накладных расходов Python для хранения каждого элемента словаря. Для 64-битного Python можно ориентировочно принять, что один элемент (ключ+значение и внутренняя структура словаря) может занимать порядка 100 байт (это упрощённая оценка). Тогда один словарь с 16 777 21616\,777\,21616777216 элементами займёт примерно:

16 777 216×100 байт≈1.6 ГБ16\,777\,216 \times 100\,\text{байт} \approx 1.6\,\text{ГБ}16777216×100байт≈1.6ГБ

Поскольку используется два таких словаря (coder и decoder), суммарное потребление памяти может достигать порядка 3.2 ГБ в худшем случае.

Показать полностью 1

Программирование Компьютер Информатика

188

tablepedia

21 день назад

Ответ на пост «Лучшая нейросеть для школьников»⁠⁠1

Какие нейросети вы считаете хорошими для изучения школьных предметов?

[моё] Вопрос Спроси Пикабу Искусственный интеллект Нейронные сети Учеба Алгебра Геометрия Математика Уравнение Химия Физика Дифференциальные уравнения Обучение Универ Русский язык Литература Английский язык Изучаем английский Информатика Программирование Короткопост Ответ на пост Текст

6

55

Sizor

1 месяц назад

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

Тут уже выкладывали ответ от DeepSeek'а, но я тоже выложу. Для начала я выложил код, чтобы ИИ оценил его. Оценка была сдержанной. Но когда я предоставил ему текст поста автора, ИИ был крайне возмущён:

Давайте разберемся с заявлениями автора и их обоснованностью.

1. Противоречие с теоремой Шеннона

Автор утверждает, что его метод «обходит» предел Шеннона за счет многоуровневого словаря. Однако это невозможно. Теорема Шеннона гласит:

Любой алгоритм сжатия без потерь не может сжать данные до размера меньше их энтропии.

Многоуровневый словарь не уменьшает энтропию данных — он лишь перераспределяет информацию. Даже если использовать 900 ГБ для хранения паттернов, это не влияет на энтропию исходных данных.

Пример:

Допустим, файл содержит случайные биты (энтропия = 1 бит/бит).

Словарь будет бесполезен, так как паттерны не повторяются.

Сжатый файл не станет меньше, а накладные расходы (хеши, метаданные) увеличат его размер.

2. Миф о «рекурсивном сжатии»

Автор предлагает сжимать данные многократно:

«Добавить рекурсию после сжатия для нового сжатия».

Это бессмысленно для алгоритмов общего назначения. Повторное применение сжатия к уже сжатым данным:

Не уменьшает размер (данные приближаются к энтропийному пределу после первого сжатия).

Может увеличить размер из-за накладных расходов (например, заголовков RAR/ZIP).

Почему видео «сжимается»?

Видеокодек (например, H.264) уже удаляет избыточность.

Если автор сжимает выход видеокодека, его алгоритм может случайно преобразовать биты в более «упаковываемую» форму для RAR. Это частный случай, а не универсальное решение.

3. Ошибки в расчетах автора

Автор пишет:

«Уровень 3: 4 294 967 296 пар × 8 байт/пара = ~900 ГБ».

Проверим:

4.3 млрд пар × 8 байт = 34.4 ГБ, а не 900 ГБ.

Чтобы получить 900 ГБ, нужно 112.5 млрд пар (ошибка в 26 раз!).

Откуда взялась цифра 900 ГБ? Вероятно, автор не понимает, как работает его же алгоритм.

4. Подмена понятий: словарь vs. данные

Автор утверждает:

«Сжатый файл — это ссылки на словарь. Если поместить его в RAR, размер уменьшится в 10-20 раз».

Это не сжатие, а перенос информации в словарь. Размер данных не исчезает — он перераспределяется:

Сжатый файл: 30 КБ (ссылки на словарь).

Словарь: 900 ГБ (реальные данные).

Итоговый объем информации: 30 КБ + 900 ГБ = 900.00003 ГБ — что больше исходных 4 МБ. Это не сжатие, а обман.

5. Практическая проверка

Чтобы убедиться в работоспособности метода, проведите тесты:

a) Сжатие случайных данных:

bash

Copy

# Создать файл со случайными данными

dd if=/dev/urandom of=random.bin bs=1M count=100

# Попытка сжатия через программу автора

python compressor.py random.bin compressed.ctxt

# Проверить размер

ls -lh compressed.ctxt

Ожидаемый результат: Размер compressed.ctxt будет близок к исходному или больше.

b) Проверка энтропии:

bash

Copy

# Установить утилиту ent

sudo apt install ent

# Измерить энтропию исходного файла

ent random.bin

# Измерить энтропию сжатого файла

ent compressed.ctxt

Если энтропия не снизилась, «сжатие» фиктивно.

6. Почему код «ломается» при попытках улучшения?

Автор пишет:

«Любая попытка ИИ улучшить код ломает его».

Скорее всего, алгоритм содержит скрытые зависимости или хрупкие эвристики, не описанные в документации. Например:

Жесткая привязка к порядку обработки битов.

Неучтенные коллизии хешей.

Ошибки в работе с выравниванием данных (padding).

7. Реальные пути улучшения

Если цель — создать эффективный компрессор:

Использовать LZ77 + Huffman (как в DEFLATE/ZIP).

Добавить предсказание контекста (PAQ, ZPAQ).

Применить векторные инструкции (AVX) для ускорения.

Пример кода на C++ для сжатия LZ77:

cpp

Copy

#include <iostream>

#include <vector>

#include <unordered_map>

void lz77_compress(const std::vector<uint8_t>& input, std::vector<uint8_t>& output) {

size_t pos = 0;

while (pos < input.size()) {

// Поиск совпадений в скользящем окне

size_t best_match = 0;

size_t best_len = 0;

// ... (реализация поиска)

if (best_len > 2) {

output.push_back(0xFF); // Маркер совпадения

output.push_back(best_match >> 8);

output.push_back(best_match & 0xFF);

output.push_back(best_len);

pos += best_len;

} else {

output.push_back(input[pos++]);

}

Итог

Авторский метод нарушает законы теории информации и не работает для произвольных данных.

Результаты сжатия видео — частный случай, не доказывающий эффективность.

Утверждения о 900 ГБ основаны на ошибочных расчетах.

Рекомендация: Использовать проверенные алгоритмы (Zstandard, Brotli) вместо псевдонаучных методов.

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Волна постов Ответ на пост Текст

14

12

cherryKot

1 месяц назад

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

Идея огонь! Только можно еще доработать. Закидываю идею оптимизации алгоритма (если что, не забудь про авторские отчисления!):

А что если в словарь мы сразу файлы писать будем? Если за базу возьмем машинное слово - то это 8 байт, которые гарантированно будут без проблем и молниеносно распаковываться в нужный файл любого размера!!!

Думаешь, мало 8 байт? Ну, это же 2.147.483.648 * 2.147.483.648 - это 2 миллиарда с копейками В КВАДРАТЕ! Думаю, во всем мире не наберется столько файлов, чтобы это стало проблемой. Как 8 байт не хватит, хрен с ним, увеличим до 16, причем без потери обратной совместимости! Просто архивы с ведущими нулями будут ходить в словарь.v1, а без - в v2. И алгоритм тривиальный! И расширяемость - огого. Буквально можно раз написать, а потом по надобности разрядность увеличивать. Думаю, 64 байт не достигнем в течение продолжительности жизни Вселенной!

Да, размер словаря придется несколько увеличить, зато сколько выгоды! Ну сам подумай:

1. Архив всегда фиксированного размера - 8 байт.

2. Очень простой алгоритм!

3. Очень просто расширяемый алгоритм! Для расширения просто чиселку в одном файле увеличить - и дело в шляпе!

4. Возможность реализации работы поверх сети. http/s3/fuse/whatever практически из коробки с реализацией силами полутора землекопов в течение светового дня!

5. Возможность шаринга файлов простыми урлами вида http://localhost/archiver/659531

Да там пиздец перспективы открываются! Все, пошел патентовать, пока ты не успел!

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Мат Ответ на пост Текст Волна постов

15

Информатика + Программирование

С этим тегом используют

Наука не сможет развиваться дальше без помощи ИИ?⁠⁠

Ответ на пост «V2. Создана программа вечного сжатия и расжатия информации и любых файлов без потерь в 4-6 раз за 1 цикл ( Исходный Код )»⁠⁠3

Ответ на пост «V2. Создана программа вечного сжатия и расжатия информации и любых файлов без потерь в 4-6 раз за 1 цикл ( Исходный Код )»⁠⁠3

Ответ на пост «V2. Создана программа вечного сжатия и расжатия информации и любых файлов без потерь в 4-6 раз за 1 цикл ( Исходный Код )»⁠⁠3

V2. Создана программа вечного сжатия и расжатия информации и любых файлов без потерь в 4-6 раз за 1 цикл ( Исходный Код )⁠⁠3

Ответ на пост «Лучшая нейросеть для школьников»⁠⁠1

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5