Windows и Программирование: истории из жизни, советы, новости, юмор — Горячее, страница 7

Тут уже выкладывали ответ от DeepSeek'а, но я тоже выложу. Для начала я выложил код, чтобы ИИ оценил его. Оценка была сдержанной. Но когда я предоставил ему текст поста автора, ИИ был крайне возмущён:

Давайте разберемся с заявлениями автора и их обоснованностью.

1. Противоречие с теоремой Шеннона

Автор утверждает, что его метод «обходит» предел Шеннона за счет многоуровневого словаря. Однако это невозможно. Теорема Шеннона гласит:

Любой алгоритм сжатия без потерь не может сжать данные до размера меньше их энтропии.

Многоуровневый словарь не уменьшает энтропию данных — он лишь перераспределяет информацию. Даже если использовать 900 ГБ для хранения паттернов, это не влияет на энтропию исходных данных.

Пример:

Допустим, файл содержит случайные биты (энтропия = 1 бит/бит).

Словарь будет бесполезен, так как паттерны не повторяются.

Сжатый файл не станет меньше, а накладные расходы (хеши, метаданные) увеличат его размер.

2. Миф о «рекурсивном сжатии»

Автор предлагает сжимать данные многократно:

«Добавить рекурсию после сжатия для нового сжатия».

Это бессмысленно для алгоритмов общего назначения. Повторное применение сжатия к уже сжатым данным:

Не уменьшает размер (данные приближаются к энтропийному пределу после первого сжатия).

Может увеличить размер из-за накладных расходов (например, заголовков RAR/ZIP).

Почему видео «сжимается»?

Видеокодек (например, H.264) уже удаляет избыточность.

Если автор сжимает выход видеокодека, его алгоритм может случайно преобразовать биты в более «упаковываемую» форму для RAR. Это частный случай, а не универсальное решение.

3. Ошибки в расчетах автора

Автор пишет:

«Уровень 3: 4 294 967 296 пар × 8 байт/пара = ~900 ГБ».

Проверим:

4.3 млрд пар × 8 байт = 34.4 ГБ, а не 900 ГБ.

Чтобы получить 900 ГБ, нужно 112.5 млрд пар (ошибка в 26 раз!).

Откуда взялась цифра 900 ГБ? Вероятно, автор не понимает, как работает его же алгоритм.

4. Подмена понятий: словарь vs. данные

Автор утверждает:

«Сжатый файл — это ссылки на словарь. Если поместить его в RAR, размер уменьшится в 10-20 раз».

Это не сжатие, а перенос информации в словарь. Размер данных не исчезает — он перераспределяется:

Сжатый файл: 30 КБ (ссылки на словарь).

Словарь: 900 ГБ (реальные данные).

Итоговый объем информации: 30 КБ + 900 ГБ = 900.00003 ГБ — что больше исходных 4 МБ. Это не сжатие, а обман.

5. Практическая проверка

Чтобы убедиться в работоспособности метода, проведите тесты:

a) Сжатие случайных данных:

bash

Copy

# Создать файл со случайными данными

dd if=/dev/urandom of=random.bin bs=1M count=100

# Попытка сжатия через программу автора

python compressor.py random.bin compressed.ctxt

# Проверить размер

ls -lh compressed.ctxt

Ожидаемый результат: Размер compressed.ctxt будет близок к исходному или больше.

b) Проверка энтропии:

bash

Copy

# Установить утилиту ent

sudo apt install ent

# Измерить энтропию исходного файла

ent random.bin

# Измерить энтропию сжатого файла

ent compressed.ctxt

Если энтропия не снизилась, «сжатие» фиктивно.

6. Почему код «ломается» при попытках улучшения?

Автор пишет:

«Любая попытка ИИ улучшить код ломает его».

Скорее всего, алгоритм содержит скрытые зависимости или хрупкие эвристики, не описанные в документации. Например:

Жесткая привязка к порядку обработки битов.

Неучтенные коллизии хешей.

Ошибки в работе с выравниванием данных (padding).

7. Реальные пути улучшения

Если цель — создать эффективный компрессор:

Использовать LZ77 + Huffman (как в DEFLATE/ZIP).

Добавить предсказание контекста (PAQ, ZPAQ).

Применить векторные инструкции (AVX) для ускорения.

Пример кода на C++ для сжатия LZ77:

cpp

Copy

#include <iostream>

#include <vector>

#include <unordered_map>

void lz77_compress(const std::vector<uint8_t>& input, std::vector<uint8_t>& output) {

size_t pos = 0;

while (pos < input.size()) {

// Поиск совпадений в скользящем окне

size_t best_match = 0;

size_t best_len = 0;

// ... (реализация поиска)

if (best_len > 2) {

output.push_back(0xFF); // Маркер совпадения

output.push_back(best_match >> 8);

output.push_back(best_match & 0xFF);

output.push_back(best_len);

pos += best_len;

} else {

output.push_back(input[pos++]);

}

Итог

Авторский метод нарушает законы теории информации и не работает для произвольных данных.

Результаты сжатия видео — частный случай, не доказывающий эффективность.

Утверждения о 900 ГБ основаны на ошибочных расчетах.

Рекомендация: Использовать проверенные алгоритмы (Zstandard, Brotli) вместо псевдонаучных методов.

Показать полностью

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Волна постов Ответ на пост Текст

23

13

cherryKot

6 месяцев назад

Ответ на пост «СОЗДАНА ПРОГРАММА ВЕЧНОГО СЖАТИЯ ИНФОРМАЦИИ БЕЗ ПОТЕРЬ.( Исходный код и программа на Python )»⁠⁠5

Идея огонь! Только можно еще доработать. Закидываю идею оптимизации алгоритма (если что, не забудь про авторские отчисления!):

А что если в словарь мы сразу файлы писать будем? Если за базу возьмем машинное слово - то это 8 байт, которые гарантированно будут без проблем и молниеносно распаковываться в нужный файл любого размера!!!

Думаешь, мало 8 байт? Ну, это же 2.147.483.648 * 2.147.483.648 - это 2 миллиарда с копейками В КВАДРАТЕ! Думаю, во всем мире не наберется столько файлов, чтобы это стало проблемой. Как 8 байт не хватит, хрен с ним, увеличим до 16, причем без потери обратной совместимости! Просто архивы с ведущими нулями будут ходить в словарь.v1, а без - в v2. И алгоритм тривиальный! И расширяемость - огого. Буквально можно раз написать, а потом по надобности разрядность увеличивать. Думаю, 64 байт не достигнем в течение продолжительности жизни Вселенной!

Да, размер словаря придется несколько увеличить, зато сколько выгоды! Ну сам подумай:

1. Архив всегда фиксированного размера - 8 байт.

2. Очень простой алгоритм!

3. Очень просто расширяемый алгоритм! Для расширения просто чиселку в одном файле увеличить - и дело в шляпе!

4. Возможность реализации работы поверх сети. http/s3/fuse/whatever практически из коробки с реализацией силами полутора землекопов в течение светового дня!

5. Возможность шаринга файлов простыми урлами вида http://localhost/archiver/659531

Да там пиздец перспективы открываются! Все, пошел патентовать, пока ты не успел!

Информатика Программирование Архивация Компьютер Сингулярность Agi Нейронные сети Windows Linux Длиннопост Мат Ответ на пост Текст Волна постов

15