DeepSeek и Postgresql: истории из жизни, советы, новости, юмор — Горячее, страница 2

0 просмотренных постов скрыто

kznalp

3 месяца назад

Лига Юристов

Серия ITшное

Интересно - а можно подать в суд на нейросеть за клевету и недобросовестную конкуренцию ?⁠⁠

Вопрос YandexGPT

А кто первый придумал использовать корреляционный анализ для оптимизации производительности СУБД PostgreSQL ?

Ответ, как бы покультурнее высказаться - обескуражил :

Интересно - а можно подать в суд на нейросеть за клевету и недобросовестную конкуренцию ? Postgresql, Яндекс, Нейронные сети, Исследования, Публикация, Длиннопост, DeepSeek, Юмор, IT юмор, Искусственный интеллект, Вопрос

Я конечно сильно уважаю и регулярно контактирую со специалистами Postgres Professional, но, это я первый придумал , исследовал, провел эксперименты и опубликовал в интернете . Сначала на Хабре, затем и в настоящее время на Дзене.
Так, что отойдите , вас тут не стояло.

Вывод очень простой - надо в самое ближайшее время заняться официальной публикацией в официальном научном издании.
Рано или поздно , какой нибудь чайник или журналюга так и скажет - "это же Postgres Professional придумал, ты у них взял".

P.S.Ожидаемо DeepSeek не смог ответить на вопрос , китайцы ведь не обучались и не анализируют рунет.

P.P.S. В принципе , если найдется молодой юрист или журналист , желающий прославится на хайпе, наверное такие прецеденты скоро будет.
Звучит громко - "нейросеть проиграла иск о клевете."
Да и разрабы , в конце концов, научат таки сети фильтровать выдачи, чтобы на бабки не попасть.
Поживём увидим.

Показать полностью 5

kznalp

3 месяца назад

Серия ITшное

Каюсь грешен. Но , с другой стороны - может кому и пригодится . Значит - не такой уж и грех⁠⁠

Стало интересно - а как сейчас с материалами по статистическому анализу производительности СУБД ?
Год назад - практически ничего, кроме пары статей 5ти летней давности по мат.статистике на Хабре, не было . По PostgreSQL - вообще ничего не было.

Пусть нейросеть поищет и проанализирует.

И ведь нашла и проанализировала и выдала осмысленный результат:

Как тут не вспомнить классику

Из 4х ключевых источников : 3 ссылки на мои статьи , а одна это вообще основная тема в течении прошедшего года. Скоро будет доклад на конференциях по данной тематике.

Тем, кто будет после меня заниматься темой статистического анализа производительности СУБД PostgreSQL , будет проще - материалы и фундамент для исследований и развития уже есть.
И это хорошо. Надо развивать DBA из ремесла и алхимии в науку и инженерию.

P.S. А вот YandexGPT - не смог помочь.

Показать полностью 4

[моё] Нейронные сети DeepSeek Postgresql Производительность Статистика Длиннопост

kznalp

4 месяца назад

Серия ITшное

Мнение DeepSeek по распределению значений бенчмарка⁠⁠

Продолжение по теме
Распределение значений бенчмарка

Вопрос : При условии постоянной нагрузки и неизменного тестового запроса , какое распределение значений бенчмарка производительности СУБД для СУБД PostgreSQL будет встречаться чаще ?

Ответ DeepSeek:

При постоянной нагрузке и неизменных тестовых запросах распределение значений бенчмарка производительности PostgreSQL чаще всего будет приближаться к **нормальному распределению** (Гауссову распределению). Это объясняется следующими причинами:

1. **Центральная предельная теорема**:
Время выполнения запросов складывается из множества мелких операций (парсинг, планирование, ввод-вывод, сетевые задержки). При большом количестве таких операций их суммарное время стремится к нормальному распределению.

2. **Стабильность системы**:
При отсутствии перегрузок, блокировок или внешних помех отклонения времени выполнения запросов будут случайными и симметричными вокруг среднего значения, что характерно для нормального распределения.

3. **Минимизация выбросов**:
В идеальных условиях (оптимизированные индексы, достаточные ресурсы) редкие аномалии (например, внезапные задержки из-за сборки мусора) подавляются, и распределение становится более «гладким».

Однако в реальных сценариях возможно легкое смещение в сторону **положительной асимметрии** (правостороннее распределение), так как время выполнения не может быть отрицательным, а редкие задержки всё же возникают. Тем не менее, в условиях задачи (постоянная нагрузка, неизменные запросы) нормальное распределение будет доминировать.

Показать полностью

[моё] Математика Статистика DeepSeek Нейронные сети Postgresql Текст Искусственный интеллект

kznalp

4 месяца назад

Искусственный интеллект

Серия ITшное

YandexGPT vs DeepSeek. Китаец в пролёте . В полном⁠⁠

Вопрос :Где можно найти материалы по методу корреляционного анализа ожиданий СУБД PostgreSQL ?

Ответ YandexGPT

**Корреляционный анализ ожиданий** в PostgreSQL - это методика поиска проблемных SQL-запросов при продуктивной нагрузке.

Основные источники информации по данной методике:

* **PG_HAZEL** - инструмент для анализа производительности PostgreSQL, использующий данный метод
* **Документация PostgreSQL** - содержит базовые понятия и термины, связанные с ожиданиями и производительностью
* **Специализированные блоги** и публикации DBA-специалистов, где описываются практические кейсы применения метода

Методика включает следующие этапы:

* **Анализ операционной скорости** на уровне кластера
* **Мониторинг ожиданий** на уровне кластера
* **Корреляционный анализ** на уровне кластера
* **Статистический анализ** выполнений и ожиданий по отдельным SQL-запросам

Ключевые метрики для анализа:

* **QUERYID** - идентификатор SQL-запроса
* **CORRELATION** - коэффициент корреляции между ожиданиями
* **CALLS** - количество выполнений запроса
* **WAITINGS** - количество ожиданий
* **WAITINGS TO CALL** - отношение ожиданий к выполнениям

Особое внимание уделяется **типам ожиданий**:
* DataFilePrefetch
* DataFileRead
* DataFileWrite
* WALSync
* WALWrite

Для глубокого изучения рекомендуется начать с документации PostgreSQL и специализированных материалов по администрированию баз данных, где описываются практические аспекты применения корреляционного анализа.

Ответ DeepSeek

Для изучения метода корреляционного анализа ожиданий (Correlation Analysis of Expectations) в PostgreSQL вы можете обратиться к следующим источникам:

### **1. Официальная документация PostgreSQL**
- **Planner/Optimizer Statistics**: В документации PostgreSQL описано, как оптимизатор использует статистику для построения планов запросов, включая корреляцию между столбцами.
- [PostgreSQL: Statistics Used by the Planner](https://www.postgresql.org/docs/current/planner-stats.html)
- [PostgreSQL: Multivariate Statistics](https://www.postgresql.org/docs/current/multivariate-statist...) (для анализа корреляции между несколькими столбцами)

### **2. Книги и учебные материалы**
- **"PostgreSQL 14 Internals"** (E. Rogov, A. Belyaev) – книга объясняет работу планировщика и статистику, включая корреляцию.
- **"Mastering PostgreSQL"** (Hans-Jürgen Schönig) – содержит разделы по оптимизации запросов и статистике.

### **3. Статьи и блоги**
- **Use of Correlation in PostgreSQL Query Planning**:
- [Understanding PostgreSQL Query Planning](https://www.timescale.com/blog/how-postgresql-query-optimiza...)
- [Correlation and PostgreSQL Indexes](https://www.cybertec-postgresql.com/en/postgresql-index-corr...)
- **Примеры анализа корреляции через `pg_stats`**:
```sql
SELECT attname, correlation
FROM pg_stats
WHERE tablename = 'your_table' AND schemaname = 'public';
```

### **4. Исследовательские работы и презентации**
- **"Advanced Query Planning in PostgreSQL"** (лекции с конференций PGConf, PGDay).
- **"Statistics in PostgreSQL: How the Planner Works"** (доклады разработчиков, например, от Robert Haas).

### **5. Практические примеры**
- **Создание расширенной статистики для корреляции**:
```sql
CREATE STATISTICS corr_stats (dependencies) ON column1, column2 FROM table_name;
ANALYZE table_name;
```
- **Использование `pg_stats` для анализа корреляции**:
```sql
SELECT tablename, attname, correlation
FROM pg_stats
WHERE schemaname = 'public'
ORDER BY abs(correlation) DESC;
```

Если вам нужны конкретные примеры или углублённый разбор, уточните, какой аспект корреляционного анализа вас интересует (планирование запросов, индексы, многомерная статистика и т. д.).

Вывод :
Очередная, иллюстрация - китайская нейросеть вообще ничего не знает о материалах в российском сегменте интернета .

Ну а команде Yandex - очередной заслуженный респект.

P.S. Чтобы еще усугубить и резко обозначить разницу можно задать вопрос " Кто автор методологии корреляционного анализа ожиданий СУБД PostgreSQL ? "
DeepSeek, как обычно несет мусор.
А вот ответ, YandexGPT, вполне по делу:

YandexGPT vs DeepSeek. Китаец в пролёте . В полном Искусственный интеллект, DeepSeek, Яндекс, Нейронные сети, Длиннопост, Postgresql

Дальше - дело техники - простейший поиск по ключевому слову "pg_hazel" и живое общение с автором 😎

Показать полностью 1

[моё] Искусственный интеллект DeepSeek Яндекс Нейронные сети Длиннопост Postgresql

kznalp

4 месяца назад

Искусственный интеллект

Серия ITшное

Нейросети между собой не дружат и не обмениваются информацией⁠⁠

Продолжение игр с нейросетями.

Вопрос: Какие практические рекомендации по ожиданиям PostgreSQL может дать чат-бот ChatPPG ?

Ответ YandexGPT

Практические рекомендации по работе с ожиданиями в PostgreSQL

Основные типы ожиданий

Lock-based ожидания:

LockAcquire - ожидание получения блокировки объекта
BufferLock - ожидание блокировки буфера
TransactionIdLock - ожидание завершения транзакций

Мониторинг ожиданий

Основные инструменты:

pg_stat_activity - просмотр текущих сессий и их состояния
pg_locks - мониторинг блокировок в системе
pg_stat_statements - анализ производительности запросов

Оптимизация производительности

Рекомендации по настройкам:

Настройка max_connections под реальную нагрузку
Оптимизация shared_buffers и effective_cache_size
Корректная настройка wal_segment_size для снижения IO

Работа с блокировками

Практические советы:

Использование SELECT FOR UPDATE только там, где это действительно необходимо
Минимизация времени удержания блокировок
Применение SERIALIZABLE изоляции только при необходимости

Диагностика проблем

Основные шаги:

Анализ pg_stat_statements для выявления медленных запросов
Мониторинг pg_stat_database для оценки нагрузки
Использование EXPLAIN ANALYZE для анализа планов выполнения

Автоматизация мониторинга

Рекомендуемые практики:

Настройка оповещений при превышении пороговых значений ожиданий
Регулярный анализ логов системы
Автоматическое создание дампов состояния при критических ожиданиях

Профилактические меры

Регулярные действия:

Реорганизация таблиц при росте фрагментации
Обновление статистики для корректной работы оптимизатора
Периодическая очистка устаревших данных

Работа с большими нагрузками

Масштабирование:

Разделение нагрузки между узлами (shard-ing)
Использование репликации для чтения
Кэширование часто используемых данных

Дополнительные рекомендации

Безопасность и стабильность:

Регулярное резервное копирование
Настройка параметров WAL для оптимальной производительности
Мониторинг свободного места на дисках

При возникновении специфических проблем рекомендуется обращаться к документации PostgreSQL и профильным сообществам для получения более детальных рекомендаций под конкретную задачу.

Ответ DeepSeek

Чат-бот ChatPPG (предположительно, это вымышленный бот для PostgreSQL) мог бы дать следующие практические рекомендации по настройке ожиданий (expectations) при работе с PostgreSQL:

1. Производительность

Не ожидайте, что PostgreSQL будет так же быстр, как специализированные NoSQL-системы для ключ-значение (например, Redis).
Оптимизируйте запросы: Используйте EXPLAIN ANALYZE для анализа плана выполнения.
Настройте индексы: Добавляйте индексы на часто используемые столбцы в WHERE, JOIN, ORDER BY.

2. Масштабируемость

PostgreSQL хорошо масштабируется вертикально (увеличение CPU/RAM), но горизонтальное масштабирование (шардинг) требует дополнительных инструментов (Citus, PostgreSQL + Foreign Data Wrappers).
Ожидайте, что репликация (streaming replication) будет запаздывать на несколько секунд или минут при высокой нагрузке.
3. Надежность и отказоустойчивость
- WAL (Write-Ahead Log) гарантирует сохранность данных, но требует правильной настройки (fsync, synchronous_commit).
- Регулярно делайте бэкапы (pg_dump, pg_basebackup, Barman).
4. Транзакции и блокировки
- Долгие транзакции блокируют систему – избегайте idle in transaction сессий.
- Deadlocks (взаимоблокировки) возможны – настраивайте deadlock_timeout и логируйте их.
5. Расширяемость
- PostgreSQL поддерживает множество расширений (PostGIS, pg_partman, TimescaleDB).
- Можно писать хранимые процедуры на Python, JavaScript (PL/V8), Rust (pgx) и др.
6. Мониторинг и обслуживание
- Автовакуум (autovacuum) критически важен для производительности – настраивайте autovacuum_vacuum_scale_factor и autovacuum_analyze_threshold.
- Используйте pg_stat_statements для выявления медленных запросов.
7. Совместимость и миграции
PostgreSQL строго следует стандарту SQL, но некоторые функции (например, ON UPDATE) отсутствуют.
Миграции с других СУБД (MySQL, Oracle) возможны, но требуют проверки (используйте pgloader, Ora2Pg).

8. Безопасность

Не используйте trust в pg_hba.conf – применяйте md5/scram-sha-256.
Рекомендуется ограничивать права через ROLE и GRANT.

Вывод

PostgreSQL – мощная, надежная и гибкая СУБД, но требует грамотной настройки и понимания её внутренней работы. Если ChatPPG действительно существовал, он бы советовал читать документацию, тестировать на реалистичных нагрузках и не надеяться на "волшебную" производительность без оптимизаций.

Результат

YandexGPT - садись 2 . На переэкзаменовку. Незнание предметной области, не обладает информацией по вопросу.

DeepSeek - садись 2 . На переэкзаменовку. Незнание предметной области, не обладает информацией по вопросу.

Нейросети между собой не дружат и не обмениваются информацией Яндекс, DeepSeek, Нейронные сети, Чат-бот, Длиннопост, Postgresql

Стыдно, при таких бюджетах не знать простого.

А ведь достаточно всего лишь , воспользоваться шпорой и сделать запрос в поисковик:

Показать полностью 2

[моё] Яндекс DeepSeek Нейронные сети Чат-бот Длиннопост Postgresql

kznalp

4 месяца назад

Серия ITшное

Реактивный или проактивный мониторинг по мнению ИИ . 1:0 в пользу DeepSeek⁠⁠

Итого - счет сравнялся .
Текущий общий счет в серии "Какой ИИ полезнее для PostgreSQL DBA" - ничья 1:1

Реактивный или проактивный мониторинг по мнению YandexGPT

Реактивный или проактивный мониторинг по мнению DeepSeek

YandeхGPT vs. DeepSeek. У DeepSeek - большие проблемы

DeepSeek Яндекс Нейронные сети Субд Postgresql Текст

kznalp

4 месяца назад

Серия ITшное

Реактивный или проактивный мониторинг по мнению DeepSeek⁠⁠

Вопрос: Какой мониторинг выгоднее использовать для оптимизации производительности СУБД PostgreSQL - реактивный или проактивный ?

Ответ DeepSeek

Для оптимизации производительности PostgreSQL **проактивный мониторинг** предпочтительнее, так как он позволяет предотвращать проблемы до их возникновения, минимизируя простои и улучшая стабильность системы. Однако оптимальный результат достигается при **комбинации обоих подходов**.

### Почему проактивный мониторинг выгоднее:
1. **Предупреждение проблем**:
- Отслеживание метрик (CPU, память, I/O, индексы, блокировки) помогает выявить узкие места до их критического влияния.
- Пример: мониторинг роста таблиц или замедления запросов через `pg_stat_statements` позволяет заранее оптимизировать индексы или переписать запросы.

2. **Снижение простоев**:
- Анализ трендов (например, заполнение диска или увеличение времени ответа) позволяет планировать масштабирование и обновления.

3. **Экономия ресурсов**:
- Проактивное устранение проблем дешевле, чем аварийное восстановление после сбоев.

4. **Инструменты**:
- Prometheus + Grafana для сбора метрик.
- Настройка алертов на аномалии (например, через Alertmanager).
- Использование расширений PostgreSQL: `pg_stat_activity`, `pg_stat_bgwriter`, `pg_stat_statements`.

### Когда полезен реактивный мониторинг:
- Для анализа уже возникших инцидентов (например, внезапные блокировки или деградация запросов).
- Использование логов и инструментов вроде `pgBadger` для постфактум-анализа.
- Оптимизация запросов, которые не были выявлены проактивно.

### Итог:
- **Проактивный мониторинг** — основа для долгосрочной стабильности и оптимизации.
- **Реактивный** — дополнение для работы с непредвиденными сценариями.
- Для максимальной эффективности объедините оба подхода, но фокусируйтесь на проактивных методах.

Показать полностью

DeepSeek Субд Мониторинг Нейронные сети Postgresql Текст

kznalp

5 месяцев назад

Искусственный интеллект

Серия ITшное

В копилку игр с ИИ и снова проверка на тест Тьюринга для DeepSeek⁠⁠

Продолжаю играть с DeepSeek.

Как лучше определить инцидент снижения операционной скорости СУБД PostgreSQL - сравнивая угол наклона линии наименьших квадратов по скорости и ожиданиям или по коэффициенту корреляции между скоростью и ожиданиями ?

———————————————

Для определения инцидента снижения операционной скорости PostgreSQL **рекомендуется комбинировать оба метода**, так как они решают разные задачи:

### 1. **Угол наклона линии наименьших квадратов (тренд скорости)**
- **Что показывает**: Направление и скорость изменения производительности СУБД **во времени**. Отрицательный угол указывает на снижение скорости.
- **Когда использовать**:
- Для обнаружения **факта деградации производительности** (например, если скорость запросов падает с течением времени).
- Если нужно оценить **динамику проблемы** (насколько быстро ухудшается ситуация).
- **Преимущества**: Прямо указывает на наличие тренда снижения скорости, даже если причина не связана с ожиданиями.
- **Ограничения**: Не объясняет причину снижения (например, может быть вызвано нехваткой ресурсов, блокировками, плохими индексами и т.д.).

### 2. **Коэффициент корреляции между скоростью и ожиданиями**
- **Что показывает**: Наличие **линейной связи** между снижением скорости и ростом числа ожиданий (например, locks, I/O, latch).
- **Когда использовать**:
- Для проверки гипотезы, что проблема связана **именно с ожиданиями** (например, при подозрении на блокировки или конкуренцию за ресурсы).
- Если нужно понять, **коррелирует ли падение скорости с конкретными метриками** СУБД.
- **Преимущества**: Позволяет выявить зависимость между параметрами.
- **Ограничения**: Корреляция ≠ причинно-следственная связь. Высокая корреляция может быть случайной или опосредованной другими факторами.

---

### **Оптимальный подход**
1. **Сначала анализировать угол наклона**:
- Если тренд скорости отрицательный и статистически значимый — это сигнал о проблеме.
- Пример: Скорость выполнения запросов снижается на 5% в час.

2. **Затем использовать корреляционный анализ**:
- Если коэффициент корреляции между скоростью и ожиданиями значимый (например, отрицательный), это указывает на возможную причину.
- Пример: Рост числа блокировок (locks) коррелирует с падением скорости (r = -0.8).

3. **Дополнить анализ другими метриками**:
- Проверить нагрузку на CPU, память, дисковые операции, параметры конфигурации PostgreSQL.
- Использовать инструменты вроде `pg_stat_activity`, `pg_locks`, `EXPLAIN ANALYZE`.

---

### **Почему важно комбинировать методы?**
- Угол наклона может показать деградацию, даже если она не связана с ожиданиями (например, из-за утечки памяти).
- Корреляция помогает сузить круг причин, но требует контекста. Например, высокая корреляция с ожиданиями I/O может указывать на проблему с диском.

---

### **Пример сценария**
- **Угол наклона**: Скорость запросов упала на 20% за последние 2 часа (p-value < 0.05).
- **Корреляция**: Сильная отрицательная корреляция (r = -0.75) между скоростью и числом блокировок.
- **Вывод**: Инцидент вызван ростом конкуренции за ресурсы (например, из-за транзакционных блокировок).

---

### **Рекомендации**
- Используйте **статистическую значимость** (p-value) для обоих методов, чтобы избежать ложных срабатываний.
- Визуализируйте данные: график тренда скорости + график ожиданий на одной временной шкале.
- Автоматизируйте мониторинг: настройте алерты при выходе угла наклона или корреляции за пороговые значения.

Нуи, что ж , можно опять поздравить разработчиков . Бот в режиме Deep Think (R1) - выдал осмысленный текст , имеющий отношение к реальности. Тема конечно уже проработана и проверена практически:
———————————————————

"Индикатор снижения скорости" как сигнал для начала корреляционного анализа ожиданий СУБД.

Что в общем то подтверждает первоначальные гипотезы и предположения. Значит направление работ - верное . Поскольку основано на глобальных знаниях и общих выводах.

Однако, до прохождения теста Тьюринга еще очень далеко . Любой человек , сначала бы уточнил - о чем вообще вопрос , о какой скорости и ожиданиям идет речь ? Бот, просто выцепил из вопроса ключевые слова и угадал с ответом . Классический анекдот , про студента выучившего к экзамену только про блох :
- Вот рыба, у рыбы чешуя , не было бы чешуи были бы блохи. Блохи относятся к отряду .....

Какая практическая польза?
Когда надо будет подготовить доклад и налить воды в инструкции по использованию инструментария и методики корреляционного анализа - бот мне поможет. Что касается - лить воду и генерить поток более менее осмысленных слов - тут ии вне конкуренции.

Показать полностью

[моё] Postgresql DeepSeek Нейронные сети Искусственный интеллект Текст Длиннопост Яндекс Дзен (ссылка)

Посты не найдены

Вопрос: Какие практические рекомендации по ожиданиям PostgreSQL может дать чат-бот ChatPPG ?

Ответ YandexGPT

Практические рекомендации по работе с ожиданиями в PostgreSQL

Основные типы ожиданий

Мониторинг ожиданий

Оптимизация производительности

Работа с блокировками

Диагностика проблем

Автоматизация мониторинга

Профилактические меры

Работа с большими нагрузками

Дополнительные рекомендации

Ответ DeepSeek

1. Производительность

2. Масштабируемость

4. Транзакции и блокировки

5. Расширяемость

6. Мониторинг и обслуживание

7. Совместимость и миграции

8. Безопасность

Вывод

Результат