Postgresql и Яндекс: истории из жизни, советы, новости, юмор — Горячее

Игры с нейросетями - YandexGPT⁠⁠

6 месяцев назад

Какие события ожидания(wait_event) СУБД PostgreSQL характерны при предельной утилизации CPU ?

Ответ YandexGPT

При высокой утилизации CPU в PostgreSQL наблюдаются следующие характерные события ожидания (wait_event):

ProcArray - ожидание при обращении к общим структурам данных в рамках процесса. Возникает, например, при получении снимка или чтении идентификатора транзакции в сеансе.

LockManager - ожидание при чтении или изменении информации о «тяжёлых» блокировках.

Важно отметить, что при нехватке вычислительных ресурсов CPU наблюдается сильная корреляция между снижением операционной скорости СУБД и ростом ожиданий типа ProcArray. Это является характерным признаком того, что система испытывает дефицит процессорных ресурсов.

Также при высокой утилизации CPU наблюдается сильная корреляция между ожиданиями и ожиданиями типа LWLock, что указывает на то, что большинство возникающих ожиданий связано именно с этим типом блокировок.

Забавное , или интересное в ответе нейросети YandexGPT в том, что , я точно знаю откуда взята данная цитата :
https://dzen.ru/a/Z_decDLxQCTdLsJ2

Тщеславие - мой самый любимый грех ;-)

Показать полностью

kznalp

Лига Юристов

Интересно - а можно подать в суд на нейросеть за клевету и недобросовестную конкуренцию ?⁠⁠

Серия ITшное

7 месяцев назад

Вопрос YandexGPT

А кто первый придумал использовать корреляционный анализ для оптимизации производительности СУБД PostgreSQL ?

Ответ, как бы покультурнее высказаться - обескуражил :

Я конечно сильно уважаю и регулярно контактирую со специалистами Postgres Professional, но, это я первый придумал , исследовал, провел эксперименты и опубликовал в интернете . Сначала на Хабре, затем и в настоящее время на Дзене.
Так, что отойдите , вас тут не стояло.

Вывод очень простой - надо в самое ближайшее время заняться официальной публикацией в официальном научном издании.
Рано или поздно , какой нибудь чайник или журналюга так и скажет - "это же Postgres Professional придумал, ты у них взял".

P.S.Ожидаемо DeepSeek не смог ответить на вопрос , китайцы ведь не обучались и не анализируют рунет.

P.P.S. В принципе , если найдется молодой юрист или журналист , желающий прославится на хайпе, наверное такие прецеденты скоро будет.
Звучит громко - "нейросеть проиграла иск о клевете."
Да и разрабы , в конце концов, научат таки сети фильтровать выдачи, чтобы на бабки не попасть.
Поживём увидим.

Показать полностью 5

[моё] Postgresql Яндекс Нейронные сети Исследования Публикация Длиннопост DeepSeek Юмор IT юмор Искусственный интеллект Вопрос

kznalp

Мнение YandexGPT по распределению значений бенчмарка⁠⁠

Серия ITшное

7 месяцев назад

Продолжение по теме
Распределение значений бенчмарка

Вопрос : При условии постоянной нагрузки и неизменного тестового запроса , какое распределение значений бенчмарка производительности СУБД для СУБД PostgreSQL будет встречаться чаще ?

Ответ YandexGPT:

При постоянной нагрузке и неизменном тестовом запросе для PostgreSQL наиболее вероятными будут следующие типы распределений значений бенчмарка производительности:

Нормальное распределение (Гауссово) - наиболее часто встречается при стабильной работе системы. Характеризуется симметричным колоколом с преобладанием средних значений и постепенным убыванием частоты крайних значений.

Логнормальное распределение - часто встречается при измерении времени отклика, когда большинство значений группируется вокруг небольшого среднего, а хвост распределения тянется вправо.

Распределение Пуассона - может наблюдаться при подсчете количества операций за фиксированный период времени при редких событиях.
Факторы, влияющие на форму распределения:

Нагрузка на CPU и RAM
Состояние кэша
Конфигурация PostgreSQL
Тип и сложность запроса
Параллельность выполнения
При анализе производительности важно отслеживать не только среднее значение, но и дисперсию, медиану и квартили, так как даже при нормальном распределении могут возникать значимые отклонения из-за внешних факторов или особенностей работы СУБД.

Для получения более точных результатов рекомендуется проводить бенчмарки в течение длительного периода времени и учитывать различные процентили (например, 95-й и 99-й), а не только среднее значение.

IMHO мне кажется теперь становится ясно, почему авторы стали исследовать разные распределения, а не анализировать причины отклонения от нормального .
Хотя , конечно же, я могу ошибаться .
В любом случае - тема интересная и перспективная. Жаль , авторы молчат и не публикуются для обсуждения .

Показать полностью

[моё] Яндекс Искусственный интеллект Нейронные сети Postgresql ИМХО

kznalp

Искусственный интеллект

Нейросеть или поисковик - у кого спрашивать ? Кто реально поможет , а не отмажется пустым базаром ?⁠⁠

Серия ITшное

7 месяцев назад

Вопрос : Какие события ожидания являются характерными признаками отсутствия индекса в таблице при выполнении массовых операций select и update в СУБД PostgreSQL ?

Ответ YandexGPT

Характерные признаки отсутствия индекса в таблице при выполнении массовых операций SELECT и UPDATE в СУБД PostgreSQL включают следующие события ожидания:

1. Ожидания Lock (ожидание завершения транзакции, ожидание блокировки кортежа).
2. Ожидания LWLock (ожидание информации о тяжёлых блокировках, ожидание доступа к общим структурам данных).
3. Ожидания IO (ожидание синхронизации файлов отображения отношений, ожидание заполнения нулями файла поддержки динамической общей памяти).
4. Ожидания IPC (ожидание завершения буферного ввода-вывода, ожидание завершения вычислений параллельными рабочими процессами, ожидание завершения фонового рабочего процесса).

В общем то , в принципе всё верно , но , что с этой информацией делать? Как ответ искусственного интеллекта поможет в реальном анализе ситуации , например ? Ну как обычно самый главный вопрос вопросов - а какая реальная помощь от искусственного интеллекта ?

А , что если воспользоваться старым проверенным способом - спросить поисковик ?

Во-первых : в ответе поисковика указывается не тип ожидания, а событие ожидания . А это принципиально сокращает объем информации для анализа причин.

Но самое главное - имеется ссылка на конкретный материал по теме с дополнительными деталями. А это уже реальная помощь .самое главное - имеется ссылка на конкретный материал по теме с дополнительными деталями. А это уже реальная помощь . Да это не так модно, нужно самому дкиать, анализировать , сверять информацию . Но в результате - получается результат, а не набор слов .

Итог - для эффективной работы , когда нужен результат , а не бла бла бла и поток воды по шаблону "вот рыба, у рыбы чешуя, не было бы чешуи была бы шерсть , а в шерсти блохи" - использование поисковика надежнее, эффективнее и дает шанс на реальную помощь в решении реальной проблемы.

Проблема всех нейросетей - они как бы учатся на сырой , грязной и непроверенной информации из интернета , но не умеют анализировать данные и ставить эксперименты . Что то где то прочитал и стал это транслировать дальше . Как попугай повторяет слова , абсолютно не понимая смысл.

А вообще конечно , самое эффективное это общаться с живыми собеседниками, а не с чат ботами.
Но , к сожалению парадокс - чем шире развиваются информационные технологии, тем уже круг общения специалистов между собой.

Показать полностью 3

ИМХО Postgresql Нейронные сети Искусственный интеллект Яндекс Длиннопост

kznalp

Искусственный интеллект

YandexGPT vs DeepSeek. Китаец в пролёте . В полном⁠⁠

Серия ITшное

7 месяцев назад

Вопрос :Где можно найти материалы по методу корреляционного анализа ожиданий СУБД PostgreSQL ?

Ответ YandexGPT

**Корреляционный анализ ожиданий** в PostgreSQL - это методика поиска проблемных SQL-запросов при продуктивной нагрузке.

Основные источники информации по данной методике:

* **PG_HAZEL** - инструмент для анализа производительности PostgreSQL, использующий данный метод
* **Документация PostgreSQL** - содержит базовые понятия и термины, связанные с ожиданиями и производительностью
* **Специализированные блоги** и публикации DBA-специалистов, где описываются практические кейсы применения метода

Методика включает следующие этапы:

* **Анализ операционной скорости** на уровне кластера
* **Мониторинг ожиданий** на уровне кластера
* **Корреляционный анализ** на уровне кластера
* **Статистический анализ** выполнений и ожиданий по отдельным SQL-запросам

Ключевые метрики для анализа:

* **QUERYID** - идентификатор SQL-запроса
* **CORRELATION** - коэффициент корреляции между ожиданиями
* **CALLS** - количество выполнений запроса
* **WAITINGS** - количество ожиданий
* **WAITINGS TO CALL** - отношение ожиданий к выполнениям

Особое внимание уделяется **типам ожиданий**:
* DataFilePrefetch
* DataFileRead
* DataFileWrite
* WALSync
* WALWrite

Для глубокого изучения рекомендуется начать с документации PostgreSQL и специализированных материалов по администрированию баз данных, где описываются практические аспекты применения корреляционного анализа.

Ответ DeepSeek

Для изучения метода корреляционного анализа ожиданий (Correlation Analysis of Expectations) в PostgreSQL вы можете обратиться к следующим источникам:

### **1. Официальная документация PostgreSQL**
- **Planner/Optimizer Statistics**: В документации PostgreSQL описано, как оптимизатор использует статистику для построения планов запросов, включая корреляцию между столбцами.
- [PostgreSQL: Statistics Used by the Planner](https://www.postgresql.org/docs/current/planner-stats.html)
- [PostgreSQL: Multivariate Statistics](https://www.postgresql.org/docs/current/multivariate-statist...) (для анализа корреляции между несколькими столбцами)

### **2. Книги и учебные материалы**
- **"PostgreSQL 14 Internals"** (E. Rogov, A. Belyaev) – книга объясняет работу планировщика и статистику, включая корреляцию.
- **"Mastering PostgreSQL"** (Hans-Jürgen Schönig) – содержит разделы по оптимизации запросов и статистике.

### **3. Статьи и блоги**
- **Use of Correlation in PostgreSQL Query Planning**:
- [Understanding PostgreSQL Query Planning](https://www.timescale.com/blog/how-postgresql-query-optimiza...)
- [Correlation and PostgreSQL Indexes](https://www.cybertec-postgresql.com/en/postgresql-index-corr...)
- **Примеры анализа корреляции через `pg_stats`**:
```sql
SELECT attname, correlation
FROM pg_stats
WHERE tablename = 'your_table' AND schemaname = 'public';
```

### **4. Исследовательские работы и презентации**
- **"Advanced Query Planning in PostgreSQL"** (лекции с конференций PGConf, PGDay).
- **"Statistics in PostgreSQL: How the Planner Works"** (доклады разработчиков, например, от Robert Haas).

### **5. Практические примеры**
- **Создание расширенной статистики для корреляции**:
```sql
CREATE STATISTICS corr_stats (dependencies) ON column1, column2 FROM table_name;
ANALYZE table_name;
```
- **Использование `pg_stats` для анализа корреляции**:
```sql
SELECT tablename, attname, correlation
FROM pg_stats
WHERE schemaname = 'public'
ORDER BY abs(correlation) DESC;
```

Если вам нужны конкретные примеры или углублённый разбор, уточните, какой аспект корреляционного анализа вас интересует (планирование запросов, индексы, многомерная статистика и т. д.).

Вывод :
Очередная, иллюстрация - китайская нейросеть вообще ничего не знает о материалах в российском сегменте интернета .

Ну а команде Yandex - очередной заслуженный респект.

P.S. Чтобы еще усугубить и резко обозначить разницу можно задать вопрос " Кто автор методологии корреляционного анализа ожиданий СУБД PostgreSQL ? "
DeepSeek, как обычно несет мусор.
А вот ответ, YandexGPT, вполне по делу:

YandexGPT vs DeepSeek. Китаец в пролёте . В полном

Дальше - дело техники - простейший поиск по ключевому слову "pg_hazel" и живое общение с автором 😎

Показать полностью 1

[моё] Искусственный интеллект DeepSeek Яндекс Нейронные сети Длиннопост Postgresql

kznalp

Искусственный интеллект

Стандартный пример того, как опасно использовать ответы нейронных сетей⁠⁠

Серия ITшное

7 месяцев назад

Продолжение игр с большими языковыми моделями .

Вопрос : Расскажи мне про использование индикатора CPI при анализе производительности СУБД PostgreSQL

Ответ DeepSeek , не приводится , китаец как обычно , по данной теме, полную пургу несет.
Ответ YandexGPT:

**CPI** (Cycles Per Instruction) в контексте PostgreSQL представляет собой метрику производительности, которая рассчитывается как модуль вектора из трех показателей:

* **QPS** - количество запросов в секунду
* **TPS** - количество транзакций в секунду
* **RPS** - количество строк, полученных клиентом в секунду

Для измерения времени выполнения операций используются данные из системных представлений:
* **active_time** из pg_stat_database
* **total_exec_time** из pg_stat_statements

Дополнительно введены расширенные метрики:
* **CPI_VOLUME** - объем обработанных блоков распределенной памяти при выполнении SQL-операторов
* **CPI_RATIO** - отношение основной метрики производительности к объему обработанных блоков

**CPI_RATIO** особенно важен для оценки эффективности работы СУБД, так как показывает, насколько эффективно система обрабатывает данные - для достижения одинакового результата требуется обработать меньший объем информации.

При проведении анализа производительности рекомендуется следующий подход:
* Выполнить серию тестовых операций (SELECT, INSERT, UPDATE, DELETE)
* Создать необходимые индексы
* Повторить тестовые операции
* Проанализировать полученные результаты

Экспериментально подтверждено, что цифровые показатели CPI полностью коррелируют с наблюдаемым эффектом от создания индексов, что делает эту метрику надежным инструментом для анализа производительности PostgreSQL.

Сразу бросается в глаза полное несоответствие описания и расчёта .

Но самое неприятное не в этом , а в том, что если вдруг кто то из поклонников "искусственного интеллекта" решит сэкономить время (ну это же заявлено как основная выгода ) он потеряет массу времени и соберет по пути все грабли и аномалии , потому что методика расчета, которую привел YandexGPT - неверная , устаревшая и давно неиспользуемая .
Т.е. в данном случае "искусственный интеллект" не помогает, а вредит.

Что делать ? Не доверять чат ботам, включать голову , искать и работать с первоисточниками и материалами самостоятельно .
Лучше с авторами.

Показать полностью

[моё] Искусственный интеллект Нейронные сети Яндекс ИМХО Текст Postgresql

kznalp

Искусственный интеллект

Нейросети между собой не дружат и не обмениваются информацией⁠⁠

Серия ITшное

8 месяцев назад

Продолжение игр с нейросетями.

Вопрос: Какие практические рекомендации по ожиданиям PostgreSQL может дать чат-бот ChatPPG ?

Ответ YandexGPT

Практические рекомендации по работе с ожиданиями в PostgreSQL

Основные типы ожиданий

Lock-based ожидания:

LockAcquire - ожидание получения блокировки объекта
BufferLock - ожидание блокировки буфера
TransactionIdLock - ожидание завершения транзакций

Мониторинг ожиданий

Основные инструменты:

pg_stat_activity - просмотр текущих сессий и их состояния
pg_locks - мониторинг блокировок в системе
pg_stat_statements - анализ производительности запросов

Оптимизация производительности

Рекомендации по настройкам:

Настройка max_connections под реальную нагрузку
Оптимизация shared_buffers и effective_cache_size
Корректная настройка wal_segment_size для снижения IO

Работа с блокировками

Практические советы:

Использование SELECT FOR UPDATE только там, где это действительно необходимо
Минимизация времени удержания блокировок
Применение SERIALIZABLE изоляции только при необходимости

Диагностика проблем

Основные шаги:

Анализ pg_stat_statements для выявления медленных запросов
Мониторинг pg_stat_database для оценки нагрузки
Использование EXPLAIN ANALYZE для анализа планов выполнения

Автоматизация мониторинга

Рекомендуемые практики:

Настройка оповещений при превышении пороговых значений ожиданий
Регулярный анализ логов системы
Автоматическое создание дампов состояния при критических ожиданиях

Профилактические меры

Регулярные действия:

Реорганизация таблиц при росте фрагментации
Обновление статистики для корректной работы оптимизатора
Периодическая очистка устаревших данных

Работа с большими нагрузками

Масштабирование:

Разделение нагрузки между узлами (shard-ing)
Использование репликации для чтения
Кэширование часто используемых данных

Дополнительные рекомендации

Безопасность и стабильность:

Регулярное резервное копирование
Настройка параметров WAL для оптимальной производительности
Мониторинг свободного места на дисках

При возникновении специфических проблем рекомендуется обращаться к документации PostgreSQL и профильным сообществам для получения более детальных рекомендаций под конкретную задачу.

Ответ DeepSeek

Чат-бот ChatPPG (предположительно, это вымышленный бот для PostgreSQL) мог бы дать следующие практические рекомендации по настройке ожиданий (expectations) при работе с PostgreSQL:

1. Производительность

Не ожидайте, что PostgreSQL будет так же быстр, как специализированные NoSQL-системы для ключ-значение (например, Redis).
Оптимизируйте запросы: Используйте EXPLAIN ANALYZE для анализа плана выполнения.
Настройте индексы: Добавляйте индексы на часто используемые столбцы в WHERE, JOIN, ORDER BY.

2. Масштабируемость

PostgreSQL хорошо масштабируется вертикально (увеличение CPU/RAM), но горизонтальное масштабирование (шардинг) требует дополнительных инструментов (Citus, PostgreSQL + Foreign Data Wrappers).
Ожидайте, что репликация (streaming replication) будет запаздывать на несколько секунд или минут при высокой нагрузке.
3. Надежность и отказоустойчивость
- WAL (Write-Ahead Log) гарантирует сохранность данных, но требует правильной настройки (fsync, synchronous_commit).
- Регулярно делайте бэкапы (pg_dump, pg_basebackup, Barman).
4. Транзакции и блокировки
- Долгие транзакции блокируют систему – избегайте idle in transaction сессий.
- Deadlocks (взаимоблокировки) возможны – настраивайте deadlock_timeout и логируйте их.
5. Расширяемость
- PostgreSQL поддерживает множество расширений (PostGIS, pg_partman, TimescaleDB).
- Можно писать хранимые процедуры на Python, JavaScript (PL/V8), Rust (pgx) и др.
6. Мониторинг и обслуживание
- Автовакуум (autovacuum) критически важен для производительности – настраивайте autovacuum_vacuum_scale_factor и autovacuum_analyze_threshold.
- Используйте pg_stat_statements для выявления медленных запросов.
7. Совместимость и миграции
PostgreSQL строго следует стандарту SQL, но некоторые функции (например, ON UPDATE) отсутствуют.
Миграции с других СУБД (MySQL, Oracle) возможны, но требуют проверки (используйте pgloader, Ora2Pg).

8. Безопасность

Не используйте trust в pg_hba.conf – применяйте md5/scram-sha-256.
Рекомендуется ограничивать права через ROLE и GRANT.

Вывод

PostgreSQL – мощная, надежная и гибкая СУБД, но требует грамотной настройки и понимания её внутренней работы. Если ChatPPG действительно существовал, он бы советовал читать документацию, тестировать на реалистичных нагрузках и не надеяться на "волшебную" производительность без оптимизаций.

Результат

YandexGPT - садись 2 . На переэкзаменовку. Незнание предметной области, не обладает информацией по вопросу.

DeepSeek - садись 2 . На переэкзаменовку. Незнание предметной области, не обладает информацией по вопросу.

Стыдно, при таких бюджетах не знать простого.

А ведь достаточно всего лишь , воспользоваться шпорой и сделать запрос в поисковик:

Нейросети между собой не дружат и не обмениваются информацией

Показать полностью 2

[моё] Яндекс DeepSeek Нейронные сети Чат-бот Длиннопост Postgresql

kznalp

Реактивный или проактивный мониторинг по мнению ИИ . 1:0 в пользу DeepSeek⁠⁠

Серия ITшное

8 месяцев назад

Итого - счет сравнялся .
Текущий общий счет в серии "Какой ИИ полезнее для PostgreSQL DBA" - ничья 1:1

Реактивный или проактивный мониторинг по мнению YandexGPT

Реактивный или проактивный мониторинг по мнению DeepSeek

YandeхGPT vs. DeepSeek. У DeepSeek - большие проблемы

DeepSeek Яндекс Нейронные сети Субд Postgresql Текст

Посты не найдены

1 2

Вопрос: Какие практические рекомендации по ожиданиям PostgreSQL может дать чат-бот ChatPPG ?

Ответ YandexGPT

Практические рекомендации по работе с ожиданиями в PostgreSQL

Основные типы ожиданий

Мониторинг ожиданий

Оптимизация производительности

Работа с блокировками

Диагностика проблем

Автоматизация мониторинга

Профилактические меры

Работа с большими нагрузками

Дополнительные рекомендации

Ответ DeepSeek

1. Производительность

2. Масштабируемость

4. Транзакции и блокировки

5. Расширяемость

6. Мониторинг и обслуживание

7. Совместимость и миграции

8. Безопасность

Вывод

Результат

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги