Postgresql: истории из жизни, советы, новости, юмор и картинки — Горячее

Что делает VPS-сервер готовым к продакшену?⁠⁠

5 дней назад

Перевести проект в продакшен – это не поднять dev-стенд. Подходящий сервер должен выдерживать пиковую нагрузку, восстанавливаться после сбоев и не создавать сюрпризов ночью. Не каждый VPS подходит для этого: провайдеры по-разному гарантируют ресурсы, стабильность и время реакции поддержки.

Критерии production-ready VPS

VPS для продакшена должен давать предсказуемые ресурсы, а не мягкие лимиты с оверселлингом. Ключевые параметры: полноценная аппаратная виртуализация, изоляция ресурсов, стабильное хранилище, стабильная сетевая пропускная способность и поддержка IPv6. SLA не ниже 99,9% с описанными компенсациями – это важный ориентир для продакшена.

Безопасность и резервирование

Что делает VPS-сервер готовым к продакшену?

Настройка сервера для продакшена начинается до деплоя: firewall настроен, SSH переведён на ключи. Типичные ошибки: открытые порты на всех интерфейсах, отсутствие изоляции между сервисами и ненастроенные snapshot’ы. Для любого продакшен-сервера регулярные бэкапы – обязательное условие. Без проверенного восстановления они не надёжны.

Мониторинг и автоматизация

Без метрик и алертинга продакшен-среда остаётся неконтролируемой. Подключите Prometheus или Zabbix, настройте пороговые алерты по CPU, RAM, дискам и времени ответа. Для крупных проектов и командной разработки полезно хранить конфигурацию инфраструктуры в Ansible или Terraform. Это упрощает деплой, поддержку среды и восстановление после сбоев, но не является обязательным условием для каждого продакшен-проекта.

Чек-лист: production-готовность VPS

• SLA ≥99,9% с описанными компенсациями

• Стабильное хранилище с понятными ограничениями по производительности

• Аппаратная виртуализация и изоляция ресурсов

• SSH-аутентификация по ключам, firewall настроен

• Автоматические бэкапы с тестом восстановления

• Мониторинг и алертинг (Prometheus или Zabbix)

Проверьте, закрывает ли ваш VPS-провайдер требования продакшен-нагрузки. Если по важным для проекта пунктам есть пробелы, лучше устранить их до деплоя, а не во время первого инцидента.

Показать полностью 2

Aeza

Хомячу Сервер

VPS vs VDS: изоляция ресурсов это не маркетинговая деталь⁠⁠

12 дней назад

У провайдеров VPS и VDS часто выглядят как синонимы. Поэтому сравнивать нужно не название услуги, а тип виртуализации, лимиты ресурсов и гарантии для продакшен-нагрузок.

В чём реальная разница между VPS и VDS?

VPS и VDS у разных провайдеров часто используются как синонимы, поэтому название услуги само по себе ничего не гарантирует. Практическая разница появляется не в названии, а в типе виртуализации: контейнерная схема (OpenVZ, Virtuozzo, LXC) делит ядро хостовой ОС, а аппаратная виртуализация (KVM, Xen) даёт отдельное ядро гостевой системы и более чёткие границы ресурсов.

Почему изоляция ресурсов критична

На контейнерной схеме CPU и I/O могут делиться между всеми на хосте, а степень изоляции зависит от настроек хоста, лимитов и политики провайдера. Современные контейнерные решения могут нормально работать под нагрузкой, если ресурсы распределены корректно. Если сосед по железу активно загружает физические ядра или диск, ваш контейнер может тормозить, а без доступа к хостовой стороне причину сложнее подтвердить.

Например, два тарифа могут иметь одинаковые характеристики: 4 vCPU и 8 ГБ RAM. Один сервер будет работать стабильно под нагрузкой благодаря корректным лимитам ресурсов и контролю плотности размещения VM, а другой может показывать просадки из-за высокой конкуренции за ресурсы на хосте.

CPU steal time (%st в top и vmstat) показывает, сколько времени виртуальный процессор ждал, пока гипервизор выделит ему физическое ядро. Проще говоря, это время, когда VPS хотел получить CPU, но физический ресурс был занят другими задачами на хосте. При нормальной конфигурации хоста показатель держится близко к нулю. fio и vmstat позволяют увидеть симптомы деградации (рост latency, steal time), но не позволяют однозначно подтвердить оверселлинг.

Сценарии, где разница решает

• PostgreSQL и MySQL под нагрузкой: нужна I/O-предсказуемость и стабильный RAM.

• Low-latency API: скачки задержки в правильно написанном сервисе могут быть связаны с CPU steal, I/O или нагрузкой на сеть, а не только с кодом.

• CI/CD-раннеры и k8s-ноды: всплески нагрузки у соседей не должны валить ваши сборки и поды.

Чек-лист: как проверить изоляцию у провайдера

• Тип виртуализации: KVM/Xen или OpenVZ/LXC?

• vCPU гарантированы или мягкий лимит с троттлингом?

• Есть ли гарантии IOPS или диск работает в shared-режиме без ограничений?

• Публикует ли провайдер политику оверселлинга?

• Можно ли измерить steal time через vmstat или встроенный мониторинг?

Перед выбором тарифа пройдитесь по этому чек-листу. Маркировка «VDS» на сайте провайдера не гарантирует аппаратной изоляции, посмотрите тип гипервизора отдельно.

ООО Аеза Групп

Показать полностью

VPS Сервер Хостинг Виртуализация Kvm Linux Системное администрирование Администрирование DevOps Облачные технологии База данных Postgresql Mysql Производительность IT Технологии Блоги компаний Текст

Aeza

Облачный сервер для production: как оценить CPU steal, диск и сеть⁠⁠

13 дней назад

У двух провайдеров могут быть одинаковые характеристики: 4 vCPU, 8 GB RAM, 100 GB SSD, гигабитный канал. При этом цена отличается на 15%, и разница неочевидна. Но через неделю нагрузочных тестов выясняется: p99-задержки у серверов расходятся в разы.

Облачный сервер с «бумажными» характеристиками это то, что провайдер выделил виртуально. Что происходит в железе, остаётся отдельным вопросом. Когда сосед по гипервизору кладёт что-то тяжёлое, дисковая очередь растёт или канал режут по полосе, ничего из этого в спецификации тарифа нет.

Чтобы не обнаружить проблему уже в продакшене, стоит прогнать три блока тестов до миграции: CPU steal, дисковая подсистема и сеть. Инструменты стандартные: vmstat, fio, iperf3. Интерпретировать результаты нужно в контексте нагрузки, тарифа и времени измерения.

Почему синтетических бенчмарков недостаточно

Geekbench, sysbench, UnixBench замеряют потолок: максимум, который сервер может показать в коротком тесте. Продакшен так не работает. Нагрузка нестабильна, а соседи по физическому узлу непредсказуемы.

В облаке ресурсы виртуальные, и провайдеры применяют оверкоммит: виртуальных ядер на узле выделяется больше, чем можно гарантировать физически при одновременной нагрузке. Пока суммарная нагрузка умеренная – всё в порядке. Когда несколько VM одновременно дают всплески, растёт steal time и дисковая очередь, сеть упирается в лимиты или шейпинг. Это и есть эффект «шумных соседей». Он проявляется непредсказуемо, потому что зависит от того, кто ещё размещён на вашей физической ноде прямо сейчас.

Короткие синтетические тесты не всегда это показывают: они выполняются на общей ноде, но могут не попасть в периоды конкуренции с другими VM за ресурсы. Реальное тестирование облачного сервера должно включать не только короткие синтетические тесты, но и наблюдение за поведением системы в динамике. Для первичной проверки обычно достаточно 30–60 минут нагрузки, а более длительный мониторинг в течение 24–72 часов помогает выявить периодические проблемы с конкуренцией за ресурсы.

Три вещи остаются за кадром при коротком синтетическом тесте. Первое – эффект соседей: ваша VM не одна на физической машине. Второе – нелинейность дисков: SSD ведёт себя по-разному при чистом чтении, чистой записи и их смеси. Третье – временные эффекты сети: burst-лимиты, суточные паттерны шейпинга, перестройка BGP-маршрутов при переключении аплинков.

CPU steal: как увидеть ожидание CPU на гипервизоре

CPU steal time – это процент времени, когда ваш vCPU готов к работе, но гипервизор не предоставляет ему физическое ядро. Причиной может быть высокая загрузка хоста, конкуренция с другими VM, особенности планировщика или условия конкретного тарифа. Для приложения это будет дополнительной задержкой без видимой причины – процессор загружен, а работу не выполняет.

Следить за CPU steal time удобнее всего в реальном времени. В выводе vmstat правая группа колонок – блок cpu: us – user, sy – system, id – idle, wa – ожидание диска, st – steal. Если st держится выше нуля несколько строк подряд, нужно смотреть динамику, а не разовый всплеск:

vmstat 1 30

Статистику за длинный период удобно собирать через sar. Запускать стоит дважды: в покое и под нагрузкой. Разница между срезами покажет, как ведёт себя steal при конкуренции:

sar -u 1 300

Можно посмотреть показатели по каждому vCPU отдельно, чтобы убедиться, нет ли концентрации steal на отдельных vCPU. Такая картина может указывать на особенности планирования или размещения VM:

mpstat -P ALL 1 10

Если вы используете Prometheus, node_exporter экспортирует node_cpu_seconds_total с меткой mode="steal". Так удобно смотреть изменение steal во времени, а не отдельные срезы в терминале.

Практические ориентиры по значениям steal:

<1% - Обычно не вызывает проблем

1–5% Стоит наблюдать в динамике, особенно при чувствительной нагрузке

5–10% Может влиять на хвостовые задержки

>10% Повод обратиться в поддержку и проверить ноду, тариф или инфраструктуру провайдера

Как интерпретировать steal в разных сценариях

Для CPU-bound задач (транскодирования, ML-инференса, компиляции) steal транслируется напрямую во время выполнения. Steal 5% может означать близкую по масштабу потерю доступного CPU-времени, а также нерегулярные паузы от гипервизора, которые нарушают предсказуемость.

Для latency-sensitive API – REST, gRPC, запросов к базам данных – зависимость нелинейная. Медиана может держаться в норме, а p99 растёт: в моменты роста steal запросы накапливаются в очереди. Производительность облачного сервера при steal выше 3–5% для таких сервисов стоит проверять под реальной нагрузкой, синтетический тест этого поведения не показывает.

Отдельный случай – кратковременные всплески steal до 15–20% на несколько секунд при нормальных фоновых показателях. Так бывает при «пробуждении» нагруженной VM на соседнем слоте. Для realtime-сервисов такие пики особенно опасны: даже 3-секундный скачок latency может спровоцировать каскадные таймауты ниже по стеку.

Если steal растёт в определённые часы суток, это может указывать на регулярную конкуренцию за ресурсы или особенности нагрузки на хост. Паттерн удобно поймать через запись в файл:

sar -u 1 3600 > cpu_hour.log

Сравните значения st в разные промежутки. При устойчивом росте в пиковые часы стоит обратиться в поддержку и проверить, связана ли проблема с конкретной нодой, тарифом или инфраструктурой провайдера.

Диск: IOPS, latency и поведение под смешанной нагрузкой

нагрузкой

Многие провайдеры публикуют либо максимальные IOPS в идеальных условиях, либо ничего конкретного. В обоих случаях цифра мало что говорит о реальном поведении под смешанной нагрузкой.

В выводе iostat важны два параметра. await – среднее время выполнения запроса к диску в миллисекундах, включая ожидание в очереди. avgqu-sz – средняя глубина очереди: когда она растёт, await растёт следом. В новых версиях sysstat await разделён на r_await и w_await – лучше смотреть оба.

Мониторинг дисковой подсистемы запускайте параллельно с нагрузочным тестом:

iostat -xz 1 10

Для нагрузочного теста используется fio. Крайне важен флаг --direct=1: без него тест уходит в страничный кеш Linux и не отражает поведение диска. Параметры numjobs и iodepth задают глубину очереди: в примере с numjobs=4 и iodepth=32 суммарная глубина очереди равна 128, что перекрывает большинство всплесков при конкуренции потоков. В выводе смотрите на iops и clat p99: этот показатель помогает оценить вклад диска в хвостовые задержки запросов. В примерах ниже используется ioengine=libaio, но для современных Linux-конфигураций также можно рассматривать io_uring, если он поддерживается системой и версией fio.

Случайное чтение 4K – типичная OLTP-нагрузка:

fio --name=rand4k_read --rw=randread --bs=4k --direct=1 \

--numjobs=4 --iodepth=32 --size=4G --runtime=60 \

--time_based --ioengine=libaio --group_reporting

Последовательная запись 1 MB – журналы, бэкапы, дамп БД:

fio --name=seq_write --rw=write --bs=1M --direct=1 \

--numjobs=1 --iodepth=4 --size=10G --runtime=60 \

--time_based --ioengine=libaio

Смешанная нагрузка 70/30 – реалистичная модель для большинства веб-приложений:

fio --name=mixed --rw=randrw --rwmixread=70 --bs=4k --direct=1 \

--numjobs=4 --iodepth=32 --size=4G --runtime=60 \

--time_based --ioengine=libaio --group_reporting

Ориентиры для БД и веб-приложений

Нет единого числа IOPS, которое подходит всем: зависит от характера нагрузки, размера рабочего набора и активности кеша. Примерные ориентиры для тестирования облачного сервера под разные типы нагрузок:

PostgreSQL / MySQL, средняя — 4K rand IOPS: ≥5 000; await: <2 мс; %util: <70%
PostgreSQL / MySQL, высокая — 4K rand IOPS: ≥20 000; await: <1 мс; %util: <70%
Redis (с AOF) — 4K rand IOPS: ≥10 000; await: <1 мс; %util: <60%
Nginx / файловый сервис — 4K rand IOPS: ≥1 000; await: <5 мс; %util: <80%

Эти значения не универсальны: реальные пороги зависят от типа хранилища, профиля нагрузки, размера рабочего набора, кеша и требований конкретного приложения.

Если avgqu-sz устойчиво держится выше 8–10 под OLTP-нагрузкой, это первый признак насыщения: запросы встают в очередь, потому что диск не успевает. %util близко к 100% само по себе не катастрофа для SSD, но если при этом растёт await – диск работает на пределе.

Для облачных блочных устройств с гарантированными IOPS пороги обычно срабатывают раньше, чем %util достигнет 100%: провайдер режет I/O на установленном лимите, и очередь начинает расти задолго до насыщения железа. Именно await покажет это первым.

Тестировать стоит с той же глубиной очереди, что предполагается в продакшене: для PostgreSQL это обычно 8–32, для Redis – ниже.

Сеть: полоса, PPS, latency и потери

Настройка облачных серверов под продакшен без проверки сети – частая ошибка. Заявленный гигабит или 10 Gbps – это верхний предел, а не гарантированная полоса. Под длительной нагрузкой провайдеры нередко применяют шейпинг или rate limiting, и в документации это обычно не указано.

Базовый тест полосы между двумя нодами в одном датацентре (нужен iperf3-сервер на второй машине):

iperf3 -c <ip_сервера> -t 60 -P 4

В строке receiver смотреть на Bandwidth. Ключ -P 4 запускает 4 параллельных TCP-потока – один поток не всегда показывает реальный потолок канала: результат зависит от RTT, настроек TCP и доступного размера окна передачи. Параметр -t 60 задаёт длительность 60 секунд – этого достаточно, чтобы обнаружить burst-лимиты, если они есть.

UDP-тест для оценки потерь и jitter под заданной скоростью:

iperf3 -c <ip_сервера> -u -b 1G -t 30

Latency и jitter:

ping -c 1000 -i 0.1 <ip>

mtr --report --report-cycles 100 <ip>

Параметры виртуального интерфейса – если драйвер отдаёт данные (имя может отличаться: eth0, ens3 и т.п.):

ethtool eth0

В выводе mtr обращайте внимание на колонки Loss% и Last. Потери только на одном промежуточном хопе при нормальном трафике дальше – скорее всего, роутер деприоритизирует ICMP TTL-exceeded. Устойчивые потери на нескольких хопах подряд – другое дело.

Примерные ориентиры для внутрисетевого трафика в одном датацентре: RTT < 1 мс, потери = 0%, jitter < 0.5 мс. Реальные значения зависят от сети провайдера, маршрута и требований приложения. Устойчивые потери до конечного узла могут стать поводом разбираться.

Частые проблемы сети в облаке

Rate limiting и шейпинг. Если iperf3 даёт полную полосу первые 10–15 секунд, а затем резко снижает результат – провайдер применяет burst-лимиты. Реальная устойчивая полоса в таком случае ниже заявленной, и это нужно учитывать при выборе тарифа.

MTU в overlay-сетях. VXLAN и Geneve добавляют заголовок к каждому пакету, снижая эффективный MTU ниже стандартных 1500 байт – обычно до 1450. Пакеты с DF-флагом при этом дропаются без уведомления приложения.

Проверка MTU для IPv4 при стандартном MTU 1500:

ping -M do -s 1472 <ip>

Ответ «Frag needed» или «Message too long» означает, что пакет такого размера не проходит без фрагментации. Для IPv6, туннелей и нестандартных MTU значения будут другими. Нужно снижать TCP MSS или настраивать PMTUD на стороне приложения, иначе соединения будут зависать или деградировать непредсказуемо.

Нестабильный роутинг. Если mtr показывает устойчивые потери до конечного узла или аномальный рост RTT по маршруту – запустите повторно через 5–10 минут. Если ситуация не меняется – возможны BGP-флап, перегрузка маршрута или внутренний сбой у провайдера. В таком случае настройка облачных серверов внутри одного VPC не поможет – проблема на уровне сети провайдера или внешних аплинков.

Чек-лист проверки облачного сервера перед production

Последовательность шагов для оценки нового сервера перед миграцией:

1. Базовый срез в покое. Сразу после деплоя, до всякой нагрузки: vmstat 1 60, iostat -xz 1 60, ping к соседней машине в той же зоне. Запишите исходные значения st, await, avgqu-sz – это точка отсчёта для сравнения.

2. CPU steal под нагрузкой. Создайте реальную или приближенную к продакшену нагрузку (например, через stress-ng или аналог), параллельно мониторя vmstat 1. Сам по себе синтетический тест не гарантирует конкуренцию ресурсов на стороне гипервизора, поэтому важна динамика steal под фактической нагрузкой. Steal выше 3–5% под умеренной нагрузкой – повод проверить динамику, сопоставить её с p95/p99 и обратиться в поддержку. Причина может быть в ноде, тарифе или инфраструктуре провайдера.

3. Дисковый тест. fio с профилем нагрузки, близким к продакшену: 4K randread для OLTP, 1 MB sequential write для стриминга. Зафиксировать IOPS, await, avgqu-sz. В соседнем терминале – iostat -xz 1.

4. Сетевой тест. iperf3 минимум 60 секунд, ping с 1000 пакетами, mtr до ключевых endpoint’ов. Отдельно – проверка MTU: для стандартного MTU 1500 в IPv4 с ICMP можно использовать ping -M do -s 1472. Для IPv6, туннелей и нестандартных MTU значения будут другими.

5. Мониторинг 24–72 часа. Вывод в продакшен без наблюдения за суточным паттерном – ещё одна частая ошибка. sar с записью в файл или любой агент метрик (node_exporter, collectd) покажут поведение steal и await в разное время суток и помогут поймать пиковую конкуренцию на ноде.

6. Анализ p95/p99. Если есть возможность запустить реальное приложение или нагрузочную копию – собрать гистограмму latency за несколько часов. p95 и p99 в контексте всей системы точнее любого синтетического теста и позволяют напрямую сверить результат с SLO.

Одинаковые характеристики не означают одинаковую производительность. CPU steal, дисковый await и реальная полоса – три параметра, которые можно измерить заранее, не дожидаясь первого инцидента.

Все приведённые утилиты доступны в стандартных репозиториях Linux-дистрибутивов. Развернуть облачный сервер у провайдера, прогнать чек-лист по описанному порядку и сравнить результаты с ориентирами – это несколько часов работы. Это значительно меньше, чем стоит инцидент в продакшене, который можно было предотвратить.

Показать полностью

VPS Linux Сервер Облачные технологии Системное администрирование Администрирование Производительность Тестирование Бенчмарк Процессор SSD База данных Postgresql Mysql Redis Компьютерные сети Видео Без звука Короткие видео Длиннопост

kznalp

Postgres DBA

Практическое применение цепей Маркова для прогнозирования инцидентов производительности СУБД PostgreSQL⁠⁠

Серия СУБД PostgreSQL

14 дней назад

Оригинал — на основном техническом канале (Возможны правки и дополнения).

От хаоса к прогнозу: один шаг вперёд.

В рамках проекта pg_expecto разработана и внедрена система прогнозирования риска возникновения инцидентов производительности на основе цепей Маркова.

Реализация представляет собой полноценное решение, адаптированное к потоковым данным и способное к самонастройке.

Постановка задачи

Производительность СУБД PostgreSQL подвержена влиянию множества факторов, включая характер нагрузки, состояние операционной системы и внутренние события ожидания.

Традиционные подходы к мониторингу, как правило, реагируют на уже возникшие проблемы, тогда как задача проактивного обнаружения предвестников сбоев требует более глубокого анализа динамики системы.

В основу предлагаемого решения положена идея дискретизации непрерывных метрик производительности в конечное множество состояний, переходы между которыми описываются марковским процессом. Это позволяет моделировать эволюцию состояния системы во времени и оценивать вероятности неблагоприятных исходов.

Формализация состояния системы

Непрерывные метрики – операционная скорость, время ожиданий и корреляция между ними – преобразуются в дискретное пространство из 189 состояний.

Каждое состояние характеризуется тремя параметрами:

коэффициентом корреляции (21 градация от –1,0 до +1,0 с шагом 0,1),
трендом операционной скорости
трендом времени ожиданий (каждый принимает значения –1, 0, +1).

Такая дискретизация обеспечивает баланс между детализацией модели и вычислительной эффективностью.

Архитектура системы

Система построена по многослойному принципу:

Слой данных

Включает таблицы:

хранения переходов (transition_log)
накопленных частот (markov_frequencies)
матрицы вероятностей (markov_probabilities)
поглощающей матрицы для многошагового прогноза (markov_absorbing).

Отдельно выделены таблицы:

конфигурации (markov_config), справочник состояний (state_descriptions) и динамический список критических состояний (critical_states).

Слой обучения

Реализует пошаговое обновление модели с частотой одна минута.

На каждом шаге выполняются:

получение текущих метрик,
вычисление идентификатора состояния,
логирование перехода,
обновление частот ,
при необходимости, применение забывания.

Слой прогнозирования

Предоставляет функции для оценки риска на заданном горизонте.

Ключевая функция mchain_predict_risk_k_v2 вычисляет вероятность хотя бы одного попадания в критическое множество за k шагов.

Слой оценки

Включает механизмы расчёта достоверности прогнозов и суточных метрик качества.

Обучение модели и адаптивное забывание

Обучение происходит в реальном времени на потоке данных. По мере поступления новых наблюдений обновляются частоты переходов и пересчитываются вероятности. Ключевой механизм, обеспечивающий адаптацию к изменению характера нагрузки, – забывание.

Коэффициент забывания α определяет скорость, с которой устаревающие наблюдения теряют вес.

В адаптивном режиме α вычисляется по формуле:

α(t) = max(min_alpha, base_alpha · exp(-days_since_last_incident / half_life))

где days_since_last_incident – время, прошедшее с последнего попадания в критическое состояние.

Такой подход позволяет ускорить забывание после инцидентов и замедлить его в стабильные периоды. Дополнительно введён stability_factor, корректирующий α в зависимости от нестабильности вероятностей.

Важным условием применения забывания является достаточность накопленных данных. Функция mchain_check_sufficiency проверяет, что общее число переходов превышает порог min_transitions_for_forgetting (по умолчанию 5000).

Прогнозирование риска

Прогноз риска строится на основе текущего состояния системы и матрицы вероятностей переходов. Для одношагового прогноза используется прямая сумма вероятностей перехода в критические состояния.

Многошаговый прогноз (mchain_predict_risk_k_v2) реализует итеративное умножение вектора распределения вероятностей на матрицу переходов. На каждом шаге вероятности, попавшие в критические состояния, накапливаются в значении риска, а затем обнуляются, чтобы исключить учёт повторных попаданий. Горизонт прогноза задаётся параметром forecast_horizon_minutes в конфигурации (по умолчанию 30 минут).

Сформированные прогнозы сохраняются в таблицу prediction_log. По истечении горизонта выполняется обновление фактических исходов: для каждого прогноза определяется, произошёл ли переход в критическое состояние в течение заданного интервала.

Оценка качества и достоверности

Для оценки качества прогнозов предусмотрен комплекс метрик:

Brier score – среднеквадратичная ошибка вероятностных прогнозов.
Log-loss – логистическая потеря, чувствительная к уверенным неправильным прогнозам.
MAE – средняя абсолютная ошибка.
ECE (Expected Calibration Error) – средневзвешенное отклонение между предсказанными вероятностями и наблюдаемыми частотами.
MCE (Maximum Calibration Error) – максимальное отклонение калибровки.
ROC-AUC – площадь под ROC-кривой, характеризующая дискриминационную способность модели.

Достоверность прогнозов оценивается рейтингом от 0 до 5 на основе трёх факторов: общего числа переходов, стабильности вероятностей и покрытия частых состояний.

Профилирование нагрузки (версия 14)

Начиная с версии 14, система дополнена модулем профилирования нагрузки.

Этот модуль позволяет:

Сохранять оперативные (за последние 60 минут), суточные и недельные профили производительности.
Строить эталонные профили на основе исторических данных с исключением инцидентных окон.
Обнаруживать аномалии путём сравнения текущих профилей с эталонными.
Анализировать связь между отклонениями профилей и возникновением инцидентов.

Функция compare_profiles выполняет сравнение текущего профиля с эталонным, вычисляя JS-дивергенцию гистограмм состояний и формируя статус (NORMAL, WARNING, CRITICAL).

Результаты сохраняются в журнал profile_comparison_log, что позволяет проводить ретроспективный анализ.

Историческое обучение

Для первоначального построения модели предусмотрена процедура mchain_initial_train_from_history, которая обучает цепь Маркова на исторических данных, имитируя пошаговое обучение.

Это позволяет развернуть систему на основе уже накопленных метрик без необходимости ждать накопления данных в реальном времени.

Заключение

Представленная реализация цепи Маркова представляет собой законченную систему прогнозирования риска инцидентов производительности, интегрированную в экосистему pg_expecto.

Ключевые преимущества системы:

работа в реальном времени с низкой задержкой;
адаптация к изменению характера нагрузки благодаря механизму забывания;
гибкая настройка горизонта прогноза и параметров обучения;
встроенные механизмы оценки качества и достоверности;
расширяемая архитектура, дополненная модулем профилирования нагрузки.

Система успешно применяется для мониторинга производительности СУБД и предупреждения о возможных сбоях.

Дальнейшее развитие проекта направлено на углубление аналитических возможностей и повышение точности прогнозов.

Показать полностью 1

[моё] Postgresql Статья Исследования Пресс-релиз Длиннопост

kznalp

Postgres DBA

MARKOV_CHAIN 14.8 : JS-дивергенция и прогноз риска на продуктивной СУБД PostgreSQL⁠⁠

Серия СУБД PostgreSQL

14 дней назад

Оригинал — на основном техническом канале (Возможны правки и дополнения).

Начало

Практическое применение методики прогнозирования инцидента производительности СУБД PostgreSQL

Текущий статус эксперимента

Случай-1 : Инцидент

JS-дивергенция > 0.4
Прогноз риска > 0.6

Случай-2 : Инцидент

JS-дивергенция > 0.4
Прогноз риска > 0.6

Случай-3 : Нет инцидента

JS-дивергенция > 0.4
Прогноз риска < 0.6

Случай-4 : Инцидент

JS-дивергенция > 0.4
Прогноз риска > 0.6

Гипотеза

Превышение значения JS-дивергенции выше 0.4 при одновременном максимальном значении Прогноза риска = 1, может служить сигналом о приближении инцидента производительности СУБД

Показать полностью 5

[моё] Postgresql Статья Тестирование Исследования Длиннопост

kznalp

Postgres DBA

О ПРИМЕНЕНИИ МЕТОДА СРАВНЕНИЯ ПРОФИЛЕЙ ПРОИЗВОДИТЕЛЬНОСТИ НА ОСНОВЕ JS-ДИВЕРГЕНЦИИ ДЛЯ РАННЕГО ПРОГНОЗИРОВАНИЯ ИНЦИДЕНТОВ СУБД POSTGRESQL⁠⁠

15 дней назад

Оригинал — на основном техническом канале (Возможны правки и дополнения).

Аннотация.

В статье представлены результаты экспериментальной верификации гибридного метода раннего обнаружения предотказных состояний СУБД PostgreSQL, сочетающего марковское профилирование нагрузок и оценку статистической дивергенции распределений (JS-дивергенцию). На основе суточного массива реальных данных (439 прогнозов, 13 подтверждённых инцидентов) показано, что предложенный подход обеспечивает 100%-ное обнаружение инцидентов с временем упреждения от 15 до 140 минут, при этом статус CRITICAL предшествует каждому событию (медианное упреждение — 45 мин). Установлено, что профильная структурная диагностика фиксирует аномалии в тех случаях, когда классические марковские прогнозы риска ещё не дают значимых отклонений. Новизна работы заключается в интеграции двух независимых каналов оценки – вероятностного и структурного – что позволяет различать постепенную деградацию и резкие сдвиги в поведении системы. Практическая ценность метода подтверждается высокими показателями точности (Accuracy = 0.868, Precision = 0.899, Recall = 0.886) и стабильностью сигнала, что рекомендует его в качестве дополнения к существующим системам мониторинга.

Ключевые слова: прогнозирование инцидентов, СУБД PostgreSQL, профили производительности, цепи Маркова, JS-дивергенция, раннее предупреждение, структурная диагностика.

Введение

Современные высоконагруженные информационные системы предъявляют жёсткие требования к доступности и отказоустойчивости СУБД. Традиционные системы мониторинга, ориентированные на пороговые значения метрик (загрузка CPU, количество активных сессий, время отклика), часто срабатывают уже на стадии развивающегося инцидента, когда время на упреждающие действия минимально. Альтернативный подход заключается в анализе профилей производительности – распределений состояний системы во времени, которые могут изменяться задолго до явных проявлений деградации.

В настоящей работе исследуется метод сравнения текущего профиля нагрузки с эталонным (безинцидентным) профилем с помощью метрики Дженсена – Шеннона (JS-дивергенции). Метод дополняется аппаратом цепей Маркова для вероятностной оценки риска перехода в критическое состояние. Цель работы – экспериментально подтвердить прогностическую ценность такого комбинированного подхода, оценить временные характеристики упреждения и устойчивость сигнала на реальных данных суточного мониторинга.

1. Методология и постановка эксперимента

1.1. Формирование эталонного профиля

За эталон принимался интервал длительностью 60 минут, предшествующий всем зафиксированным инцидентам и характеризующийся штатной работой СУБД. Для каждой минуты в этом окне строилась гистограмма состояний системы (на основе агрегированных показателей: число транзакций, время ожидания блокировок, использование буферного кэша, интенсивность контрольных точек и др.). Эталонная гистограмма фиксировалась как нормальное распределение состояний.

1.2. Текущий анализ и вычисление JS-дивергенции

Каждую минуту формировалось скользящее окно той же длины (60 мин), для которого строилась аналогичная гистограмма. Рассчитывалась JS-дивергенция между эталонным и текущим распределениями:

1.3. Классификация статусов

На основе значений JS-дивергенции и Z-оценок для вспомогательных метрик присваивался один из статусов:

NORMAL – JS < 0.05 (небольшие флуктуации);
WARNING – 0.05 ≤ JS < 0.10–0.20 (умеренное отклонение);
CRITICAL – JS ≥ 0.10–0.20 (значительное отклонение);
INCIDENT – период самого инцидента или восстановления после него (определялся по данным журнала инцидентов).

Период эксперимента – 24 часа (10 июля 2026 г.), всего зафиксировано 13 инцидентов различной длительности (от 9 до 91 минуты). В анализ включены также данные из таблиц prediction_log (прогнозы риска на основе цепи Маркова) и profile_comparison_log (результаты сравнения профилей), что позволило сопоставить два канала оценки.

2. Результаты эксперимента

2.1. Обнаружение и временное упреждение

Все 13 инцидентов были предварены статусом WARNING или CRITICAL (100% чувствительность). Среднее время от первого WARNING до начала инцидента составило ≈ 45 минут, от CRITICAL до инцидента – ≈ 35 минут. Максимальное упреждение зафиксировано для инцидента в 07:51 (WARNING за 142 минуты, CRITICAL – за 115 минут), минимальное – для инцидента в 13:40 (19 минут от WARNING, 4 минуты от CRITICAL). В табл. 1 приведены обобщённые показатели.

Таблица 1. Сводные показатели прогностической эффективности.

2.2. Динамика JS-дивергенции и статусов

На всех эпизодах наблюдался устойчивый рост JS-дивергенции за 1–2 часа до инцидента.

Границы соответствия:

JS 0.00–0.05 → NORMAL (до инцидента > 60 мин);
JS 0.05–0.10 → WARNING (30–60 мин);
JS 0.10–0.20 → WARNING (15–30 мин);
JS > 0.20 → CRITICAL (< 15 мин).

После завершения инцидента статус INCIDENT сохранялся на 60 минут (период восстановления), что объясняется инерционностью скользящего окна.

2.3. Сопоставление с прогнозами риска цепи Маркова

В ряде случаев (например, в 13:36) сравнение профилей присваивало статус CRITICAL (JS ≈ 0.118), тогда как марковский прогноз риска был равен нулю. Это указывает на то, что профильный метод фиксирует структурные изменения в распределении состояний, которые не отражаются в матрице переходов (вероятности смены состояний остаются номинальными). Таким образом, два метода дают взаимодополняющую информацию.

2.4. Оценка качества прогнозирования (по данным за 13–14 июля)

Для периода 13–14 июля был проведён количественный анализ прогнозов с известным исходом (горизонт – 10 минут, порог классификации 0.5):

Accuracy = 0.868;
Precision = 0.899;
Recall = 0.886.

Эти показатели подтверждают высокую надёжность гибридной модели: ложные срабатывания редки и кратковременны (единичные эпизоды WARNING без последующего инцидента длительностью несколько минут).

3. Обсуждение результатов

3.1. Новизна подхода

Предложенная методика не является простым применением JS-дивергенции. Её новизна заключается в интеграции двух независимых каналов диагностики:
(1) вероятностного – на основе цепей Маркова, оценивающего риск перехода в критическое состояние;
(2) структурного – на основе сравнения профилей, выявляющего аномальные паттерны распределения состояний, которые не сопровождаются изменением переходных вероятностей.

Такое сочетание позволяет различать постепенную деградацию (нарастание вероятности) и резкие сдвиги (структурные скачки), что принципиально важно для гетерогенных нагрузок.

3.2. Практическая ценность

Раннее упреждение (от 15 минут до 2 часов) даёт инженерам возможность провести профилактические действия (перезапуск пула соединений, корректировка планов запросов, масштабирование) до начала инцидента.
Высокая чувствительность (100% обнаружение) исключает пропуск событий.
Стабильность сигнала – статусы WARNING и CRITICAL удерживаются длительное время, что снижает вероятность ложных тревог и позволяет выстраивать автоматизированные сценарии реагирования.
Дополнительность к существующим средствам – метод может быть внедрён как надстройка над любым мониторингом, собирающим временные ряды метрик.

3.3. Ограничения и пути их преодоления

Инерционность периода восстановления – обусловлена фиксированной длиной окна (60 мин). Варьирование длины окна (до 30 мин) или введение адаптивного механизма сброса статуса после снижения JS ниже порога может сократить время ложного INCIDENT.
Кратковременные ложные предупреждения – требуют введения временнóй фильтрации (например, статус WARNING засчитывается только при удержании более 3–5 минут) и динамических порогов, учитывающих суточную цикличность.

4. Выводы и направления развития

Проведённое экспериментальное исследование подтверждает, что метод сравнения профилей производительности на основе JS-дивергенции, дополненный марковским прогнозированием, является высокоэффективным инструментом раннего обнаружения инцидентов СУБД PostgreSQL. Метод демонстрирует:

100% полноту обнаружения;
упреждение от 15 до 140 минут;
устойчивую корреляцию между ростом JS-дивергенции и приближением инцидента;
дополнительную ценность по сравнению с изолированным вероятностным прогнозом.

В качестве ближайших направлений развития предлагаются:

автоматическая калибровка эталонного окна на основе исторических данных (с учётом сезонности);
оптимизация длины скользящего окна для снижения инерционности;
внедрение комбинированного индекса (JS + риск) с адаптивным порогом;
экспериментальная проверка на более длительных выборках (несколько недель) для оценки устойчивости к изменениям схемы и объёма данных.

Разработанная методика может быть рекомендована к практическому внедрению в составе многофакторных систем раннего предупреждения для промышленных эксплуатационных сред.

Показать полностью 3

[моё] Контент нейросетей Postgresql Статья Исследования Длиннопост

kznalp

Postgres DBA

Аналитическая записка по результатам мониторинга производительности СУБД PostgreSQL за 13–14 июля 2026 г⁠⁠

Серия СУБД PostgreSQL

15 дней назад

Оригинал — на основном техническом канале (Возможны правки и дополнения).

Визуализация динамики производительности СУБД на основе марковской модели: цветовая пульсация отражает переходы между состояниями нагрузки, а вспышки сигнализируют о критических отклонениях, предшествующих инцидентам.

Профиль нагрузки в красках будущего.

1. Введение

Настоящий отчёт подготовлен на основе данных системы мониторинга производительности СУБД, построенной на базе цепи Маркова и профилирования нагрузки. Анализ охватывает период с 00:00 13.07.2026 по 00:00 14.07.2026 (сутки). Использованы следующие методы:

Прогнозирование риска – вычисление вероятности перехода в критическое состояние в течение заданного горизонта (на основе матрицы переходов и списка критических состояний).
Сравнение профилей – оценка отклонения текущего распределения состояний системы от эталонного безынцидентного профиля с помощью JS-дивергенции (метрика сходства гистограмм).
Классификация статусов – по значению JS-дивергенции и отклонению средней корреляции выделяются три уровня: NORMAL, WARNING, CRITICAL.

В отчёт включены: общая статистика прогнозов, распределение статусов сравнения профилей, связь с зафиксированными инцидентами, анализ временных интервалов и оценка трендов.

2. Общая характеристика прогнозов

За период было сформировано 439 прогнозов с известным исходом (т.е. для каждого известно, наступил ли инцидент в течение прогнозного горизонта). Среднее значение предсказанного риска составило 0.6173, что указывает на достаточно высокий уровень ожидаемой опасности в среднем по всем наблюдениям.

Качество прогнозов оценивалось при пороге классификации 0.5:

Accuracy (точность) – 0.8679 (высокая)
Precision (точность положительных прогнозов) – 0.8993 (высокая)
Recall (полнота) – 0.8860 (высокий)

Такие значения свидетельствуют о том, что модель надёжно выделяет ситуации, предшествующие инцидентам, и при этом редко даёт ложные тревоги. Высокий recall говорит о том, что большинство реальных инцидентов были заранее предсказаны.

3. Анализ сравнения профилей (статусы)

Для каждой минуты проводилось сравнение текущего профиля нагрузки с эталонным, в результате чего присваивался один из трёх статусов (без учёта записей, помеченных как INCIDENT):

NORMAL – 45 наблюдений (10.3%)
WARNING – 95 наблюдений (21.6%)
CRITICAL – 299 наблюдений (68.1%)

Таким образом, более двух третей времени система находилась в состоянии CRITICAL – значительного отклонения от эталонного профиля. Это указывает на систематическое изменение характера нагрузки, возможно, из-за высокой загрузки или изменения структуры запросов.

Средние значения JS-дивергенции по группам:

NORMAL: 0.0210 – профиль близок к эталону
WARNING: 0.1371 – заметные отклонения
CRITICAL: 0.2913 – сильное расхождение распределения состояний

Рост JS-дивергенции от NORMAL к CRITICAL закономерен, однако столь высокая доля CRITICAL свидетельствует о том, что эталонный профиль, вероятно, слишком узок или система действительно работает в нестандартных режимах большую часть времени. Это не обязательно означает аварийную ситуацию, но требует дополнительного анализа причин отклонений.

4. Связь с инцидентами

За сутки зафиксировано 19 инцидентов производительности. Анализ показал:

100% инцидентов предварялись статусом CRITICAL (ни одного инцидента не произошло после NORMAL или WARNING).
Временной интервал от момента присвоения статуса CRITICAL до начала инцидента:
минимум: 0.9 мин
максимум: 132.0 мин
среднее: 48.6 мин
медиана: 45.0 мин

Эти данные подтверждают, что статус CRITICAL является эффективным ранним индикатором надвигающегося инцидента. Среднее время упреждения (~45 минут) значительно превышает типичный горизонт прогноза (в текущей конфигурации – 10 минут), что объясняет, почему не все CRITICAL состояния сразу приводят к инциденту в рамках короткого прогноза. Это также указывает на возможность увеличения горизонта прогноза для более полного охвата событий.

Обращает на себя внимание диспропорция: 299 CRITICAL-состояний при всего 19 инцидентах. Это означает, что большинство CRITICAL-отклонений не заканчиваются инцидентом, по крайней мере, в течение наблюдаемого периода. Вероятно, часть отклонений связана с плановыми изменениями нагрузки, пиковыми, но не аварийными сценариями. Тем не менее, все реальные инциденты были предсказаны, что говорит о высокой чувствительности метода.

5. Оценка трендов

По данным за сутки:

Тренд JS-дивергенции – СТАБИЛЬНО (нет значимого роста или снижения).
Тренд среднего риска – СТАБИЛЬНО.

Отсутствие трендов означает, что за рассматриваемый период не наблюдалось систематического ухудшения или улучшения ситуации. Это позволяет предположить, что система работает в установившемся режиме с периодическими всплесками отклонений, которые не нарастают со временем.

6. Выводы

Модель прогнозирования демонстрирует высокое качество
Обоснование: Accuracy = 0.8679, Precision = 0.8993, Recall = 0.8860 – все метрики превышают 0.86, что свидетельствует о хорошей дискриминационной способности и сбалансированности между ложными тревогами и пропусками. Средний предсказанный риск (0.6173) значительно выше случайного (0.5), что говорит о наличии уверенных сигналов.
Статус CRITICAL является надёжным предвестником инцидента
Обоснование: Все 19 зафиксированных инцидентов произошли после присвоения статуса CRITICAL (100% покрытие). Ни один инцидент не случился после NORMAL или WARNING. Медианное время от CRITICAL до инцидента составляет 45 минут, что даёт достаточный запас для реагирования.
Доля CRITICAL-состояний чрезмерно высока (68%)
Обоснование: При 19 инцидентах на 299 CRITICAL-событий соотношение составляет ~1:15. Это означает, что подавляющее большинство CRITICAL-отклонений не приводят к аварийным ситуациям. При этом средняя JS-дивергенция в группе CRITICAL (0.2913) значительно выше порогов, но не является критической (максимальное значение не указано, но если бы оно было близко к 1, то ситуация была бы иной). Следовательно, текущие пороги классификации занижены, что приводит к избыточному числу предупреждений.
Временной запас до инцидента достаточен для упреждающих действий
Обоснование: Разброс времени от CRITICAL до инцидента – от 0.9 до 132 минут, среднее 48.6, медиана 45. Это значительно превышает используемый горизонт прогноза (10 минут). Таким образом, существует возможность увеличить горизонт, чтобы лучше согласовать прогноз с реальным временем развития событий.
Отсутствие трендов указывает на стабильность режима работы
Обоснование: Тренды как JS-дивергенции, так и среднего риска оценены как СТАБИЛЬНО. Это означает, что за сутки не выявлено направленного дрейфа метрик – система не деградирует и не восстанавливается, а находится в квазистационарном состоянии с повторяющимися эпизодами отклонений. Отсутствие тренда также подтверждает, что выявленные CRITICAL-отклонения не являются следствием нарастающей проблемы, а скорее отражают циклические или стохастические колебания нагрузки.

Дата составления: 14.07.2026
Ответственный: Группа анализа производительности

Показать полностью 1

[моё] Контент нейросетей DeepSeek Postgresql Тестирование Длиннопост

kznalp

Postgres DBA

Практическое применение методики прогнозирования инцидента производительности СУБД PostgreSQL⁠⁠

15 дней назад

Оригинал — на основном техническом канале (Возможны правки и дополнения).

Иллюстрация применения метода сравнения профилей производительности СУБД PostgreSQL , с использованием цепи Маркова, на продуктивной СУБД PostgreSQL.

Подробное описание метода:

О применении метода сравнения профилей производительности для прогнозирования инцидентов СУБД PostgreSQL

Упрощенный вариант :

Как за 2 часа предсказать инцидент производительности СУБД PostgreSQL

Панель Zabbix для продуктивной СУБД PostgreSQL

Практическое применение методики прогнозирования инцидента производительности СУБД PostgreSQL

Рис.1 Практический результат предварительного оповещения о инциденте производительности продуктивной СУБД PostgreSQL.

Методология сравнения:

Эталонное окно – безинцидентный интервал длительностью 60 минут.

Текущее окно – скользящее окно длительностью 60 минут.

Статусы определяются на основе JS-дивергенции и отклонений Z-оценок:

NORMAL – JS < 0.05 (или небольшое отклонение)
WARNING – 0.05 ≤ JS < 0.1–0.2 (умеренное отклонение)
CRITICAL – JS ≥ 0.1–0.2 (значительное отклонение)
INCIDENT – система находится внутри инцидента или в периоде восстановления

О применении метода сравнения профилей производительности для прогнозирования инцидентов СУБД PostgreSQL

P.S. Конечно , рано еще строить оптимистические планы на будущее .
Нужно проверять, тестировать и анализировать. Но факт , есть факт - есть первые результаты .

Показать полностью 1

[моё] Postgresql Статья Исследования Тестирование

Посты не найдены

1 2 3 4 5 6 7 8 9 10 11 20 30 40 50

Критерии production-ready VPS

Безопасность и резервирование

Мониторинг и автоматизация

Чек-лист: production-готовность VPS

В чём реальная разница между VPS и VDS?

Почему изоляция ресурсов критична

Сценарии, где разница решает

Чек-лист: как проверить изоляцию у провайдера

Почему синтетических бенчмарков недостаточно

CPU steal: как увидеть ожидание CPU на гипервизоре

Практические ориентиры по значениям steal:

Как интерпретировать steal в разных сценариях

Диск: IOPS, latency и поведение под смешанной нагрузкой

нагрузкой

Ориентиры для БД и веб-приложений

Сеть: полоса, PPS, latency и потери

Частые проблемы сети в облаке

Чек-лист проверки облачного сервера перед production

Постановка задачи

Формализация состояния системы

Архитектура системы

Слой данных

Слой обучения

Слой прогнозирования

Слой оценки

Обучение модели и адаптивное забывание

Прогнозирование риска

Оценка качества и достоверности

Профилирование нагрузки (версия 14)

Историческое обучение

Заключение

Ключевые преимущества системы:

Начало

Текущий статус эксперимента

Случай-1 : Инцидент

Случай-2 : Инцидент

Случай-3 : Нет инцидента

Случай-4 : Инцидент

Гипотеза

Аннотация.

Введение

1. Методология и постановка эксперимента

1.1. Формирование эталонного профиля

1.2. Текущий анализ и вычисление JS-дивергенции

1.3. Классификация статусов

2. Результаты эксперимента

2.1. Обнаружение и временное упреждение

2.2. Динамика JS-дивергенции и статусов

2.3. Сопоставление с прогнозами риска цепи Маркова

2.4. Оценка качества прогнозирования (по данным за 13–14 июля)

3. Обсуждение результатов

3.1. Новизна подхода

3.2. Практическая ценность

3.3. Ограничения и пути их преодоления

4. Выводы и направления развития

1. Введение

2. Общая характеристика прогнозов

3. Анализ сравнения профилей (статусы)

4. Связь с инцидентами

5. Оценка трендов

6. Выводы

Подробное описание метода:

Упрощенный вариант :

Панель Zabbix для продуктивной СУБД PostgreSQL

Методология сравнения:

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества