Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Играйте в Длинные и Короткие нарды онлайн! Наслаждайтесь классической настольной игрой с простыми правилами и захватывающей стратегией. Бросайте кубики, перемещайте шашки и обыгрывайте своего соперника. Играйте прямо сейчас бесплатно!

Нарды Длинные и Короткие онлайн

Настольные, Для двоих, Пошаговая

Играть

Топ прошлой недели

  • solenakrivetka solenakrivetka 7 постов
  • Animalrescueed Animalrescueed 53 поста
  • ia.panorama ia.panorama 12 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
0 просмотренных постов скрыто
5
Liugger

Что я узнал проработав аналитиком (данных) 5 лет⁠⁠

8 месяцев назад
  1. Такие понятия как "много/мало", "хорошо/плохо", "быстро/медленно" весьма относительны, но могут быть выражены через квантили

  2. В повседневной жизни люди путают "среднее" и "моду" (Показателен вопрос предпринимателю "сколько у тебя в среднем клиентов в день?")

  3. Математика везде, куда не плюнь, все можно описать с помощью математики

  4. Статистика везде, когда мы говорим о массовых вещах: продажи, выборы, потребление кофе в офисе

  5. Зная статистику, не становишься спецом во всех областях, где ее нужно применить. Отлично понимая как обманывают с помощью статистики, все равно легко быть обманутым, не зная предметной области.

  6. Люди мыслят "малыми выборками" (есть пара примеров подтверждающих тезис и люди видят только их, а еще пару миллионов не подтверждающих/опровергающих - не видят), даже твои коллеги, даже ты сам. Надо делать небольшое усилие, чтобы отвергнуть аргументы на базе малых выборок.

  7. Хочешь быть крутым спецом - учи математику. Хочешь найти работу - учи фреймворки, библиотеки

  8. Если ты когда-то что-то выучил, но не используешь - ты это забудешь. Даже если те знания были фундаментом для того, чтобы используешь в работе постоянно.

  9. Всегда есть коллега умнее и профессиональнее

  10. То что в универе было семестровым заданием или курсачом - это твои ежедневные рабочие задачи, благо не надо лить воды.

  11. Как ты решал задачу интересно только линейным коллегам и на конференциях.

  12. Иногда можно потратить месяц на решение задачи: искать/изучать статьи, придумывать эвристики, тратить десяток компьютерных часов на вычисление показателей - а результат никуда не пойдет.

  13. Все хитровымудренные современные модели - не магия, а математика и смекалка.

  14. Большинство хитрых показателей, скоров, моделей содержит в себе математику уровня до 10 класса (помножить, поделить, возвести в степень, взять логарифм и все это под синус). Считать такое не сложно, сложно понимать почему именно так. Иногда выходит так, что чтобы придти к некой простой формуле потребовался неслабый вышмат в промежуточных шагах.

Показать полностью
[моё] Волна постов Работа Математика Анализ данных Опыт работы Текст
8
kznalp
kznalp
Postgres DBA
Серия СУБД PostgreSQL

Корреляционный анализ ожиданий для сценариев нагрузочного тестирования СУБД PostgreSQL⁠⁠

9 месяцев назад

Взято с основного технического канала Postgres DBA

Анализировать и сравнивать можно только вычисляемые сущности.

Анализировать и сравнивать можно только вычисляемые сущности.

Постановка задачи

Установить характерные признаки ожиданий и результаты корреляционного анализа в зависимости от сценариев нагрузочного тестирования .

Database-1

База данных для сбора статистической информации производительности .

Database-2

Тестовая база данных для проведения нагрузочного тестирования .

Нагрузка создается пользовательским сценарием pgbench.

Рост количества подключений pgbench - экспоненциально от 6 до 111.

Сценарии нагрузочного тестирования и результаты экспериментов

Сценарий 1 - "Select Only"

Только читающая нагрузка на тестовую БД .

Сценарий 2 - "Insert Only"

Только пишущая нагрузка на тестовую БД .

Сценарий 3 - "OLTP"

Имитация теста TPC-B . Нагрузка "SELECT + UPDATE" в тестовой БД .

Характерные признаки сценариев нагрузочного тестирования

Сценарий 1 - "Select Only"

Сценарий характеризуется

1. Cильной корреляцией с событиями ожидания:

  • LWLock/LockManager: Ожидание при чтении или изменении информации о «тяжёлых» блокировках.

  • LWLock/ProcArray: Ожидание при обращении к общим структурам данных в рамках процесса (например, при получении снимка или чтении идентификатора транзакции в сеансе).

2. Очень низким относительной долей ожиданий: менее 1%

Сценарий 2 - "Insert Only"

Сценарий характеризуется

1. Очень сильной корреляцией с событиями ожидания:

  • MultiXactOffsetSLRU: Ожидание при обращении к SLRU-кешу данных о смещениях мультитранзакций.

2. Не высокой относительной долей ожиданий: 17-35%

Сценарий 3 - "OLTP"

Сценарий характеризуется

1. Очень сильной корреляцией с событиями ожидания:

  • Lock / transactionid: Ожидание завершения транзакции.

  • Lock / tuple: Ожидание при запросе блокировки для кортежа.

2. Высокой относительной долей ожиданий: 62-95%.

Показать полностью
[моё] Субд Postgresql Исследования Производительность Корреляция Анализ данных
0
kznalp
kznalp
Серия IMHO

Да уж - Ганди умер , поговорить не с кем ...⁠⁠

9 месяцев назад

В продолжении темы - DBA не любят математику

Сегодня первые практические результаты долгой работы . Просто стало интересно, а что есть по теме в гугле в Рунете?
И выяснилось , что если погуглить "корреляционный анализ производительности СУБД PostgreSQL" , то в выдаче, кроме моих статей ничего и нет .

Получается - тема никому, кроме меня не интересна 😯. А ведь, тема интересная .
Жаль, конечно , с одной стороны - и поговорить, обсудить не с кем🫤.
Но, с другой стороны - получается приоритет в исследовании , чтоли 🤔.

Ладно, как говорится - делай, что должен и будь, что будет.

Товарищ , нервы сожми в узду!
Взялся за дело - не охай.
Есть результат - посылай всех в п*зду!
Нет результата - пох*й!

Показать полностью 3
[моё] Субд Postgresql Анализ данных Корреляция ИМХО Длиннопост
4
kznalp
kznalp
Postgres DBA
Серия СУБД PostgreSQL

Анализ результатов нагрузочного тестирования СУБД PostgreSQL с использованием разных сценариев оперативно-тактического комплекса "PG_HAZEL"⁠⁠

9 месяцев назад
А теперь начинается самое интересно - анализ и поиск закономерностей

А теперь начинается самое интересно - анализ и поиск закономерностей

Выполненные сценарии нагрузочного тестирования

"OLTP"- нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

"SELECT ONLY" - нагрузочное тестирование СУБД PostgreSQL использованием оперативно-тактического комплекса "PG_HAZEL".

"INSERT ONLY" - нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

"HEAVYWEIGHT" - нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

Результаты нагрузочного тестирования

График операционной скорости СУБД за период

Короткий период медианного сглаживания - синий график.

Долгий период медианного сглаживания - красный график.

Ось X - точка наблюдения. Ось Y - значение операционной скорости.

"OLTP"- нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

"SELECT ONLY" - нагрузочное тестирование СУБД PostgreSQL использованием оперативно-тактического комплекса "PG_HAZEL".

"INSERT ONLY" - нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

"HEAVYWEIGHT" - нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического9 комплекса "PG_HAZEL".

Ключевой момент

  1. Значения операционной скорости после определенного роста нагрузки для сценариев "INSERT ONLY" / "HEAVYWEIGHT".

Корреляция между операционной скоростью и количество сессий в состоянии 'active'

Ось X - точка наблюдения. Ось Y - коэффициент корреляции .

"OLTP"- нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

"SELECT ONLY" - нагрузочное тестирование СУБД PostgreSQL использованием оперативно-тактического комплекса "PG_HAZEL".

"INSERT ONLY" - нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

"HEAVYWEIGHT" - нагрузочное тестирование СУБД PostgreSQL с использованием оперативно-тактического комплекса "PG_HAZEL".

Ключевой момент

  1. График скользящей корреляции для сценариев "SELECT ONLY" / "INSERT ONLY" очень похожи.

  2. График скользящей корреляции для сценария "HEAVYWEIGHT" в противо фазе с графиками "SELECT ONLY" / "INSERT ONLY" после определенной нагрузки.

Показать полностью 9
[моё] Субд Postgresql Производительность Мониторинг Анализ данных Корреляция Длиннопост
1
kznalp
kznalp
Postgres DBA
Серия СУБД PostgreSQL

Сценарий "INSERT ONLY" - корреляционный анализ производительности СУБД с использованием оперативно-тактического комплекса "PG_HAZEL"⁠⁠

9 месяцев назад

Постановка задачи

Анализ и определение причины деградации производительности СУБД за заданный период .

Сценарий нагрузки "INSERT ONLY".

Общее описание схемы и метрик производительности

PG_HAZEL - оперативно-тактический комплекс мониторинга производительности СУБД PostgreSQL .

Анализ метрик производительности СУБД.

График операционной скорости СУБД за период

Короткий период медианного сглаживания - синий график.

Долгий период медианного сглаживания - красный график.

Ось X - точка наблюдения. Ось Y - значение операционной скорости

Ось X - точка наблюдения. Ось Y - значение операционной скорости

Отличительная особенность сценария "INSERT ONLY" - резкий скачок операционной скорости. Скорее всего причина - изменение нагрузки на СХД виртуальной машины.

Сессии в состоянии 'active'

Ось X - точка наблюдения. Ось Y - количество активных сессий на точку времени.

Ось X - точка наблюдения. Ось Y - количество активных сессий на точку времени.

Корреляция между операционной скоростью и количество сессий в состоянии 'active'

График скользящей корреляции.

Ось X - точка наблюдения. Ось Y - значение коэффициента корреляции.

Ось X - точка наблюдения. Ось Y - значение коэффициента корреляции.

Обращает на себя внимание факт непостоянного значения скользящей корреляции, близкой к косинусоиде.

График практически повторяет график скользящей корреляции для сценария "SELECT ONLY"

Сценарий "SELECT ONLY". Ось X - точка наблюдения. Ось Y - значение коэффициента корреляции.

Сценарий "SELECT ONLY". Ось X - точка наблюдения. Ось Y - значение коэффициента корреляции.

Коэффициент корреляции между операционной скоростью и количеством активных сессий за период наблюдений = 0,868388508671336 .

Сильная положительная корреляция между операционной скоростью и нагрузкой на СУБД .

Корреляционный анализ ожиданий СУБД

Гипотеза

Для определения SQL запроса оказывающего наибольшее влияние необходимо определить запрос с наибольшим значением коэффициента корреляции между ожиданиями СУБД и ожиданиями по SQL запросу.

Чуть подробнее

Результат корреляционного анализа

Нет деградации производительности СУБД за период проведения теста .

Нет деградации производительности СУБД за период проведения теста .

Итог

  1. Количество ожиданий СУБД - не является признаком деградации производительности СУБД

  2. Для сценарий "INSERT ONLY" текущая нагрузка далека от предельной.

Показать полностью 6
[моё] Субд Postgresql Производительность Корреляция Мониторинг Анализ данных Длиннопост
0
2
Ratingus
Ratingus

Бесплатные нейросети для анализа данных в 2025 году⁠⁠

9 месяцев назад

В этой статье мы рассмотрим лучшие бесплатные нейросети, которые помогут анализировать данные быстро и эффективно. Узнаем, какие из них справляются с визуализацией, обработкой текстов, предсказательной аналитикой и автоматизированными отчетами. Если вы хотите сэкономить время и усилить свою работу за счет ИИ — эта подборка для вас!

Современные нейросети делают анализ данных доступным даже для тех, кто не обладает глубокими знаниями в программировании и статистике. В 2025 году бесплатные инструменты на базе искусственного интеллекта способны не только обрабатывать большие массивы информации, но и находить в них скрытые закономерности, предсказывать тренды и упрощать работу аналитиков. 🚀


🏆 1. GPTChats. https://gpt-chats.io/

2. ruGPT. https://rugpt.io/

3. Кампус AI. https://kampus.ai/

4. GPT-tools. https://gpt-tools.ru/

5. MitupAI. https://ai.mitup.ru/


🏆 1. GPTChats

GPT-Chats io — это бесплатная нейросеть на русском языке, разработанная для создания и редактирования текстов, генерации изображений, написания и исправления кода и других функций. Этот универсальный инструмент помогает пользователям автоматизировать рутинные задачи, создавать оригинальный контент и адаптировать его под любые нужды.

🔔 Особенности:

  • Генерация текстов — создание статей, сочинений, описаний, рекламных материалов и SEO-контента.

  • Исправление и улучшение текстов — повышение уникальности, редактирование и адаптация под различные форматы.

  • Создание изображений и видео — генерация визуального контента на основе текстового запроса.

  • Написание и исправление кода — автоматизация программирования и оптимизация работы разработчиков.

  • Образовательная поддержка — решение тестов, подготовка рефератов и поиск информации в один клик.

  • Создание контента для соцсетей — анализ предыдущих публикаций и генерация новых текстов, оптимизированных для привлечения внимания аудитории.

  • Гибкая система тарифов — пользователи могут выбрать бесплатный доступ, оплату по количеству символов или оформить подписку с дополнительными возможностями.

  • Профессиональная поддержка — расширенные тарифные планы включают доступ к продвинутым моделям и техническую поддержку для решения сложных задач.

✅ Преимущества:

  • Простота использования — интуитивный интерфейс, который подходит для всех пользователей.

  • Широкий функционал — возможности охватывают текст, изображения, код и многое другое.

  • Экономия времени — автоматизация позволяет быстро получать готовые решения.

  • Доступность — все основные функции бесплатны, а премиум-возможности расширяют границы возможностей.

  • Качество контента — генерация текстов и изображений с высокой степенью оригинальности и адаптации.

💡 Дополнительные возможности:

  • Расширенная генерация — кроме текстов и изображений, доступно создание видео, программного кода и математических решений.

  • Оптимизация контента — перефразирование, исправление ошибок, анализ стиля и повышение оригинальности текста.

  • Гибкая настройка — возможность выбора тона, структуры, длины текста и других параметров для адаптации под нужный формат.

  • Многозадачность — генерация рекламных материалов, аналитики, обучающих статей, постов для соцсетей и технической документации.

Подробнее


2. ruGPT

ruGPT — это современный онлайн-сервис, основанный на передовых алгоритмах искусственного интеллекта. Он предназначен для генерации текстов, написания и исправления кода, решения учебных задач и автоматизации множества рутинных процессов. Благодаря широкому функционалу пользователи могут быстро создавать уникальный контент, редактировать тексты, решать математические примеры, генерировать изображения, а также оформлять рефераты, сочинения и другие академические работы.

🔔 Особенности:

  • Многофункциональность — генерация текстов, программного кода, математических решений, а также анализ и структурирование информации для различных сфер.

  • Помощь в учебе — сервис поддерживает написание рефератов, курсовых и дипломных работ, а также помогает подготовиться к экзаменам и выполнить домашние задания.

  • Редактирование и улучшение текстов — корректировка стиля, повышение уникальности, предложение альтернативных формулировок и идей.

  • Создание контента для соцсетей — анализ предыдущих публикаций и генерация новых текстов, оптимизированных для привлечения внимания аудитории.

  • Гибкая система тарифов — пользователи могут выбрать бесплатный доступ, оплату по количеству символов или оформить подписку с дополнительными возможностями.

  • Профессиональная поддержка — расширенные тарифные планы включают доступ к продвинутым моделям и техническую поддержку для решения сложных задач.

✅ Преимущества:

  • Бесплатный доступ — сервис доступен без оплаты, с возможностью использования ограниченного количества запросов.

  • Работа без VPN — пользователи могут легко пользоваться платформой без дополнительных настроек, что делает сервис максимально удобным.

  • Высокая скорость работы — мгновенная обработка запросов позволяет получать результаты практически в реальном времени.

  • Экономия времени — готовые шаблоны и автоматизация задач помогают пользователям значительно ускорить выполнение работы.

💡 Дополнительные возможности:

  • Создание контента для соцсетей — анализ предыдущих публикаций, генерация текстов, адаптированных для привлечения аудитории.

  • Быстрое получение ответов — мгновенная обработка запросов, экономия времени благодаря автоматизации задач.

  • Полная поддержка на русском языке — удобное взаимодействие без языковых барьеров.

Подробнее


3. Кампус AI

Кампус AI — это интеллектуальная платформа, разработанная для студентов, исследователей и преподавателей, стремящихся эффективно применять ИИ в образовательной деятельности. Сервис упрощает генерацию названий для научных и учебных работ, а также помогает в подготовке к их защите.

🔔 Особенности:

  • Уникальная нейросеть для автоматической генерации названий, учитывающая академические требования.

  • Интеграция с Telegram-ботом, позволяющая мгновенно получать предложения названий.

  • Набор инструментов на основе ИИ для студентов по всему миру.

  • Обширная база знаний с миллионами учебных материалов, включая Википедию и специализированные статьи.

✅ Преимущества:

  • Компетентная поддержка профессионалов, помогающая с выбором тематики и подготовкой к защите.

  • Доступные тарифы с высоким качеством результатов.

  • Экономия времени на поиск и подбор названий.

Подробнее


4. GPT-tools

GPT-tools — это мощная платформа на основе GPT, созданная для быстрого и удобного написания текстов. Она позволяет пользователям мгновенно генерировать качественный контент, упрощая процессы нейминга, копирайтинга и контент-маркетинга.

🔔 Особенности:

  • Интеллектуальный чат, позволяющий создавать тексты в реальном времени.

  • Большая библиотека промтов, упрощающая генерацию контента.

  • Возможность использовать сервис без регистрации (1500 символов) и получить дополнительные 1500 символов после регистрации.

  • Удобный и интуитивно понятный интерфейс, доступный даже для новичков.

✅ Преимущества:

  • Быстрое и легкое создание текстов без сложных настроек.

  • Бесплатные лимиты, позволяющие протестировать сервис перед покупкой.

  • Гибкость в работе с контентом: генерация названий, описаний, статей и других текстов.

  • Доступность без использования VPN, что делает работу удобной для пользователей из РФ.

Подробнее


5. MitupAI

MitupAI — инновационная платформа для автоматизированной генерации текстов, созданная для бизнеса, маркетинга и электронной коммерции. Сервис помогает быстро и эффективно создавать SEO-оптимизированный контент, экономя время и ресурсы.

🔔 Особенности:

  • Автоматическая генерация SEO-текстов для сайтов и интернет-магазинов.

  • Полное отсутствие ограничений по количеству символов и слов в запросах.

  • Продвинутые алгоритмы ИИ, обеспечивающие уникальность и высокое качество текстов.

  • Поддержка многопоточной обработки, позволяющая работать с крупными проектами.

✅ Преимущества:

  • Высокая скорость создания текстов при сохранении качества.

  • Неограниченное число запросов без лимитов на символы.

  • Доступность сервиса для пользователей из России без VPN.

  • Идеальное решение для бизнеса, интернет-магазинов и маркетинговых команд.

Подробнее


Развитие искусственного интеллекта в 2025 году открывает новые горизонты в анализе данных, упрощая сложные процессы для бизнеса, науки и различных отраслей. Современные нейросети способны работать с огромными объемами информации, выявлять закономерности, прогнозировать тренды и автоматизировать задачи, которые раньше требовали значительных ресурсов.

🔹 Ключевые возможности и применение

Современные нейросети позволяют:

  • Анализировать большие массивы данных – ускоряя обработку информации и снижая вероятность ошибок.

  • Прогнозировать будущие события – помогая компаниям, медицинским учреждениям и финансовым организациям принимать взвешенные решения.

  • Выявлять аномалии и потенциальные риски – что особенно важно в сфере безопасности, киберзащиты и контроля качества.

  • Автоматизировать аналитические процессы – избавляя специалистов от рутинных задач и повышая точность результатов.

Эти возможности делают нейросети незаменимыми в финансах, медицине, промышленности, маркетинге, логистике, транспорте, науке и других сферах.

📌 Перспективы развития технологий

В ближайшие годы можно ожидать значительных изменений в области AI-аналитики:

  • Улучшенная адаптивность и персонализация – алгоритмы станут точнее и смогут адаптироваться к конкретным задачам.

  • Повышенная скорость обработки данных – рост вычислительных мощностей обеспечит анализ информации в реальном времени.

  • Глубокая интеграция в бизнес-процессы – AI станет не просто инструментом, а ключевым элементом стратегического управления.

  • Фокус на прозрачность решений – улучшенная интерпретируемость выводов нейросетей повысит доверие к их результатам.

  • Развитие мультифункциональных моделей – появятся ИИ-системы, которые смогут одновременно анализировать текст, цифры, изображения и аудио.

Заключение

Нейросети для анализа данных продолжают развиваться, предлагая новые инструменты для прогнозирования, обработки и автоматизации. Их использование помогает компаниям и исследовательским центрам работать с информацией более эффективно. Однако AI – это не замена специалистам, а их мощный помощник в принятии решений.

В ближайшие годы сфера аналитических нейросетей сделает еще один скачок вперед, и те, кто внедрит эти технологии уже сейчас, получат значительное конкурентное преимущество.

Показать полностью 6
Рейтинг Искусственный интеллект Анализ данных Длиннопост
2
kznalp
kznalp
Postgres DBA
Серия СУБД PostgreSQL

Корреляционный анализ производительности СУБД с использованием оперативно-тактического комплекса "PG_HAZEL"⁠⁠

9 месяцев назад

Постановка задачи

Анализ и определение причины деградации производительности СУБД за заданный период.

Общее описание схемы и метрик производительности

PG_HAZEL - оперативно-тактический комплекс мониторинга производительности СУБД PostgreSQL .

Анализ метрик производительности СУБД.

График операционной скорости СУБД за период

Короткий период медианного сглаживания - синий график.

Долгий период медианного сглаживания - красный график.

Ось X - точка наблюдения. Ось Y - значение операционной скорости

Ось X - точка наблюдения. Ось Y - значение операционной скорости

Как видно из графика - имеется краткосрочная и долгосрочная тенденция снижения производительности СУБД.

Сессии в состоянии 'active'

Ось X - точка наблюдения. Ось Y - количество активных сессий на точку времени.

Ось X - точка наблюдения. Ось Y - количество активных сессий на точку времени.

Корреляция между операционной скоростью и количество сессий в состоянии 'active'

График скользящей корреляции.

Ось X - точка наблюдения. Ось Y - значение коэфициента корреляции.

Ось X - точка наблюдения. Ось Y - значение коэфициента корреляции.

Коэффициент корреляции между операционной скоростью и количеством активных сессий за период наблюдений = -0,993357128393598 .

Ключевые точки наблюдения.

  • 1-19 : коэфaициент близок к 1

  • 23 - отрицательное значение коэффициента корреляции

  • 80 - значение коэффициента корреляции уменьшается(растет по модулю)

Общая интерпретация значений коэффициента корреляции :

  • Очень слабая корреляция: [0 до 0.2]

  • Слабая корреляция: (0.2 до 0.5].

  • ️Средняя корреляция: (0.5 до 0.7] .

  • ️Сильная корреляция: (0.7 до 0.9].

  • ️Очень сильная корреляция: (0.9 до 1].

Результат корреляционного анализа операционной скорости и активными сессиями :

  1. После точки наблюдения 23 - СУБД работает в нештатном режиме.

  2. Очень сильная корреляция между нагрузкой на СУБД и операционной скоростью СУБД.

Ожидания СУБД

Отношение времени ожидания к общему времени работы СУБД

Ось X - точка наблюдения. Ось Y - % ожиданий

Ось X - точка наблюдения. Ось Y - % ожиданий

  1. Начиная с точки 60 - относительная доля ожиданий резко увеличивается. СУБД работает в нештатном режиме.

Корреляционный анализ ожиданий СУБД

Гипотеза

Для определения SQL запроса оказывающего наибольшее влияние необходимо определить запрос с наибольшим значением коэффициента корреляции между ожиданиями СУБД и ожиданиями по SQL запросу.

Результат корреляционного анализа

Результат работы сервисного скрипта

Результат работы сервисного скрипта

Наибольшее влияние на снижение производительности СУБД оказывает SQL запрос: queryid = -3703375232510669542 .

Шаги корреляционного анализа

1. Корреляция между операционной скоростью и определенными типом ожиданиям

  1. Lock = -0,991080979500333

  2. LWLock = -0,952840750047627

  3. IPC = -0,00747093318897355

  4. BufferPin = 0

  5. Extension = 0

  6. IO = 0

Ожидания типа Lock имеет большую корреляцию по сравнению с ожиданиями типа LWLock.

Ожидания типа Lock

Ось X - точка наблюдения. Ось Y - количество ожиданий типа Lock

Ось X - точка наблюдения. Ось Y - количество ожиданий типа Lock

Ожидания типа LWLock

Ось X - точка наблюдения. Ось Y - количество ожиданий типа LWLock

Ось X - точка наблюдения. Ось Y - количество ожиданий типа LWLock

2.Корреляция между типом ожидания Lock и событиями ожиданий

  1. transactionid = 0,999996784494388

  2. tuple = 0,989898319693633

  3. relation = 0,884541891919045

Ожидания transactionid

Ось X - точка наблюдения. Ось Y - количество ожиданий transactionid

Ось X - точка наблюдения. Ось Y - количество ожиданий transactionid

Ожидания tuple

Ось X - точка наблюдения. Ось Y - количество ожиданий tuple

Ось X - точка наблюдения. Ось Y - количество ожиданий tuple

3. Корреляция между ожиданиями transactionid и SQL запросами

queryid = -3703375232510669542

Ось Y - количество ожиданий Lock/tuple для queryid =-3703375232510669542

Ось Y - количество ожиданий Lock/tuple для queryid =-3703375232510669542

Итоги

Гипотеза подтверждена экспериментально для данного сценария нагрузки.

Необходимо продолжение проведение экспериментов по корреляционному анализу :

  1. Дополнительные сценарии нагрузочного тестирования .

  2. Анализ метрик производительности при продуктивной нагрузке на СУБД.

Показать полностью 10
[моё] Postgresql Субд Мониторинг Производительность Анализ данных Корреляция Длиннопост
0
6
ProudAnalyzethis
ProudAnalyzethis

Основные инструменты для парсинга PDF⁠⁠

9 месяцев назад

Сегодня я хочу поделиться своим взглядом на то, какие инструменты для парсинга PDF-файлов можно использовать для работы с научными статьями, и какие из них, на мой взгляд, показывают наилучшие результаты.

Основные инструменты для парсинга PDF академических работ

1. GROBID-GROBID (GeneRation Of BIbliographic Data) — это один из самых популярных инструментов, специально разработанный для извлечения метаданных, библиографических данных, а также структурной информации из академических PDF-документов.

Разработан с учетом специфики научных публикаций, что позволяет извлекать такие элементы, как заголовки, имена авторов, аннотации, библиографические ссылки и многое другое.
Использует современные алгоритмы, что повышает точность извлечения данных даже из сложных документов.
Имеется активное сообщество пользователей, регулярно обновляется и интегрируется с другими научными инструментами.


- Может требовать определенных вычислительных ресурсов для установки и настройки.
- Настройка может быть сложной для пользователей без технического опыта.

2. Science Parse — еще один инструмент, который применяется для извлечения структурированных данных из академических PDF-файлов. Он также ориентирован на извлечение метаданных и текста научных публикаций.

Способен автоматически извлекать основные разделы документа без дополнительной настройки.
Часто работает быстрее в сравнении с некоторыми альтернативами.

- Может уступать GROBID по уровню детализации извлекаемой информации.
- Поддержка и обновления инструмента иногда бывают нерегулярными.

3. CERMINE— это инструмент, основанный на методах машинного обучения, предназначенный для извлечения структурированных данных из PDF-документов, включая научные статьи.


Хорошо работает с различными форматами PDF и способна извлекать широкий спектр информации.
Позволяет модифицировать и адаптировать инструмент под конкретные задачи.

- Может потребовать дополнительных настроек для достижения оптимальной точности.
- Иногда результаты извлечения нуждаются в доработке вручную.

1. Определите свои цели:
Если вам необходимо извлекать глубокие библиографические данные и метаданные для научных исследований, я рекомендую начать с GROBID. Его специализированные модели и активное сообщество делают его лучшим выбором для академических задач.

2. Попробуйте запустить несколько инструментов на одном и том же наборе PDF-документов. Это позволит оценить, какой парсер лучше справляется с вашими документами с точки зрения точности и полноты извлечения данных.

3. Некоторые инструменты требуют более сложной установки и настройки. Если вы работаете в команде или в условиях ограниченных вычислительных ресурсов, возможно, стоит обратить внимание на те решения, которые проще в интеграции, например, Science Parse.

4. Независимо от выбранного инструмента, важно продумать, как парсер впишется в ваш общий рабочий процесс. Использование таких платформ, как Jupyter Notebooks или интеграция с системами автоматизации ETL, поможет автоматизировать анализ данных и ускорить обработку научной информации.

Выбор PDF-парсера для академических статей зависит от ваших конкретных потребностей: если вам требуется максимально глубокий анализ и извлечение метаданных, я бы советовала обратить внимание на GROBID. Однако, если важна скорость и простота интеграции, стоит рассмотреть Science Parse или CERMINE. Каждый из этих инструментов имеет свои сильные стороны, и правильное решение часто приходит через тестирование и адаптацию под конкретный рабочий процесс.

А какие инструменты вы уже использовали или планируете попробовать для работы с академическими PDF? Делитесь своим опытом и мнениями в комментариях!

Основные инструменты для парсинга PDF
Показать полностью 1
[моё] Кросспостинг Pikabu Publish Bot Парсинг Извлечение Анализ Анализ данных Полезное Длиннопост
0
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии