Таблицы Excel: истории из жизни, советы, новости, юмор и картинки — Горячее, страница 3

16 дней назад

Таблицы в базах данных: где чаще всего "горит"⁠⁠

Когда мы слышим слова таблица, то сразу идет ассоциация со строками и столбцами. Но в базе данных - это не просто строки и столбцы, это мини вселенная со своими правилами и требованиями.

В своем канале На связи: SQL я рассказываю об особенностях языка SQL. Разбираю аналитические запросы и подходы работы с данными. Канал создала недавно с нулем подписчиков, но там уже есть интересная информация для работы аналитиков. Подписывайся!

Таблицы в базах данных: где чаще всего "горит" Моральная поддержка, Мотивация, SQL, Аналитик, Аналитика, Анализ данных, База данных, Самообразование, Смена профессии, Смена работы, Данные, Microsoft Excel, Длиннопост

И для формирования таблиц в БД есть свои требования, нюансы и особенности.

Очень часто аналитики сталкиваются со следующими проблемами при работе с данными:

Слишком много столбцов

Иногда пытаются «запихнуть всё» в одну таблицу. Получается «широкая простыня» с сотнями колонок.
Такой подход приводит к тому, что становится неудобно работать, запросы тормозят, а половина столбцов вообще пустая.

В этом случае необходимо прибегать к нормализации данных — разносить данные по отдельным связанным таблицам.

Грубо говоря, нормализация - это способ организации данных. Что именно хранится, где именно хранится и как все, что хранится, связано между собой.

Дублирование данных

В таблице могут храниться одни и те же данные по 100 раз (например, имя клиента в каждом заказе).

Это приводит к сложности обновления — изменил телефон в одном месте, а в другом он остался старым; объем БД растет, что требует увеличения ресурсов для работы с данными.

В этом случае необходимо выносить повторяющиеся данные в отдельные таблицы и связывать ключами.

И это тоже про нормализацию данных.

Пустые ячейки (NULL)

Есть поле, но оно ничем не заполнено. И тогда аналитик задается вопросом: что это значит? Что данных просто нет (их никто не вносит), данные вносят, но они потерялись при загрузке в таблицу, либо эти данные необходимо воспринимать как равные нулю...

В этом случае необходимо сначала посмотреть требования к источнику данных, есть ли там обязательность их заполнения. Если данные обязательны к заполнению, то стоит рассмотреть ETL (Extract Transform Load - извлечение, преобразование и загрузка) процесс данных.

И от полученных результатов принимать решение как расценивать NULL данные.

Неправильный тип данных

Телефон хранят как INT, даты — как текст, деньги — как FLOAT.
Такой подход приводит к тому, что в телефоне «съедается» +7, даты не сортируются, а деньги теряют копейки.

И аналитик не может корректно обрабатывать данные, что приводит либо к ошибкам в результатах, либо к увеличению этапа обработки данных для выполнения какой-либо аналитики.

В этом случае: только правильное использование типов данных.

Нет ключей и индексов

Ключи нам нужны, чтобы однозначно идентифицировать данные и связывать таблицы между собой.

Есть первичный ключ (Primary Key) и внешний ключ (Foreign Key)
Первичный ключ - это уникальный идентификатор. Например есть два Ивановых Ивана Ивановича, но у них будут разные ID. Этот ID будет однозначно идентифицировать каждого из них.
Внешний ключ - это ссылка на другую таблицу. Например есть таблица заказов и в ней есть поле client_id. Это поле будет ссылаться на ID нашего Иванова Ивана Ивановича в таблице с персональными данными.

Индексы нам нужны для ускорения поиска.

Представь, у тебя есть огромная книга (миллионы строк в таблице). Если ты ищешь слово вручную — придётся листать страницу за страницей.

Но если есть алфавитный указатель (индекс) — ты сразу находишь нужное слово.

Примеры:

Поиск клиента по номеру телефона
Поиск заказов по дате
Поиск товаров по категории

Индексы ускоряют запросы в разы, но требуют памяти и времени на обновление (поэтому ими злоупотреблять тоже не стоит).

Слияние «всего подряд»

Если таблицу использовать как свалку — складывать туда и клиентов, и товары, и заказы — это как в одной кастрюле сварить борщ, компот и макароны.
Итог: никто не понимает, что с этим есть.

А в канале На связи: SQL уже первые посты про структуры запросов и JOIN ждут тебя.

Если тебе нужна поддержка и мотивация или просто сопутствующие слова для твоего развития, то приходи в канала Сила слов. Там каждое утро тебя ждет мотивационное и поддерживающее послание.

Показать полностью

kznalp

16 дней назад

Postgres DBA

Серия СУБД PostgreSQL

Особенности расчета коэффициента корреляции в PostgreSQL и Excel при постоянных значениях одной переменной⁠⁠

При обработке статистических данных очень важной задачей становится оценка взаимосвязей между различными переменными. Один из самых популярных способов измерения такой связи — использование коэффициента корреляции Пирсона (Pearson correlation coefficient). Обозначаемый символом r, он представляет собой меру линейной зависимости между двумя величинами. Несмотря на широкое распространение данного метода, важно учитывать специфику реализации этого показателя в разных инструментах обработки данных, таких как системы управления базами данных (СУБД) вроде PostgreSQL и программы электронных таблиц, такие как Microsoft Excel.

Формула коэффициента корреляции Пирсона

Значение коэффициента варьируется от -1 до +1, где положительные значения указывают на прямую связь, отрицательные — на обратную, а близость к нулю свидетельствует об отсутствии значительной линейной связи.

Особенности расчета коэффициента корреляции в PostgreSQL и Excel

Теперь рассмотрим некоторые важные аспекты применения данной формулы в реальных условиях, когда значения одной переменной остаются неизменными по сравнению с другой переменной.

1. Особенности расчета в PostgreSQL

PostgreSQL предоставляет удобную встроенную функцию corr(), позволяющую легко вычислить коэффициент корреляции Пирсона прямо внутри базы данных. Тем не менее, при её применении важно учитывать ряд нюансов:

Отсутствие вариации: Если все значения одной переменной полностью идентичны (то есть стандартное отклонение равно нулю), знаменатель формулы становится нулевым, вызывая деление на ноль. В результате функция вернёт неопределённое значение (NULL).

Численная нестабильность: Когда изменение одной переменной намного меньше, чем другой, возможно возникновение проблемы числовой стабильности. Компьютерная система работает с ограниченным числом знаков после запятой, поэтому малые разности могут быть усечены до нуля, искажая результаты расчётов.

Чтобы избежать подобных проблем, целесообразно заранее провести проверку на наличие дисперсии в данных, используя стандартные функции PostgreSQL, такие как stddev(). Эта мера позволит убедиться, что обе переменные имеют достаточно выраженный разброс значений.

2. Особенности расчета в Excel

Microsoft Excel предлагает аналогичную возможность для вычисления коэффициента корреляции посредством функции CORREL() / КОРРЕЛ(). Здесь также существуют свои тонкости:

Ошибка деления на ноль: Подобно PostgreSQL, если значения одной переменной абсолютно одинаковые, Excel столкнется с ошибкой деления на ноль и выведет сообщение "#DIV/0!".

Различия алгоритмов округления: Хотя основная математическая формула та же самая, внутренние механизмы работы Excel могут немного отличаться от других инструментов. Это связано с особенностями машинного представления вещественных чисел и процедурами округления промежуточных результатов. Эти отличия способны приводить к незначительным, но всё-таки заметным колебаниям в конечном ответе.

Ограничения по представлению чисел с плавающей запятой: Особенно это проявляется, когда масштабы сравниваемых переменных сильно различаются (например, большие числа цен товаров против небольших процентов скидок). Округление промежуточных шагов способно исказить итоговый результат.

Заключение

Итак, правильный подход к оценке коэффициента корреляции требует внимательного рассмотрения характеристик самих данных. Важно понимать структуру информации, подлежащей анализу, проводить предварительные проверки на наличие достаточной вариативности в обоих параметрах и избегать серьёзных перекосов в масштабах значений. В противном случае результат может оказаться неверным или интерпретироваться неправильно. Таким образом, аккуратность и тщательность подготовки данных являются залогом надёжности любых последующих выводов.

Дополнительные материалы по теме:

Особенности расчета коэффициента корреляции в PostgreSQL

Показать полностью 2

[моё] Исследования Статья Научпоп Postgresql Microsoft Excel Корреляция Длиннопост

kznalp

17 дней назад

Postgres DBA

Серия СУБД PostgreSQL

PostgreSQL и Excel по разному рассчитывают корреляцию⁠⁠

PostgreSQL (Версия 17)

CREATE TABLE test

(

id integer ,

n1 double precision ,

n2 double precision

);

INSERT INTO test

(

id ,

n1 ,

)

VALUES

(

generate_series(1, 100),

trunc(random()*100),

0.01

);

select * from test order by 1;

id | n1 | n2

-----+----+------

1 | 15 | 0.01

2 | 95 | 0.01

3 | 17 | 0.01

...

97 | 44 | 0.01

98 | 63 | 0.01

99 | 59 | 0.01

100 | 24 | 0.01

corr ( Y double precision, X double precision ) → double precision
Вычисляет коэффициент корреляции.

SELECT corr( n1 , n2 ) FROM test ;

corr

--------------------

0.1460196805623383

(1 row)

Excel (Microsoft Office профессиональный 2016)

Импортировать таблицу . Числовой тип , 15 символов после запятой

Рассчитать корреляцию между столбцами n1 и n2

=КОРРЕЛ(B:B;C:C)

Результаты расчета корреляции

PostgreSQL : 0.1460196805623383
Excel : 0,000000000000000

Подробности и другие сценарии:

Особенности расчета коэффициента корреляции в PostgreSQL

Показать полностью 3

[моё] Postgresql Microsoft Excel Корреляция

MarinaDatamoon

21 день назад

Как понять, что ручной сбор данных тормозит ваш рост и бизнес⁠⁠

Представьте, у вас на столе кипа файлов из CRM, Excel, 1С, маркетинговых платформ и отчётов подрядчиков. Вы открываете их один за другим, копируете цифры, сверяете формулы, ищете пропавшие значения. Проходит час, два, три — а отчёт ещё даже не близок к готовности. Знакомо?

Если у вас хотя бы один из этих пунктов совпадает — пора серьёзно подумать об автоматизации 🧐

1️⃣ Каждый месяц отчёты превращаются в марафон

Сбор данных отнимает несколько рабочих дней, и всё это время ваши основные задачи лежат на паузе. В итоге бизнес теряет скорость, а вы тратите силы на рутину вместо анализа и принятия решений.

2️⃣ Ошибки в цифрах всплывают в самый неподходящий момент

Один пропущенный ноль, не туда вставленная формула или лишний клик — и уже готовый отчёт отправляется руководству с искажённой картиной. Исправления занимают ещё больше времени, а доверие к аналитике падает.

3️⃣ Вся аналитика хранится «в головах»

Есть один человек, который «знает, как свести всё в одну таблицу». Ушёл он в отпуск, уволился, /подставить своё/ — и процесс встал. Никакой прозрачности, никакой воспроизводимости.

4️⃣ Вы тонете в источниках данных

Продажи — в CRM, финансы — в Excel, маркетинг — в Google Analytics, заказы — в ERP. Каждый день вы как джунглер: скачиваете, копируете, вставляете, сверяете. И всё это — вручную.

5️⃣ Отчёт устаревает ещё до того, как его отправили

Вы сводите данные за прошлую неделю, а показатели уже изменились. Руководство принимает решения на устаревшей информации, а вы в очередной раз начинаете собирать обновлённые цифры.

BI-системы вроде Power BI избавляют от всей этой рутины. Один раз вы настраиваете подключение к источникам — и дальше всё обновляется автоматически. Данные приходят без ошибок, отчёты строятся в пару кликов, а вы тратите время на анализ, а не на Ctrl C + Ctrl V 👈

Показать полностью

IT Microsoft Аналитика Обучение Microsoft Excel Бизнес Ручная работа Технические проблемы Проблемы белых людей Бесплатное обучение Онлайн-курсы Текст

2867

KOPOBOPOTEHb

21 день назад

Противозачаточные шутки

Ответ в ворде⁠⁠

Юмор Мужчины и женщины Видео Вертикальное видео Короткие видео Instagram Обида Клип Microsoft Excel Kelly rowland Nelly

188

ShukaShabaka

22 дня назад

Лига помощи Excel

Краш Excel при открытии⁠⁠

Всем чмоки в этом чате, как говорится.
Есть проблема, над которой бьюсь не первый месяц: Ексель при запуске крашится ("Прекращена работа программы блаблабла" без кода ошибки).
Что известно на данный момент:
• Происходит это чаще всего с определенными файлами, но изредка ломаются файлы выгрузки из SAP.
• Не зависит от наличия макросов
• Нормально открываются в безопасном режиме (там, где после открытия надо нажимать в шапке "Разрешить использование содержимого" или как его там. При пересохранении в этом случае проблема пропадает.) На некоторых других машинах открывается без ошибок с такой же картиной и предложением использовать содержимое.
• Application.EbableEvents не помогает.
• ReadOnly не влияет.
• Открытие с шифтом не помогает.
• Поймать ошибку не удается, никакой связи не видно, книга просто сохраняется, закрывается и больше не хочет открываться.
• Расширения файлов разные бывают.
• Не зависит от присутствия содержимого типа умных таблиц, сводных, графиков и прочее, может быть простая таблица на десять столбцов и сто тысяч строк.
• Набор расширений на всех машинах одинаковый.
• После краша сбрасываю попытку восстановления, иначе иногда попытка открытия восстановленного файла приводит к очередному крашу и так до бесконечности.
• Переустановка Office не помогает.
• Отключение надстроек не помогает.

Шоделоть? Идеи кончились, гугл разводит лапками, чат гпт как обычно несёт ахинею.

P.S. Пардон за иллюстрации с камеры, сами понимаете, служебный комп, ничего нельзя и всё такое...

Показать полностью 1 1

Microsoft Excel Ошибка Помощь Видео Вертикальное видео Короткие видео Длиннопост

VelStyling

22 дня назад

Серия SQL: знакомство

Из чего состоит база данных? Простыми словами и с примерами из жизни⁠⁠

База данных — это не какой-то страшный монстр из IT-страшилок. Это, скорее, твой самый организованный шкаф, в котором всё лежит по полочкам и ты всегда знаешь, где что искать.

Вот разберёмся, из чего она состоит и почему это важно.

Особенности и нюансы, а также интересные факты, задачи и многое другое можно прочитать в моем канале На связи: SQL Я его веду с нуля, и рассказываю в публикациях информацию с самых основ. Подписывайся! Планирую разбирать там интересные аналитические задачи.

Из чего состоит база данных? Простыми словами и с примерами из жизни База данных, Microsoft Excel, Таблица, SQL, Аналитик, Аналитика, Самообразование

1. Таблицы — это как списки гостей на твоей вадьбе

Ты ведь когда-нибудь составлял(а) список гостей? Кто приглашён, как будет добираться, где остановится, откуда забрать? Вот это и есть таблица — аккуратный список, где каждая строка — отдельный гость, а каждый столбец — важная инфа про него.

Представь: ты пытаешься запомнить, кто из гостей любит веганский салат, а кто шоколадный торт. В таблице всё чётко — не надо ломать голову!

2. Поля (столбцы) — это категории, которые помогают разложить данные по полочкам

Поле — это как коробка с надписью «Имя», «Телефон», «Принёс подарок». Без таких коробок у тебя бы всё смешалось в одну кучу — как если бы носки и трусы лежали в одной коробке и искать их было бы сплошным кошмаром.

Жизненный пример: когда мама говорит: «Твои учебники на полке, а игрушки — в коробке», она на самом деле говорит о полях — разделении информации.

3. Записи (строки) — это конкретные данные, про каждого гостя или объект

Строка — это, грубо говоря, одна полная карточка гостя: «Оля, +7 900..., принесла торт». Не нужно ничего додумывать — всё записано и понятно.

Представь: хочешь позвонить Оле? Заглядываешь в её строку — и все контакты под рукой.

А теперь маленький секрет базы данных:

Представь, что у тебя не просто один список гостей, а сотни списков — по разным праздникам, по родственникам, по коллегам. И ты хочешь быстро узнать, кто из них умеет играть на гитаре или кто приносил на последний праздник вино.

Здесь на помощь приходят…

Индексы — как яркие закладки в книгах. Без них поиск был бы как искать иголку в стоге сена.
Связи (отношения) — это как ниточки между гостями и подарками. Они показывают, кто что принёс, кто с кем пришёл и кто кому друг.
Представления (вьюшки) — это твои любимые списки, которые показывают только нужных гостей — например, только тех, кто любит танцевать.
Процедуры и триггеры — это автоматические помощники, которые, например, сразу отправят напоминание гостю, если он не подтвердил участие.

Почему это важно?

Потому что без базы данных твой «шкаф» превратится в хаос: всё смешается, запутается, и ты будешь тратить часы, чтобы найти нужную информацию.

База данных — это как суперорганайзер твоей жизни, только для данных.

Ну а в своем канале На связи: SQL я пишу об особенностях языка SQL, интересных ситуациях и все это пытаюсь объяснить простым доступных языком.

Показать полностью 1

[моё] База данных Microsoft Excel Таблица SQL Аналитик Аналитика Самообразование

VelStyling

23 дня назад

Серия SQL: знакомство

База данных: гардероб, кухня и мастерская в одном месте⁠⁠

Представьте себе шкаф у вас дома. В одном отделении лежат полотенца, в другом — футболки, в третьем — кастрюли (если шкаф на кухне). Каждая полка — для своих вещей, чтобы потом легко было найти.

База данных (БД) — это тот же шкаф, только для информации. Она хранит данные так, чтобы их можно было легко положить, достать и разложить по порядку.

Если тебе интересно узнать больше про базы данных и SQL — заглядывай в мой телеграм-канал sql_in_touch. Там я просто и понятно рассказываю, как работать с SQL, разбираю практические примеры и делюсь лайфхаками для начинающих. Буду рада видеть тебя в числе подписчиков и вместе разбираться в мире данных!

База данных: гардероб, кухня и мастерская в одном месте Аналитика, Аналитик, Microsoft Excel, База данных, Данные, Анализ данных, SQL, Отчет, Визуализация, Визуализация данных, Postgresql, Oracle, Образование, Длиннопост

В нашей жизни есть разные шкафы. Платяной шкаф, кухонный шкаф, шкаф с инструментами и т.д. Так и в мире данных есть разные БД.

Виды баз данных и зачем они нужны

1. Реляционные БД (табличные)

Данные хранятся в таблицах (как в Excel, только гораздо умнее).
Таблицы связаны между собой: в одной лежат заказы, в другой — клиенты, и они связаны по уникальному номеру клиента.
Примеры: MySQL, PostgreSQL, Oracle.
📌 Где хороши: когда данные структурированы и связи между ними важны (интернет-магазин, банковские операции).

💡 Пример:
У меня в одном ящике лежит нижнее белье, в другом — футболки, а на плечиках висят брюки и пиджаки. Мне нужно быстро собрать наряд для собеседования. Я открываю нужные ящики и беру нужные вещи — так я собираю образ. Да, бывает, что я надену на себя вещи, которые не сочетаются между собой. Но в данном контексте это будет означать, что я не ограничила выборку условиями. А все необходимые составляющие: футболка, брюки, пиджак и т.д. будут выбраны из нужного ящика или вешалки.

Так и база данных — она состоит из разных «ящиков» (таблиц), в которых хранится разная информация. Но чтобы получить полный «наряд» (то есть ответ на запрос), система быстро соединяет данные из этих ящиков и выдает нужный результат. Это и есть работа с базой данных — быстро и удобно находить нужные сведения, даже если они лежат в разных местах.

2. Документоориентированные БД

Документоориентированные базы данных — это как личные папки или досье, где в каждой папке может быть разный набор информации, и она не обязательно одинаковая у всех.

Данные хранятся в виде документов (JSON, XML) — как целые досье.
Каждый документ может содержать разную структуру, без строгих таблиц.

Примеры: MongoDB, CouchDB.

💡 Пример:, у стилиста есть папка с данными о каждом клиенте: цвет волос, любимый стиль, что уже покупали, фотографии образов. У одного клиента в папке может быть описание прически, у другого — заметки про аксессуары, у третьего — список любимых магазинов. И это нормально, потому что каждая папка индивидуальна и хранит то, что важно именно для этого клиента.

📌 Где такие базы удобны? Когда данные часто меняются и не всегда бывают одинаковыми — например, каталоги товаров с разными характеристиками или профили пользователей с разным набором информации.

3. Ключ-значение

Представь повара на кухне, у которого на полках стоят контейнеры с приправами. На каждом контейнере — ярлычок: «Соль», «Перец», «Базилик». Повар сразу видит, где что лежит, и может быстро взять нужную специю, не тратя время на поиски.

В базах данных типа ключ-значение, например Redis или Memcached, всё устроено похожим образом: есть «ключ» — это как ярлычок на контейнере, и «значение» — содержимое внутри. Когда нужна информация, система быстро находит значение по ключу — без лишних сложностей и долгих поисков.

📌 Где такие базы классно работают? Когда нужна очень быстрая реакция: кэширование данных, хранение настроек, сессий пользователей, временных значений — чтобы всё на кухне (то есть в системе) шло как по маслу.

4. Графовые базы данных

Соцсети — отличный пример того, как работают графовые базы данных.

В таких базах информация хранится в виде «узлов» — это могут быть пользователи, группы, посты, события. «Связи» — это отношения между этими узлами: кто с кем дружит, кто подписан на кого, кто лайкнул чей пост, кто участвует в каком событии.

В итоге получается огромная сеть — граф — где можно быстро понять, кто ваши друзья, кто из них общается между собой, какие группы и интересы вас объединяют.

📌 Где полезны графовые БД? В соцсетях для построения друзей и рекомендаций, в картах для прокладывания маршрутов, в системах рекомендаций товаров.

💡 Пример:
Представь, что у тебя есть большая компания, и тебе нужно понять, кто с кем работает вместе, кто кому помогает и кто отвечает за какие задачи.

Каждый сотрудник — это «узел», а связи между ними — это совместные проекты, встречи или переписка. Так можно быстро увидеть, кто является центром коммуникаций, кто с кем тесно взаимодействует и как лучше организовать работу команды.

Графовая база поможет быстро найти нужных людей и понять, как информация и задачи «текут» внутри компании

Итог

База данных — это способ хранить и упорядочивать данные, как мы упорядочиваем вещи дома или в рабочем шкафу.

Хотите чёткий порядок и строгие связи? → Реляционные БД.
Нужна гибкость и разная структура? → Документоориентированные.
Важна молниеносная скорость для простых данных? → Ключ-значение.
Важны сложные связи? → Графовые.

Как у хорошей хозяйки или стилиста — в базе всё лежит там, где нужно, и всегда можно быстро достать.

Показать полностью 1

[моё] Аналитика Аналитик Microsoft Excel База данных Данные Анализ данных SQL Отчет Визуализация Визуализация данных Postgresql Oracle Образование Длиннопост

Посты не найдены