IT и Microsoft Excel: истории из жизни, советы, новости, юмор — Горячее

0 просмотренных постов скрыто

VelStyling

SQL и Python: один запрос - два разных способа думать⁠⁠

Серия Аналитика FM

3 дня назад

Сейчас у аналитика для работы с данными есть два популярных "инструмента" - это SQL и Python.

Часто слышу, что SQL считают "жестким", а Python - "гибким" инструментом в аналитике.

На самом деле разница не в гибкости между этими языками, а в "модели выполнения"

Ниже сравним один и тот же пример реализованный SQL и Python. И проследим, что выполняется на каждом шаге.

А пока подписывайся на мой канала Аналитика FM.
Его я веду с нуля подписчиков.
В этом канале я публикую информацию об инструментах аналитика (SQL, Python)
О мышлении аналитика, о метриках, об ошибках.
Публикую чек-листы по стандартным видам работы аналитика.
Присоединяйся!

Рассмотрим задачу.

Есть таблица заказов. Нужно:

Взять только оплаченные заказы
Посчитать сумму заказов по пользователям
Оставить пользователей, у которых сумма больше 10 000
Отсортировать по убыванию суммы

Как это выглядит в SQL

SELECT
user_id,
SUM(amount) AS total_amount
FROM orders
WHERE status = 'paid'
GROUP BY user_id
HAVING SUM(amount) > 10000
ORDER BY total_amount DESC;

Что происходит на самом деле?

Хотя запрос написан сверху вниз, выполняется он иначе:

FROM — база берёт таблицу orders
WHERE — отфильтровывает только status = 'paid'
GROUP BY — группирует строки по user_id
SUM(amount) — считает сумму внутри каждой группы
HAVING — отбрасывает группы с суммой ≤ 10 000
SELECT — формирует финальные колонки
ORDER BY — сортирует результат

SQL не идёт шаг за шагом как сценарий. Для него каждый запрос - это единый слепок результата

Ты не "живешь" внутри процесса, ты его декларируешь.

Теперь тот же самый запрос в Python (pandas)

Чтобы не увеличивать объем строк с подключением к БД, сделаем так, что наши данные мы читаем из CSV файла

Ты загружаешь данные. Ты их уже видишь. Они лежат в память, у них есть текущее состояние.

import pandas as pd
df = pd.read_csv('orders.csv')

2. Фильтрация

paid_orders = df[df['status'] == 'paid']
paid_orders.head()

Здесь отфильтровали данные, можно посмотреть, что получилось, можно вернуться назад.
Это состояние сохранилось.

3. Группировка и агрегация

grouped = (
paid_orders
.groupby('user_id')['amount']
.sum()
.reset_index(name='total_amount')
)
grouped.head()

Ты видишь промежуточный результат:

пользователей
их суммы
можешь проверить аномалии

4. Фильтр по агрегату

filtered = grouped[grouped['total_amount'] > 10000]
filtered.head()

5. Сортировка

result = filtered.sort_values('total_amount', ascending=False)
result

Ключевая разница

SQL

- нет "текущего состояния"
- каждый запрос - это новый расчет
- описываем, что хотим получить
- оптимизатор решает как

Python

- данные живут в памяти
- каждый шаг меняет состояние
- на каждом шаге можно остановиться, посмотреть, вернуться, ветвить логику

На практике аналитик:
- думает как в Python
- реализует как в SQL
- и постоянно переключается между этими моделями

Получается, что SQL и Python - это два разных способа мышления.
SQL говорит нам - вот результат
Python - вот процесс.

Python - это процедурный подход.
Аналитик говорит КАК делать:
- возьми данные
- отфильтруй
- посчитай
- отсортируй
- покажи результат
Здесь происходить управление процессом: мы ведем данные по шагам

SQL - декларативный подход.
Аналитик не говорит КАК делать, он говорит, что хочет получить.

В разбираемом примере мы говори:
Хочу видеть сумму заказов по пользователям,
только оплаченные,
только больше 10 000

Для SQL есть входные данные, правила отбора, финальный результат.
SQL не живет во времени, он живет в описании результата

Ну а в моем канале Аналитика FM не только об инструментах аналитика, но и об аналитическом мышлении, метриках, логики.
Присоединяйся!

Показать полностью

VelStyling

Как аналитику адаптироваться на рынке поиска работы⁠⁠

4 дня назад

В этом посте писала о своих размышлениях по поводу рынка работодателя.
Про автоматизацию поиска как со стороны работодателя, так и со стороны кандидата.
Про статистику от hh.ru.

И все таки у меня складывается ощущение, что сейчас рынок осознанного выбора.

Об этом чуть ниже.

Как аналитику адаптироваться на рынке поиска работы

А пока подписывайся на мой канала Аналитика FM.
Его я веду с нуля подписчиков.
В этом канале я публикую информацию об инструментах аналитика (SQL, Python)
О мышлении аналитика, о метриках, об ошибках.
Публикую чек-листы по стандартным видам работы аналитика.
Присоединяйся!

Что вообще подразумевает под собой "рынок осознанного выбора"?

Это ситуация, когда работодатель на просто закрывает вакансию, а выбирает максимально точное совпадение:
- по стеку
- по мышлению
- по опыту именно в их контексте
- по ожиданиям от роли, которые часто не до конца сформулированы даже внутри компании.

Сейчас поиск аналитика занимает месяцы. Точно так же как и аналитик месяцами ищет работу.
Количество месяцев может зависеть от количества этапов собеседования. Сейчас их в среднем 5-7. Даже не на руководящую должность (проверено на собственном опыте).

А в итоге, компания может никого не взять.

И это не потому, что "кандидаты плохие". А потому что ошибка найма стала слишком дорогой. Слишком дорогой поиск кандидата, слишком дорогой этап онбординга, слишком дорогой этап "внедрения в процесс", слишком дорогой этап до получения результата.

Т.к., чтобы аналитик разобрался во всех процессах, системах и данных в среднем уходит 6-8 месяцев.

Потому что аналитик - это "не одна профессия".

Под одним названием скрываются:

продуктовые аналитики
системные аналитики
BI-специалисты
аналитики данных
аналитики в финтехе, e-commerce, госсекторе

И часто аналитикам приходится быть full stack аналитиком.

А рынок ищет не "аналитика вообще".
Он ищет аналитика под конкретную боль.

И вот тут многие кандидаты попадают в ловушку.

Многие аналитики пытаются быть универсальными: делал все, участвовал во всем, работал с разными системами.
Здесь нет конкретики, все это становится фоном для работодателя.

В большинстве случаев у работодателя есть боль. И ее надо закрыть.
Поэтому HR, работодатели расплываются в улыбке, когда слышат о том:
- какие решения ты помогал принимать. Не просто знаю SQL и Python, а что именно ты смог реализовать. И это надо говорить на языке бизнеса (метриками, показателями, деньгами)
- где именно находил расхождения в данных и что с этим делал. И как эти действия повлияли на бизнес процессы.
- как ты проверял расчеты. Что применял, чтобы бизнесу уходила достоверная информация.
- какие спорные вопросы с бизнесом ты решал, какие цифры приводил в качестве аргументов.

В этом и будет твоя ценность как аналитика.

На собеседованиях нужно быть открытым к диалогу. Нужно продавать себя.
Интервьюер чаще оценивает как ты думаешь, как рассуждаешь, как сомневаешься, как проверяешь себя.

Если ты можешь внятно объяснить свою логику, а не просто показать синтаксис запроса - это огромный плюс.

На рынке осознанного выбора отказ - это не провал.
На таком рынке отказ не означает, что ты слабый. Это означает, что ты не попал в очень узкий запрос.
И это нормально. Иногда ты хороший аналитик, просто не тот аналитик, который нужен здесь и сейчас.

Рынок осознанного выбора - это не про "стало хуже".
Это про то, что поверхностного совпадения больше не достаточно.

Это рынок, где выигрывает не самый "знающий",
а самый понятный и честный в своей экспертизе.

И да - в нём сложнее!

В моем канале Аналитика FM информация не только о синтаксисе и операторах в запросах к данным, но и о мышлении аналитика.
Подписывайся!

Показать полностью 1

VelStyling

Зачем в эпоху ИИ изучать SQL⁠⁠

Серия SQL: знакомство

8 дней назад

Я задалась себе вопросом: а зачем сейчас, в эпоху искусственного интеллекта, изучать языки программирования?

Об этом порассуждаю ниже.

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL.
Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0. Его я веду с нуля подписчиков. Разбор задач со скользящим окном уже в канале.
Присоединяйся!

И так

Сейчас нейросети могут создавать "много чего". Могут в принципе написать план создания отдельного государства. Я почти уверена, что каждый второй точно пользуется нейросетями для облегчения своей жизни. Почти каждая компания говорит о том, что выполнение рутинных задач будут замещены ИИ. Это и хорошо и плохо, как говорится, у любой стороны есть две медали. С одной стороны мы сможем освободившееся время выделить на что-то другое, а с другой стороны - это изменение в штатном расписании.

Так зачем же сейчас изучать SQL, если есть ИИ, который за нас может написать весь код, мы даже можем загрузить сырые данные и попросить проанализировать его, что это за данные, чтобы потом, при постановке задачи, учесть все нюансы в промте.

Рассмотрим следующий кейс:

Ты - аналитик, у тебя есть таблица с данными. Ты понимаешь бизнес:
- знаешь, какие показатели нужны
- знаешь как они считаются
- знаешь, что такое выручка, конверсия, средний чек и т.д.

Ты открываешь ИИ и говоришь:

Вот данные. Напиши SQL-запрос, который посчитает эти метрики. Учти NULL, особенности данных и вот эти условия

Все перечислил, все вроде бы учел.

ИИ пишет запрос.
Он выглядит красиво. Он даже выполняется.
Цифры выводятся.

И вот здесь возникает главный вопрос:
а что именно ты получил?

Ты дал данные, ИИ проанализировал, составил запрос, учел там формат даты, NULL и т.п., выдал результат. А как понять - можно ли верить этим данным? А почему получилось именно это число?

Т.е. появляется вопрос: а почему именно так?

Тут ты также можешь задавать вопросы нейросети и выяснять почему получились именно такие данные. Чтобы задавать такие вопросы знание SQL вообще не нужно. Нужно понимание полученных результатов. И все вопросы, которые ты задаешь - это бизнес-вопросы.

Нейросеть тебе на твои уточняющие вопросы дает комментарии и в этот момент, ты либо веришь полученным ответам, либо идешь проверять.

А чтобы проверить, тебе надо лезть в данные. И вот тут знания SQL тебе явно пригодятся.
Ты можешь от ИИ получать на вопрос: "Почему выросла конверсия?", например, такие ответы: "Конверсия выросла из-за изменения структуры пользователей."

И что делать с таким ответом?
В твоей голове аналитика сразу возникают следующие вопросы:
- каких именно пользователей
- с какого дня
- по каким условиям
- что было исключено из расчета

Ты и эти вопросы можешь задавать нейронке.
Но без SQL ты можешь остаться на уровне объяснений, а не на уровне доказательств.

По факту:

SQL нужен не для того, чтобы:

писать сложные запросы
помнить синтаксис
быть «технарём»

SQL нужен, чтобы в любой момент сказать:

«Я могу сам(а) проверить».

Это ключевое.

Не написать с нуля.
Не оптимизировать на миллионы строк.
А проверить логику расчёта на уровне данных.

И еще одна особенность, если твои данные "большие", то ты не сможешь их все скормить нейронке, чтобы та проанализировала их на предмет выбросов и искажений. Тебе в любом случае придется самому проанализировать какие данные в твоем датасете, чтобы задать корректный промт для вычисления твоих показателей, чтобы твой итоговый запрос, который напишет нейронка, учитывал особенности твоих данных.

И тут ты возвращаешься к началу. Чтобы задать корректный промт для нейросети, ты должен сначала проанализировать данные, чтобы учесть все условия для вычисления показателей.

А чтобы проанализировать нужно самому написать SELECT-ы различного рода.

В моем канале На связи: SQL все простыми словами и с конкретными примерами.

Подписывайся!

Показать полностью 1

[моё] Поиск работы SQL Аналитик Аналитика Microsoft Excel Собеседование Python Программирование Системный аналитик Анализ данных База данных Postgresql Большие данные IT Фриланс Самообразование Длиннопост Искусственный интеллект

VelStyling

Новогодний санта⁠⁠

Серия SQL: знакомство

17 дней назад

Сегодня последний день 2025 года.
И даже не крайний, как многие любят говорить.

Вообще, 31 декабря - это не про чтение постов.

Это про:

- беготню по магазинам
- салаты "на глаз"
- запах мандаринов
- фоновые фильмы ("Ирония судьбы", например)
- и тихую надежду, что следующий год будет чуть мягче, чем предыдущий

Поэтому пусть этот пост будет просто точкой.
Тихой, спокойной точкой в конце года.

Хочу пожелать вам в эту предновогоднюю суету уюта.
Не обязательно идеального праздника - а именно уюта.
Чтобы было тепло, спокойно и по-человечески хорошо.

А если вдруг вы из тех, кто 31 декабря всё равно думает про цифры, данные и "а что там в статистике за год" - оставлю здесь ссылку на свой телеграм-канал.

На связи SQL

Там я пишу про SQL и базы данных:
- как не бояться JOIN
- зачем нужен GROUP BY
- почему NULL ≠ 0
- и как вообще начать понимать, что происходит в запросах

Ну и разбор задач по накопительной сумме и скользящему окну уже выложены

Канал я веду с нуля подписчиков, без крика и без пафоса.

Но сегодня - не об этом.
Сегодня просто до встречи в новом году 🤍
Берегите себя и пусть 2026 будет чуть добрее.

Показать полностью 1

[моё] Аналитика Мотивация Аналитик Поиск работы SQL Microsoft Excel Собеседование Python Программирование Системный аналитик Анализ данных База данных Postgresql Большие данные IT Фриланс Самообразование Длиннопост

VelStyling

Предновогодний пост с новогодними элементами: Звезда, Снежинка и Data Vault⁠⁠

Серия SQL: знакомство

18 дней назад

Ну что, новый год не за горами, за окном зимнее настроение и в преддверии новогоднего чуда поговорим о моделях данных.

Многие из нас привыкли работать с таблицами и воспринимаем набор данных как плоскую структуру. Но если расширить фокус не просто на таблицы с данными, а на таблицы и их связи между ними, то сразу можем переходить к обсуждению моделей данных.

Их больше чем три, просто эти самые часто используемые.

Ну об этом ниже.

Предновогодний пост с новогодними элементами: Звезда, Снежинка и Data Vault

А пока подписывайся на мой канал На связи: SQL
Там я публикую посты про особенности и нюансы SQL.
Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0. Его я веду с нуля подписчиков.
Разбор задач со скользящим окном уже в канале.
Присоединяйся!

Почему вообще возникают схемы хранения данных?

Представь обычную рабочую базу: CRM, биллинг, сайт, мобильное приложение.
Там данные живые:
- что-то постоянно обновляется
- что-то удаляется
- что-то правится «прямо сейчас»

Такая база нужна, чтобы система работала.

А теперь представь аналитика, который приходит и спрашивает:
- сколько мы продали за год
- как изменилась выручка
- кто покупал чаще
- что происходило в прошлом квартале

И тут выясняется неприятная вещь:
базы, удобные для работы системы, неудобны для анализа.

Именно в этот момент появляются специальные способы моделирования данных.

Звезда

Самая дружелюбная и любимая для аналитика схема.

Она выглядит очень просто:
в центре - таблица с событиями, ее иногда называют таблицей фактов.
вокруг - таблицы с описанием этих событий (фактов).

Например, продажа - это событие.
А клиент, товар, дата, магазин - это описание.

В результате получается структура, где:
- запросы читаются легко
- JOIN-ы понятные
- отчёты считаются быстро

Звезда - это про комфорт.
Про «я открыл SQL и через 5 минут понял, что тут происходит».

Поэтому почти все BI-отчёты, дашборды и витрины данных в итоге сводятся именно к звезде, даже если внутри системы всё гораздо сложнее.

Снежинка

Снежинка чаще всего возникает, когда разрастаются справочники, которые описывают события, когда сами справочники становятся многоуровневыми.

Например: у клиента есть адрес, а адрес по ФИАСу имеет несколько уровней: Регион, район, город/населенный пункт и т.д.

В таких случаях "звезда" начинает таять и превращается в снежинку.

Если структурно, то снежинку можно описать так:
В снежинке таблицы описаний дробятся:
категории выносятся отдельно,
регионы - отдельно,
справочники становятся иерархиями.

Данных дублируется меньше, структура логичнее, архитектор доволен.
А вот аналитик уже не так счастлив - запросы длиннее, JOIN-ов больше, ошибок больше.

Снежинка - это компромисс.
Она аккуратнее, но сложнее.
Её выбирают там, где важен порядок, а не только скорость анализа.

Data Vault

Эта модель отвечает на вопрос:

Как сохранить данные так, чтобы ничего не потерять?

Здесь никого не волнует, удобно ли тебе писать SELECT.
Здесь волнует:
- откуда пришли данные
- когда они изменились
- какими они были раньше

Data Vault специально спроектирован так, чтобы история не затиралась.
Ничего не обновляется "поверх".
Каждое изменение - это новая версия.

Как это ощущается на практике

В обычной аналитической модели клиент сменил фамилию - и всё, старая пропала.
В Data Vault фамилия просто получила новую запись с датой изменения.
И теперь можно узнать, какой она была год назад, два года назад, пять лет назад.

Поэтому Data Vault так любят банки, финтех и большие корпорации:
- аудит
- юридическая точность
- десятки источников
- постоянные изменения

Часто Data Vault используют как "внутреннее хранилище правды",
а поверх него уже строят звёзды - для аналитиков и отчётов.

Да и в принципе Data Vault переводится как "хранилище данных", "сейф данных".

В моем канале На связи: SQL все простыми словами и с конкретными примерами.
Подписывайся!

Показать полностью 1

VelStyling

Паспортные данные. Что с ними происходит⁠⁠

24 дня назад

Паспортные данные - это персональная информация. Она нужна, чтобы идентифицировать человеке.

Но как их хранить, что с ними делать, кому давать доступ?

Это очень часто становится развилкой в организации хранения данных.

Об этом ниже.

Паспортные данные. Что с ними происходит

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0.
Его я веду с нуля подписчиков.
Разбор частых ошибок и задачи по накопительной сумме уже в канале.
Присоединяйся!

Паспорт - это не просто набор цифр.
Это ключ к человеку: по нему можно понять, кто он, где живёт, какие услуги получал и что с ним происходило в системе.

Именно поэтому вокруг паспортных данных всегда много вопросов:

Можно ли хранить паспорт в базе данных?
Почему иногда по паспорту делают JOIN?
Почему в одних системах паспорт виден полностью, а в других — нет?

Паспорт это не просто набор цифр.
Это ключ к человеку: по нему можно понять, кто он, где живёт, какие услуги получал и что с ним происходило в системе.

Именно поэтому вокруг паспортных данных всегда много вопросов:

Можно ли хранить паспорт в базе данных?
Почему иногда по паспорту делают JOIN?
Почему в одних системах паспорт виден полностью, а в других — нет?

В идеальном мире паспортные данные:

Хранятся в базе данных
Да, это важно сразу проговорить -
👉 паспорт всё равно лежит в БД, иначе с ним просто невозможно работать.
Но не в открытом виде
Это значит:
- не просто текстом 1234 567890
- не так, чтобы любой сотрудник мог его посмотреть запросом
Доступны только тем, кому действительно нужно
Например:
- пользователю в личном кабинете
- сотруднику KYC / поддержки
- системе проверки документов

В реальных системах ID клиента — не всегда надёжен.

Пример из жизни:

человек зарегистрировался в системе
потом пришёл снова, но:
- с другим номером телефона
- с другой почтой
- через другой канал (офис / сайт / партнёр)

В итоге в базе:

два разных client_id
но один и тот же паспорт

👉 И это прямой сигнал:
это один и тот же человек

Поэтому в некоторых случаях:

делают объединение (JOIN) по паспорту
чтобы понять, что записи относятся к одному человеку

Это особенно важно:

в банках
в финтехе
в государственных системах
в CDI (системах, которые собирают данные о клиентах из разных источников)

Тогда почему паспорт нельзя просто зашифровать и забыть?

Потому что с паспортом делают проверки и сравнения.

Например:

«Этот паспорт уже есть в системе?»
«Этот человек уже проходил идентификацию?»
«Это новый клиент или старый?»

Если просто заменить паспорт на набор звёздочек: **** ****** - с ним не возможно напрямую работать

Поэтому часто используют подход:

паспорт хранится в защищённом виде
но система всё равно может:
- сравнивать
- находить совпадения
- связывать записи

Когда паспорт виден в явном виде

Да, такие случаи есть. И они нормальны, если соблюдены условия.

1️⃣ Личные кабинеты пользователей

Пользователь:

сам вводит паспорт
сам его видит
сам может исправить ошибку

Это допустимо, потому что:

это его данные
он дал согласие
доступ есть только у него

2️⃣ Банковские и финтех-системы

Сотрудники:

видят паспорт полностью
но не напрямую из базы
а через интерфейс системы

Важно:

каждый просмотр логируется (записывается)
есть роли доступа
нельзя просто «посмотреть ради интереса»

3️⃣ CDI и KYC-системы

Это системы, которые:

собирают данные о клиенте из разных источников
проверяют документы
подтверждают личность

Здесь паспорт:

часто нужен целиком
иначе невозможно выполнить проверку

Почему аналитики обычно не видят паспорт

Потому что:

аналитике не нужен сам паспорт
аналитике нужен идентификатор человека

Поэтому в аналитических базах:

паспорт заменяют на client_id
или на специальный технический ключ

👉 Это снижает риск утечек и ошибок.

В некоторых слоях хранения данных, паспорт хранится в виде хэша. Но надо помнить, что хэш ≠ шифрование

Хэширование - это дорога в одну сторону.
Есть еще метод шифрования и при его использование можно восстановить данные, если есть ключ.

Хэш не подходит, если паспорт нужно:

показать пользователю
передать в другую систему
проверить вручную

Хэш не подходит, если паспорт нужно:

показать пользователю
передать в другую систему
проверить вручную

Но тогда где хранится настоящий паспорт?

В реальных системах обычно два уровня хранения:

1️⃣ Паспорт в зашифрованном виде

хранится в БД
может быть расшифрован
доступ есть только:
- у сервиса
- у строго ограниченного круга ролей

Это нужно, когда:

пользователь открывает личный кабинет
сотрудник банка смотрит данные
идёт проверка документа

2️⃣ Хэш паспорта - для связей и аналитики

используется для:
- поиска дублей
- объединения клиентов
- JOIN между системами
никогда не раскрывается наружу

👉 Аналитик работает с хэшом
👉 Операционная система - с зашифрованным паспортом

Почему нельзя хранить только хэш?

Потому что тогда:

нельзя показать паспорт пользователю
нельзя исправить ошибку
нельзя передать данные в гос-сервис
нельзя провести ручную проверку

Хэш отвечает только на вопрос:

«Совпадает или нет?»

Но не отвечает на вопрос:

«А что именно там написано?»

Можно ли «достать паспорт из хэша»?

Нет.
И если кто-то говорит, что «у нас хэшируется, но при необходимости мы восстанавливаем» -
👉 значит это не хэш, а шифрование.

В моем канале На связи: SQL все простыми словами и с конкретными примерами.
Подписывайся!

Показать полностью 1

[моё] Проверка Документы Информационная безопасность Поиск работы SQL Аналитик Аналитика Microsoft Excel Собеседование Python Программирование Системный аналитик Анализ данных База данных Большие данные Postgresql IT Фриланс Самообразование Длиннопост

VelStyling

База данных, DWH и Data Lake⁠⁠

Серия SQL: знакомство

25 дней назад

В далекие времена после университета, я работала специалистом по качеству данных.
Данные были клиентские: ФИО, адреса, телефоны, email. И надо было, чтобы данные были качественные. Для этого в компании использовалось ПО по стандартизации данных, надо было следить, чтобы ПО работало корректно, если замечаешь, что при обработке допущена ошибка, то выставляешь ТЗ на доработку, проверяешь, чтобы новый релиз работал как минимум не хуже чем предыдущий ну и т.д.

Так вот, хоть я и работала с клиентскими данными, но я не работала с БД. Хотя все данные лежали в БД. У меня там были выгрузки в Excel, их формировал кто-то другой. И я в Excel обрабатывала эти данных - надо было, чтобы процент плохих или неразобранных данных был меньше 3.

Перешла я в другую компанию - тоже на проект с качеством клиентских данных. И тут мне предлагают: "а давай мы тебе доступ к БД дадим, ты там будешь селектики делать, статистику считать". И тут у меня загорелись глаза. "Да, конечно, я хочу, но я ничего не знаю, не знаю как пользоваться, хотя в универе у меня был курс, связанный с базами данных. Но я ничего не помню. Так у меня началось осознанное знакомство с SQL.

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0.
Его я веду с нуля подписчиков.
Разбор частых ошибок и задачи по накопительной сумме уже в канале.
Присоединяйся!

Глаза горели, а руки делали в тот момент. Я начала знакомится, что такое БД, DWH, а потом стали появляться Data Lake.

Все эти слова (База данных, DWH, Data Lake) - это про совокупность данных. Везде здесь могут быть связи. Везде может использоваться одна и та же технология (PostgreSQL, S3, ClickHouse и т.д.)

Почему же, если это все про совокупность данных, стали появляться разные слова для этого?

Посмотрим на кусок мяса.
Мы его можем варить, жарить, мариновать.
Но это все равно остается мясом.

Получается, что мясо - это сырье.
А стейк, бульон, котлета - это не мясо, а БЛЮДА.

А теперь попробуем сделать проекцию на данные.

Данные = мясо.
БД/DWH/Data Lake - не мясо, а способ организации этого мяса

База данных - это технология хранения
DWH и Data Lake - это концепции организации данных

У DWH есть своя БД
У Data Lake - своя БД
Но не каждая БД - это DWH
И не каждая БД - это Data Lake

База данных - это как холодильник. Он хранит еду, ему все равно, будет ли это суп или торт.
БД - это "контейнер + правила":
- как хранить данные
- как читать
- как писать
- как обеспечивать целостность

БД Не говорит - зачем хранить эти данные, как они буду использоваться.

Что же такое DWH?

Это ближе уже к готовому блюду. Его не переделывают, его едят и анализируют (это в идеале, конечно)

В DWH данные:
- приведены к единому виду
- нормализованы (чаше всего встречается 3-я форма нормализации - этого достаточно)
- уже очищены
- изменения задним числом недопустимы
Все это не про связи, это про правила жизни данных.

Тогда что включает в себя Data lake?

Озеро данных - это "склад без разборки"
Многие компании не знают, что пригодится завтра, поэтому максимально пытаются сохранить большее количество данных.
Данных действительно бывает много, не все они участвуют в бизнес-процессах и монетизируются. Но терять их никто не хочет.

Поэтому компании организовывают Озеро данных:
- данные хранятся как есть
- без очистки
- без структуры
- без гарантий
- связи между данными могут быть, а могут и нет

Но в некоторых данных встречала, что какие-либо отчеты формируются на данных из "озера".

Поэтому появляются термины, чтобы сказать:
- это БД, которая используется как DWH
- это БД, которая используется как Data Lake

В итоге, получается, что БД - это "где хранятся данные".
DWH и Data Lake - это как и в каком виде они там хранятся.

В моем канале На связи: SQL все простыми словами и с конкретными примерами.
Подписывайся!

Показать полностью 1

VelStyling

Мои собесы конца 2025 года⁠⁠

Серия Выгорела от работы аналитиком, но...

29 дней назад

Ну что, год подходит к концу. Новых собесов я не жду. Старые, я думаю, что тоже не воскреснут.

Два с половиной месяца я в активном поиске. Но сейчас думаю, что не совсем активном, а просто в открытом поиске.

Что по моим наблюдениям и результатам получилось

Об этом ниже

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0.
Его я веду с нуля подписчиков.
Разбор частых ошибок и задачи по накопительной сумме уже в канале.
Присоединяйся!

В этом посте писала о том какие показатели HH озвучивает на текущий момент.

Из моих наблюдений:

вакансии есть
хороших вакансий - меньше
прозрачности - ещё меньше

1.Череда собесов, которые дошли до оффера (если что, то за 2,5 месяца у меня только один оффер)

Домен - финтех, направление - казначейство, из озвученной задачи - переписать текущее решение, перейти на новый стек, уйти от монолита к микросервисам, интеграция источников

Собеседования прошли нормально.
По деньгам - дали верх вилки.
Я уже мысленно вышла на работу.

И тут нюанс.

Оказывается:

оформление не в компанию
а через аутсорс
при этом на всех этапах собеседований не было ни одного человека из аутсорса

Вообще. Ни разу.

Возникает логичный вопрос:
👉 эта компания вообще знает, что я у них буду работать?

Дальше - ещё интереснее:

договор «срочный, но как бы бессрочный»
формулировка: «завершение договора зависит от завершающего этапа проекта»
если заказчик решает закрыть проект - 3–4 дня, и компания вправе завершить трудовые отношения

Юридически - всё аккуратно.
По факту - никакой стабильности.

Ну, неприятный осадочек у меня остался из-за того, что изначально озвучивали устройство в штат. На этапах подтверждали, что бюджет под проект согласован, штатные единицы утверждены. И только в самом оффере информация, что устройство в другую компанию. И даже hr не вкурсе этого.

2.Загадочный звонок и рекрутер-фрилансер

Звонок.
Представление - максимально невнятное.

- Ваше резюме понравилось, возможно, вам подойдёт вакансия.

Я прошу ещё раз представиться и объяснить:

кто вы
от какой компании
это инхаус или агентство

Выясняется:

это физлицо
работает «сама на себя»
ищет кандидатов, чтобы случился мэтч с командой

Я прошу рассказать:

что за компания
что за проект

Ответ:

Я не могу назвать компанию из-за NDA. Вам скажут на техническом интервью.

Я честно пытаюсь понять:
— Как я могу подготовиться к мэтчу, если не знаю, что за компания и чем они вообще живут?

В итоге:

перешли к цифрам
по вилке не сошлись
на этом всё закончилось

3.Хороший собес, плохое состояние и кошка Люся Афферистка

Аутсорсинговая компания:

проекты в финтехе
оформление в штат аутсорса
ТК РФ
договор не срочный

Назначают техническое интервью.
Я готовлюсь, повторяю, освежаю знания.

Но.

Вечером накануне:

я занимаюсь малярными работами на объекте
грунтовка, штукатурка, усталость лютая
в тот период я жила у брата

А у брата появилась кошка.
Люся. Афферистка. Ориентал.
С таким голосом, что и врагу не пожелаешь.

Я приезжаю домой в час ночи, валюсь с ног, хочу уснуть.
А Люсе нужно играть. Она бегает, скачет, орёт. Спать не даёт.

На утро:

я невыспавшаяся
уставшая
подключаюсь к собеседованию

И вот парадокс:
👉 это был самый адекватный технический собес из всех.

Спрашивали:

строго по вакансии
всё по делу
без цирка и лишних "угадай, что я думаю"

Но я:

туплю
медленно соображаю
словарный запас - ниже плинтуса

В итоге - не дотянула. И здесь я поняла, что если ты не выспался, заболел или что-то пошло не по плану, то лучше попросить перенести собеседование.

4.Техническое интервью без техники

Компания делает ПО для миграционной службы.
По описанию - аналитик, но по факту им нужен BI-специалист.

Техническое интервью.
И… мы просто разговариваем.

про мой опыт
про компании
про проекты

Первые 20 минут - класс, комфортно.
Потом я начинаю смотреть на время и думать:

- А где задачи?
- Где SQL?
- Где хоть что-нибудь техническое?

Ничего.
Ни кода.
Ни задач.
Ни кейсов.

После этого собеса - обратной связи не было вообще.

Вот такие 4 блока пока могу выделить из моего опыта конца 2025 года.

Ну а свой канал На связи: SQL я веду, чтобы делиться кейсами, делится основами, обсуждать задачки, очевидные и неочевидные ситуации.
Подписывайся!

Показать полностью 1

Посты не найдены

1 2 3 4 5 6 7 8 9 10

Рассмотрим задачу.

Ключевая разница

Что вообще подразумевает под собой "рынок осознанного выбора"?

В этом и будет твоя ценность как аналитика.

И так

По факту:

Почему вообще возникают схемы хранения данных?

Звезда

Снежинка

Data Vault

Тогда почему паспорт нельзя просто зашифровать и забыть?

Когда паспорт виден в явном виде

1️⃣ Личные кабинеты пользователей

2️⃣ Банковские и финтех-системы

3️⃣ CDI и KYC-системы

Почему аналитики обычно не видят паспорт

Но тогда где хранится настоящий паспорт?

1️⃣ Паспорт в зашифрованном виде

2️⃣ Хэш паспорта - для связей и аналитики

Почему нельзя хранить только хэш?

Можно ли «достать паспорт из хэша»?

1.Череда собесов, которые дошли до оффера (если что, то за 2,5 месяца у меня только один оффер)

2.Загадочный звонок и рекрутер-фрилансер

3.Хороший собес, плохое состояние и кошка Люся Афферистка

4.Техническое интервью без техники

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги