База данных: истории из жизни, советы, новости, юмор и картинки — Горячее, страница 2

0 просмотренных постов скрыто

HappyTalkie

Наши 90-е

Серия Как мы программировали в 80-90х

Как мы программировали в 90-е. Часть #02⁠⁠

1 месяц назад

Предыдущие главы:
Как мы программировали в 80-е .
Как мы программировали в 90-е. Часть #01

Пояснение перед продолжением.
Всего-то хотел рассказать парой постов об особенностях национального ~~охоты~~ программирования в переходный период. Стоило же тронуть пласты памяти о тех временах - как стали проступать события и персонажи, рассказывающие об эпохе достовернее любых мемуаров. Поэтому эта глава - мой внутренний компромисс между желанием бережно, в подробностях, сохранить ту атмосферу и уважением к вашему вниманию к моим историям.

С документацией по Клипперу было приключение.

Читать колоссальный мануал с дискеты, и даже с диска было очень неудобно, к тому же на компьютере была установлена MS DOS 3.5. Олды понимают, а поколениям Windows нужно объяснить – ДОС была однозадачной системой. Какую программу запустил – в той и работаешь, никаких других окон – нет. Поэтому – если запущен редактор с текстом описания, то компиляцию программы уже не запустить, нужно закрыть редактор и уже после этого запускать компилятор с нужными параметрами. И всё это происходит медленно, мееедлеееенннннооооо.

Поэтому описание Клиппера нужно было иметь в распечатанном виде. Девчонки с большого машинного зала за шоколадку «Вдохновение» (это была самая авторитетная валюта в таких делах, попробуй её купи тогда) распечатали мне мануал – больше 500 страниц А4.

Тут, простите, будет отступление, оно важно для дальнейшего – в нём важные краски времени.

1/3

Таких книг у нас, разумеется, не было, кто-то добрый перевёл их и распространял на дискетах. В распечатанном виде описание языка было объёмнее.

Ещё со студенческих времён у меня был свой фирменный способ сшивания стопки листов.

На 3м курсе один из наших преподов решительно предупредил на первой же лекции по своей дисциплине:
- Кто принесёт мне курсовик, скреплённый скоросшивателем – сразу снижаю на балл. Если скрепкой – на два балла.

Мой третий курс приходился на середину 80-х, степлеры и сшивающие стопку бумаг пружинки существовали в исключительно в зарубежном кино – там, где лимузины, боинги и офис на Манхэттене. Наша реальность содержала в себе счастливое детство с велосипедами «Орлёнок», хлеб с корочкой за 20 коп и даже ракету Р-7. При всём этом отечественный хайтек изобретение брошюраторов начисто игнорировал.

Курсовик я тому преподу просчитал в последнюю ночь, единственная проблема – как его сшить. При этом у меня была уверенность – я найду решение, оно будет простое, из подручных средств, быстрореализуемое. Я лёг спать с чётким пониманием – проснуться с уже с решением, его реализация должна занять не больше 15 минут. И ровно перед пробуждением – буквально на финальных титрах сна я это решение увидел — курсовик я сшил пока закипал чайник!

Когда я положил курсовик преподу на стол – прямо перед его носом, на кафедре повисла тишина:
- Как? - прозвучал сдавленный в бессильной попытке отгадки голос препода.
- Плюс один балл? – спросил я.
Вокруг собралась кафедра, на столе лежал мой идеально выглядящий курсовик.
- Как?

Я показал. Вся кафедра помучила курсовик, пытаясь его развалить, но он выдержал краштест, я вышел с четвёркой в зачётке.

С тех пор все свои курсовики я приносил именно в таком исполнении, а уже после института у меня появилось увлечение – органайзеры, я их до сих пор делаю себе и своим друзьям - сам, и сшиваю их своим методом. Они выдерживают самую суровую эксплуатацию и это всегда выглядело примерно так:

1/2

Для понимания: это мои хэндмэйдные органайзеры, которые скоро поедут к моим друзьям на новогодние столы. Разумеется, у курсовиков были полагающиеся титульные листы. Подсказываю: торцы, просто промазанные клеем - разваливаются, мой метод крепче и надёжнее.)

И вот, я решил таким же способом сшить и мануал по Клипперу. Для этого нужно было увесистую стопку пронести через проходную. я даже и не шифровался особенно – ведь распечатка не имела отношения к секретам.
- Чего это у тебя там? – хозяйски заглянула в пакет тётка из проходной будки.
- Распечатка языка Клиппер... – попытался объяснить я.
- ЧЕЁООО? – моментально мобилизовалась тётка, не поняв ни буквы моего ответа, и нажала на кнопку вызова охраны. Вразвалочку пришли ещё две тётки – такие же безразмерные, как первая.

Сцена повторилась:
- ЧЕЁООО? – заорали они в два голоса. – А ну, пошли с нами!
И, подхватив меня под руки, как пушинку, поволокли (понесли?) мимо обалдевающих от зрелища коллег в комнату начальника охраны. В комнате был длинный стол во главе которого сидел непосредственно начальник – когда-то ретивый, а теперь пожилой вальяжный служака в потёртой, мятой форме.
— Вот! Доставили несуна! – так же победным хором доложили тётки.

Начальник приподнялся из-за стола:
— Чего это у тебя там? – диалог стартовал по третьему кругу, я уже привычно ответил.
— ЧЕЁООО? – удивлённо протянул начальник охраны.
Так я впервые оказался в ситуации, когда должен был объяснить объект, все составляющие которого отсутствовали в мире реципиентов: язык программирования, операторы, базы данных.... Сшить вручную листы в книгу...
— А зачем?... Для чего? – и снова - ЧЕЁООО?. И, наконец, классическое в классических же интонациях: – Да нахрена?
В голосе отображалась вся гамма от «Расстрелять к чёртовой матери!» до «пшшшел вон, дурак!». Я уже начинал мешать ему мирно дослуживать до пенсии.

— А чё, книжки-то разве нету про клиппер этот ваш? — начальник явно устал, он уже увидел отсутствие перспектив, я уже начинал мешать ему мирно дослуживать до пенсии и он уже искал достойный повод для завершения допроса.
— В нашей библиотеке отсутствует.
И тут подала голос одна из тёток:
— Не дослужился, значит, до книжки-то!
Начальник, наконец, изобрёл выход из ситуации с сохранением своего авторитета:
— Да тут всё открытое, — изрёк он, с видом знатока пролистав мануал. —Отпускайте его, пусть идёт.

Пояснение – была литература закрытая, т.е., секретная, запрещённая к выносу, и открытая – для свободного доступа.

Когда наутро сослуживцы в курилке стребовали с меня пояснений за вчерашнее эпическое зрелище, в КБ эта фраза «Не дослужился, значит, до книжки-то!» моментально стала, как сейчас сказали бы — мемом.
— Ребята, поделитесь заваркой?...
— Не дослужился ты до заварки-то...
— Займи трояк до получки?
— Не дослужился ты...

А ещё один старший коллега рассказал мне в ответ, как он впервые носил регистрировать пятидюймовую дискету.
— Оказывается, они впервые её увидели, я даже пожалел,мне все говорили – не нужно им дискеты показывать, хлопот наберём. Так и вышло! Представляешь, начальник долго разглядывал её со всех сторон, увидел прорезь, через которую магнитная головка дискету читает. Вопросы задавал, вникал. На следующий день радостный пришёл, говорит – Я придумал! надо сургучом заливать и печать ставить. Зачем? - спрашиваю. А чтобы они (видимо, имелись в виду шпионы) прочесть не смогли, а если печать отковыряют – мы сразу увидим!

Такие времена были, такие времена. Новая эпоха стремительно сметала прежнюю, мы начинали жить в новом жанре – на стыке драмы и абсурда.

Сшитый мануал произвёл нужное впечатление в КБ - диковинка, на внушительный том приходили посмотреть из других отделов, рукастых у нас ценили, я выслушал много хорошего.

Самое главное - его было сложно заныкать, все знали - это мой мануал и если просили погонять - обязательно возвращали.

Продолжение следует.

UPD:

Продолжение - Как мы программировали в 90-е. Часть #03

Показать полностью 5

VelStyling

Серия SQL: знакомство

Неочевидные факты про MIN и MAX⁠⁠

1 месяц назад

Простые функции. Кажется, что они находят просто минимум и максимум. Но есть и особенность их использования для интерпретации результатов. Об этом далее.

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0. Его я веду с нуля подписчиков. Присоединяйся!

MIN и MAX — не только про числа

Они работают с любыми типами данных:

датами (MIN(date) даст самую раннюю дату),
строками (MAX(name) вернёт последнюю в алфавитном порядке),
булевыми значениями (MIN(bool) — false, MAX(bool) — true).

Иногда этим можно ловко воспользоваться — например, чтобы узнать, есть ли хоть один true:

SELECT MAX(is_active) FROM users;

Если вернёт true — значит, кто-то активен. Красиво и лаконично.

MIN и MAX — не только агрегатные, но и оконные функции

Можно получить минимум или максимум в рамках окна, не теряя детализацию:

SELECT
user_id,
date,
MAX(date) OVER (PARTITION BY user_id) AS last_activity
FROM logins;

Так можно легко вытащить, когда пользователь последний раз заходил — без группировки и без JOIN.

MIN/MAX и NULL

Они игнорируют NULL.
То есть если у тебя все значения NULL, то результат — NULL.
Это часто ломает аналитику, особенно при сравнении с COALESCE или при объединении данных.

SELECT MAX(COALESCE(score, 0)) -- вернёт 0, а не NULL

→ Иногда важно явно заменить NULL, чтобы не получить "пустой" результат.

MIN/MAX могут ускорить выборку

Если в таблице есть индекс по нужному полю —
MIN() и MAX() используют только крайний элемент индекса.
Это значит, что:

SELECT MAX(price) FROM products;

может пройтись не по миллиону строк, а просто взять последнее значение из B-tree индекса.
То есть — мгновенно.

Можно найти строку с минимальным/максимальным значением

Классическая боль аналитика: как вытащить не просто максимум, а всю строку, где он встретился.

💡 Один из лучших способов — оконная функция + фильтр:

SELECT *
FROM (
SELECT *,
ROW_NUMBER() OVER (ORDER BY salary DESC) AS rn
FROM employees
) t
WHERE rn = 1;

→ Получаем сотрудника с максимальной зарплатой.
Без подзапросов, без JOIN, без боли.

Неочевидный кейс: поиск экстремумов в группах

SELECT department, MIN(salary), MAX(salary)
FROM employees
GROUP BY department;

Классика, но важно:
разница между MAX и MIN = разброс значений, полезный показатель в аналитике (например, зарплат).

💬 Если хочешь больше таких разборов с реальными кейсами SQL без воды — подписывайся на мой Telegram 👉На связи: SQL
Там я рассказываю про SQL так, чтобы стало интересно даже тем, кто раньше его ненавидел 😄

Показать полностью 1

[моё] SQL Аналитика Аналитик База данных Microsoft Excel Анализ данных Min Саморазвитие Эмоциональное выгорание Длиннопост

TytCtac

База захоронений онлайн⁠⁠

1 месяц назад

Лазал по интернету и нашел интересный сайт.

База захоронений онлайн. https://epoisk.ru/burmsk/

летом посмотрел, было мало кладбищ прям, вышел. Зашел вчера, обалдел, добавили кучу кладбищ, чуть ли не все московские.

И это не все…

Весь список скринить не стал. Сам так как испытываю любовь к некрополям, очень легко там залип, нашел могилы своих репетиторов, знакомых, учителей… причём по карте отмечают с точностью до +/- 2-5 метров. Проверил на могилах родственников.

Показать полностью 7

Находка Кладбище Интересные места База данных Длиннопост

Slava.Rozhnev

Серия SQLize.online

SQL-кодеры, приготовиться! Онлайн-песочница sqlize.online получила большие обновления (и свежую Oracle 26ai)⁠⁠

1 месяц назад

Привет, Пикабу! На связи Слава Рожнев, который все ещё делает sqlize.online — ту самую удобную онлайн-песочницу, где можно быстро проверить SQL-запрос, не устанавливая тяжеловесные СУБД.

Я тут немного поколдовали над кодом и выкатил пару жирных обновлений, которые сильно упростят жизнь всем, кто работает с базами данных или только учится.

💾 Больше не нужно копировать в блокнот: Сохраняем код!

Раньше было как? Написал ты, например, сложный CUBE или крутую оконную функцию, чтобы решить задачу, получил результат, закрыл вкладку — и всё, код улетел в Лету.

Теперь это в прошлом! Я добавил регистрацию на платформе. и возможность для всех зарегистрированных пользователей сохранять свои примеры кода!

Это прямо must-have, если вы:

* Решаете задачки и хотите вернуться к ним позже.

* Собираете личные «шпаргалки» для работы с разными диалектами SQL.

* Просто не хотите потерять гениальный запрос, который родился в 3 часа ночи.

Теперь ваши наработки хранятся в личном кабинете. Пользуйтесь на здоровье!

🚀 Oracle 26ai: Выходим на новый уровень

А вот это вишенка на торте для фанатов энтерпрайзных баз данных: мы обновили версию Oracle до самой последней — 26ai!

Да-да, с прицелом на искусственный интеллект. Теперь вы можете тестировать свои запросы на самой свежей и навороченной версии, которая включает массу новых фич, улучшенную производительность и, конечно, все те возможности, которые Oracle предлагает в области работы с ИИ и аналитикой.

Что это значит для вас:

* Вы работаете с самым актуальным инструментарием.

* Можно заранее проверить, как будут работать ваши запросы в самой современной продакшн-среде.

* Прощайте, устаревшие синтаксические конструкции, привет, новые возможности!

Итого:

* Регистрация: Готово!

* Сохранение кода: Готово!

* Oracle 26ai: Готово!

Заходите, регистрируйтесь, сохраняйте свои мега-запросы и ломайте нашу новую Oracle 26ai (в пределах разумного, конечно). Жду ваших багрепортов и предложений в комментариях.

Всем удачи в кодинге и да пребудет с вами долгожданный QUALIFY!

Наш девиз: «Надо тестить? Заходи, инсталляция не нужна!»

Показать полностью

[моё] Программирование IT Обучение SQL Oracle База данных Песочница Текст

VelStyling

Серия SQL: знакомство

AVG. Почему "среднее" не всегда среднее⁠⁠

1 месяц назад

Когда мы видим AVG, кажется, всё просто:

Возьми все значения и найди среднее арифметическое.

Но на практике AVG часто ведёт себя не так, как ты ожидаешь — и это причина десятков аналитических факапов в отчётах.

А пока подписывайся на мой каналНа связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0. Его я веду с нуля подписчиков. Присоединяйся!

Что делает AVG()?

AVG() - агрегатная функция. Она считает среднее значение по всем строкам, которые попали в выборку после фильтрации WHERE

SELECT AVG(column_name)
FROM table_name
WHERE condition;

Пример:

| id | salary |
| -- | ------ |
| 1 | 1000 |
| 2 | 2000 |
| 3 | NULL |
| 4 | 3000 |

SELECT AVG(salary) FROM employees;

Результат → 2000

❗ Почему не (1000 + 2000 + 0 + 3000) / 4 = 1500?

Потому что AVG игнорирует NULL.
Он считает (1000 + 2000 + 3000) / 3.

Если тебе нужно учесть “отсутствие зарплаты” как ноль —
надо явно это сказать базе:

SELECT AVG(COALESCE(salary, 0)) FROM employees;

Где используется AVG

AVG() — базовый инструмент в аналитике:

📈 средний чек (AVG(order_amount))
💰 средняя зарплата по отделу
🕒 среднее время выполнения заказа
⭐ средний рейтинг продукта

Но это только верхушка айсберга.
Ниже — интересные кейсы, где AVG используется неочевидно, но мощно 👇

Обычный AVG считает всё одинаково,
но в реальном мире “вес” данных может быть разный.

Пример — средняя оценка курса:

| user_id | rating | reviews |
| ------- | ------ | ------- |
| 1 | 5 | 1 |
| 2 | 4 | 20 |

Если ты просто возьмёшь AVG(rating) → 4.5
Но по факту второй пользователь оставил 20 отзывов, его мнение должно весить больше:

SELECT SUM(rating * reviews) / SUM(reviews) AS weighted_avg
FROM ratings;

Вот это уже взвешенное среднее, и результат будет ближе к 4.

AVG не коммутативен в агрегациях

AVG(AVG(...)) ≠ AVG(...)

Пример:

| group | value |
| ----- | ----- |
| A | 10 |
| A | 20 |
| B | 100 |
| B | 100 |
| B | 100 |

SELECT AVG(avg_val) FROM (
SELECT group, AVG(value) AS avg_val
FROM t GROUP BY group
) s;

Результат будет → 57.5
А реальное среднее по всей таблице = 86.

Почему?
Потому что при втором AVG каждая группа имеет одинаковый “вес”,
а не количество строк. Это типичный аналитический капкан.

AVG в окнах (window functions)

AVG() можно использовать по “скользящему окну”, чтобы считать динамику:

SELECT
date,
AVG(price) OVER (ORDER BY date ROWS 6 PRECEDING) AS moving_avg_7d
FROM stock_prices;

👉 Это 7-дневное скользящее среднее — классика анализа временных рядов, трейдинга и предсказания трендов.

Среднее как критерий “нормальности”

В аналитике AVG часто используют вместе со STDDEV:

STDDEV (Standard Deviation) — стандартное отклонение (среднеквадратичное отклонение). Это статистическая мера разброса данных относительно их среднего значения в определённом периоде.

SELECT *
FROM purchases
WHERE amount > AVG(amount) + 3 * STDDEV(amount);

Так находят аномально большие значения — подозрительные платежи, мошеннические операции и т.д.

AVG по датам — это тоже работает

Мало кто знает, что AVG() можно применять даже к датам:

SELECT AVG(order_date)::date FROM orders;

PostgreSQL переведёт даты во внутренние числа и вычислит “среднюю дату” —
по сути, середину временного диапазона.
Это удобно, если хочешь понять, когда чаще всего происходили события.

AVG и производительность

AVG() всегда вычисляется через SUM и COUNT,
поэтому если ты делаешь:

SELECT COUNT(*), SUM(amount), AVG(amount)

— оптимизатор посчитает всё за один проход по данным.
Но если AVG в отдельном запросе — будет второй проход.
Мелочь, а при миллионах строк чувствуется.

Мой канал На связи: SQL ждет тебя, если ты тоже хочешь познакомиться с базовым языком для аналитики данных.
Подписывайся!

Показать полностью 1

[моё] Аналитик Аналитика Отчетность Microsoft Excel SQL База данных Длиннопост

VelStyling

Серия SQL: знакомство

COUNT и SUM: как SQL считает⁠⁠

2 месяца назад

Когда мы слышим «COUNT» и «SUM» мы подразумеваем - «считает строки», «суммирует числа»

Но даже для таких действий есть тонкости и нюансы.

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0. Его я веду с нуля подписчиков. Присоединяйся!

В большинстве случаев мы используем 3 вида COUNT

COUNT(*) — считает все строки, даже пустые.
COUNT(column) — считает только те строки, где есть данные.
COUNT(DISTINCT column) — считает уникальные значения в column.

Рассмотрим на конкретном примере:

| id | name | gift |
-------------------------------
| 1 | Оля | Торт |
| 2 | Вася | NULL |
| 3 | Маша | Цветы |
| 4 | Петя | Торт |
| 5 | Катя | NULL |
| 6 | Оля | Торт |

COUNT(*)

Считаем все строки, независимо от содержимого колонок:

SELECT COUNT(*) FROM guests;

Результат: 6

Всего 6 гостей пришло.
Неважно, принес ли кто-то подарок или нет, учитывается каждая строка.

COUNT(gift)

Считаем только те строки, где колонка gift не NULL:

SELECT COUNT(gift) FROM guests;

Результат: 4

Только Оля (Торт), Маша (Цветы), Петя (Торт), Оля (Торт) учитываются.
Вася и Катя, у которых gift = NULL, не считаются.
Эта разница показывает: сколько записей реально имеют данные по этой колонке.

COUNT(DISTINCT gift)

Считаем уникальные подарки:

SELECT COUNT(DISTINCT gift) FROM guests;

Результат: 2

Есть только два уникальных подарка: Торт и Цветы.
Независимо от того, сколько гостей принесли одинаковый подарок, каждый подарок считается один раз.

🔍 Что это говорит при анализе данных

COUNT(*) — общее количество записей (все строки).
COUNT(column) — сколько строк с заполненным значением в колонке.
COUNT(DISTINCT column) — сколько уникальных значений встречается в колонке.

Вывод: разница между этими числами может показать пропуски (NULL) и повторяющиеся данные. Это важно при анализе — если просто взять COUNT(*), можно недооценить проблему с пропущенными значениями.

Ну а теперь рассмотрим SUM

Чтобы показать, как эта функция работает и какие тонкости бывают, рассмотрим таблицу:
Таблица orders:
| id | customer | amount |
| -- | -------- | ------ |
| 1 | Оля | 100 |
| 2 | Вася | NULL |
| 3 | Маша | 200 |
| 4 | Петя | 150 |
| 5 | Катя | NULL |
| 6 | Оля | 100 |

1️⃣ SUM(amount)
Считаем сумму по колонке amount (игнорирует NULL):

SELECT SUM(amount) FROM orders;

Результат: 550

Складываются только числа: 100 + 200 + 150 + 100 = 550
NULL не учитываются
Если бы все значения были NULL, результат был бы NULL, а не 0

2️⃣ SUM(DISTINCT amount)

Считаем сумму уникальных значений:

SELECT SUM(DISTINCT amount) FROM orders;

Результат: 450

Уникальные значения amount: 100, 150, 200
Складываем их: 100 + 150 + 200 = 450
Показывает, сколько реально различных сумм встречается, игнорируя повторения
узнаем, сколько различных сумм клиенты реально платят.
Это полезно, чтобы понять разнообразие корзин, например: есть ли клиенты, которые покупают одинаковые пакеты товаров.

🔍 Важные моменты

NULL не участвуют — всегда нужно помнить, что SUM(column) не считает NULL.
DISTINCT меняет результат — если в колонке повторяются значения, сумма с DISTINCT будет меньше обычной суммы.
Суммирование строк с пропусками — может дать неожиданное ощущение «потери данных».

Вывод:

SUM(column) = фактическая сумма всех чисел
SUM(DISTINCT column) = сумма только уникальных чисел
Важно учитывать NULL, иначе можно получить неожиданные результаты

Показать полностью 1

[моё] Аналитик Аналитика Анализ данных База данных SQL Запросы Самообразование Длиннопост

VelStyling

Серия SQL: знакомство

GROUP BY - группировка или источник факапов⁠⁠

2 месяца назад

Все знают GROUP BY.
Тот самый оператор, который превращает кучу строк в аккуратную табличку с суммами и средними.

Но можно и по-другому взглянуть на GROUP BY

А пока подписывайся на мой канал На связи: SQL Там я публикую посты про особенности и нюансы SQL. Этот канал про то, как не бояться баз данных, понимать, что такое JOIN, GROUP BY и почему NULL ≠ 0. Его я веду с нуля подписчиков. Присоединяйся!

GROUP BY - группировка или источник факапов

В большинстве случаев GROUP BY используют вместе с агрегирующими функциями SUM, COUNT или AVG.

Но есть и другие возможности использования группировки.

В качестве изящной замены DISTINCT
SELECT department FROM employees GROUP BY department;
работает так же, как
SELECT DISTINCT department FROM employees;
Группировать можно по выражениям, а не только по столбцам
Например, хочешь посчитать заказы по годам:
SELECT EXTRACT(YEAR FROM created_at) AS year, COUNT(*)
FROM orders
GROUP BY EXTRACT(YEAR FROM created_at);
Или сгруппировать товары по тысячам рублей:
SELECT (price / 1000)::int AS price_group, COUNT(*)
FROM products
GROUP BY (price / 1000)::int;
GROUP BY умеет строить иерархии
ROLLUP, CUBE, GROUPING SETS — три команды богов:
SELECT region, city, SUM(sales)
FROM orders
GROUP BY ROLLUP (region, city);
→ покажет суммы по городам, по регионам и общий итог.
И всё это одним запросом.
NULL — это тоже группа
Если у тебя несколько строк с NULL в поле department,
то GROUP BY department соберёт их все в одну группу NULL.
SELECT department, COUNT(*)
FROM employees
GROUP BY department;
Логичней использовать COALESCE, чтобы потом не работать с пустыми строками
SELECT COALESCE(department, 'Unknown') AS department, COUNT(*)
FROM employees
GROUP BY COALESCE(department, 'Unknown');
SELECT vs GROUP BY — всё, что не агрегат, должно быть в GROUP BY
SELECT department, name, COUNT(*)
FROM employees
GROUP BY department;
Запрос упадёт, потому что name не в агрегате и не в GROUP BY.
В PostgreSQL есть хитрости: можно использовать array_agg(name) или string_agg(name, ', ')
GROUP BY и оконные функции — не конкуренты
GROUP BY сжимает таблицу.
OVER(PARTITION BY) — сохраняет строки, но добавляет агрегат.
SELECT name, department,
SUM(salary) OVER (PARTITION BY department) AS dep_total
FROM employees;
SQL сам решает, как группировать
PostgreSQL может выбрать:
- HashAggregate — если данных много
- Sort + GroupAggregate — если их мало или мало уникальных значений
То есть одна и та же команда GROUP BY под капотом работает по-разному.
Вот почему один и тот же запрос на 10k строк работает мгновенно, а на 10M — вечность.

PostgreSQL не просто тупо группирует строки, а выбирает стратегию (план выполнения) — как именно эту группировку реализовать.
Это можно отследить в EXPLAIN и уже потом контролировать включением/выключением конкретных алгоритмов.
SET enable_hashagg = off;
SET enable_sort = off;
Это полезно для тестирования или отладки - посмотреть, как изменится план.

GROUP BY — это не просто «посчитать среднюю зарплату по отделу».
Это мощный инструмент, который может:

имитировать DISTINCT
строить иерархические отчёты
объединяться с оконными функциями
…и при этом легко устроить тебе день боли, если ты не знаешь, что делаешь 😅

Показать полностью 1

[моё] SQL Аналитик Аналитика Анализ данных База данных Саморазвитие Запросы Длиннопост

Finder

ТОП-16 курсов Data Engineering: онлайн-обучение на инженера данных бесплатно и платно⁠⁠

2 месяца назад

Один из перспективных направлений обучения в IT сейчас — Data Engineer курсы. Эта профессия связана с обработкой big data, а также созданием и поддержкой хранилищ данных и их инфраструктуры. А работать по ней можно как в проектах data science, так и в аналитике. Освоить специальность смогут все со знанием SQL, навыками Python и опытом решения практических задач в программировании. А Data Engineering курсы уже позволят изучить технологии big data и научат применять инструменты для их анализа и обработки.

Я рассмотрела не один десяток таких программ и собрала список из 16 лучших вариантов. В первой части обзора будет краткое и подробное описание ТОП-10, а во второй — список еще 6 неплохих предложениях. Также для некоторых курсов я нашла дополнительные эксклюзивные скидки, акции и промокоды.

ТОП-10 лучших курсов Data Engineer в 2025 году

Дата-инженер от Нетологии — курс от специалистов Яндекса и Сбербанка, после которого в портфолио появятся сразу 6 готовых проектов.
Профессия Data Engineer от Skillbox — программа с вечным доступом, в формате для гуманитариев и с разными дополнительными курсами в подарок.
Инженерия данных от Нетологии и НИУ ВШЭ — направление для специалистов, уже получивших высшее образование в любой математической области.
Инженер данных с нуля от Яндекс Практикума — программа профессиональной переподготовки с поддержкой наставников и free-доступом к Yandex GPT.
Инженер данных от Хекслета — курс со стажировкой на реальных проектах, 80% практики и карьерным сопровождением после окончания учебы.
Инженер данных от Karpov.Courses — еще один курс с помощью в устройстве на работу, который даже включает в себя симуляторы собеседований.
Data Engineer от Otus — на программе вебинары всегда проходят в прямом эфире, а всем студентам дарят стартовый курс по Python.
Data-инженер от Слёрм — курс с бесплатным доступом на 3 дня, в течение которых студенты успевают выполнить собственный реальный проект.
Профессиональная переподготовка Инженер данных от АПОК — несмотря на свое название, проходит «с нуля» и наличия профессионального опыта не требует.
Инженер больших данных (Big Data Engineer) от Специалист.ru — комплексная учебная программа из 11 отдельных курсов и с гибким графиком обучения.

Онлайн-курсы Data Engineer

1. Дата-инженер | Нетология

Используйте промокод kursfinder, чтобы получить скидку 7%

Получить скидку >>>

Обучение Data Engineer с free-доступом к Yandex Cloud, в рамках которого студенты учат особенности проектирования хранилищ данных, а также узнают правила выбора DWH на основе конкретных задач и бюджетов бизнеса. Также на курсе проходят разные процессы обработки данных, обучаются работе со Spark SQL, DataFrame и т. д. И, что немаловажно, изучают, как эффективнее презентовать важные для компании данные, и получать отдачу.

Кроме того, участники курса выполняют шесть проектов для своего личного портфолио и учатся трансформации в Pentaho. А также разрабатывают запросы SQL под аналитические задачи и не только запускают базу данных, но и наполняют ее с помощью ETL-процессов.

Стоимость: от 4 083 руб. в месяц
Длительность: от 1 года
Формат обучения: вебинары, записи лекций, практические работы, задания на дом
Сертификат: есть

Кому подойдет: и начинающим, и опытным специалистам (есть 3 уровня сложности).

Преимущества:

гибкий график обучения и бесплатный доступ к Yandex Cloud в процессе обучения, плюс постоянная поддержка кураторов в чате;
шанс учиться у преподавателей с большим профессиональным опытом — среди них есть бизнес-архитекторы и аналитики, специалисты Сбербанка, Яндекса и др.;
опция возврата денег в том случае, если курс по каким-то причинам не подойдет, а также возможность оформить за обучение бонусный вычет;
бонусные курсы по облачной инфраструктуре, Java, визуализации и английскому — в подарок каждому участнику;
митапы с экспертами и HR, а также общая практическая направленность обучения и помощь в подготовке к трудоустройству (но не само трудоустройство).

Недостатки:

отсутствие подробного разбора домашних заданий — из-за этого может тратиться много времени на самостоятельный поиск дополнительной информации;
часть лекция была записана несколько лет назад, хотя IT-рынок уже изменился.

Программа обучения:

изучение основ SQL и получения больших данных, проектирование DWH;
знакомство с языком Python для анализа данных и Tableau для их визуализации;
обучение профессиональной работе с Data Lake & Hadoop;
получение навыков работы с потоковыми данными;
подробное ознакомление с облачными технологиями в работе с big data.

Ознакомиться с полной программой >>>

2. Профессия Data Engineer | Skillbox

Используйте промокод kursfinder, чтобы получить скидку 50%

Применить промокод>>>

Комплексное обучение Data Engineering позволяет пройти путь от первого шага в области анализа данных до уровня Junior. Причем учиться можно без привязки времени, а все обучающие материалы сохраняются у участников курса в вечном доступе. В процессе обучения уделяется много внимания навыкам программирования на Python, SQL и работе с технологиями big data. А практические занятия строятся на реальных задачах из бизнеса.

Также пользователи учатся применять инструменты для построения Data Lake, и по итогу получают сертификат, с которым могут претендовать на достойные рабочие места. Кроме этого, курс был обновлен в 2025 году, и соответствует современным требованиям индустрии.

Стоимость: от 5 848 руб. в месяц
Длительность: 9 месяцев
Формат обучения: записи лекций, задания на дом, проекты, онлайн-тренажеры
Сертификат: есть

Кому подойдет: новичкам и уже опытным программистам или аналитикам.

Преимущества:

возможность учиться даже гуманитариям — все темы курса объясняются «с нуля» и максимально подробно;
free-доступ к Yandex Cloud в течение всего срока обучения, а также 3 онлайн-курса в подарок плюс шанс на получение дополнительной скидки;
добавление в портфолио 3 проектов (в случае хороших успехов в учебе) и помощь в трудоустройстве, включая крупнейшие IT-компании;
постоянная поддержка кураторов, а также общение в чате с другими участниками курса — для создания мотивирующей атмосферы;
обновленные модули по машинному обучению и аналитике, а также актуальность информации как таковая — все темы были доработаны или изменены.

Недостатки:

блоки не синхронизированы, что может приводить к повторениям информации;
нехватка подсказок в некоторых учебных заданиях — из-за этого приходится искать много информации самостоятельно, на что не всегда есть время;
не всегда полное раскрытие темы — недостаток теории для выполнения практики.

Программа обучения:

введение в само направление Data Science — базовое и более продвинутое;
изучение основ статистики, теории вероятностей и математики для Data Science;
прохождение специализации по машинному обучению;
еще одна специализация, уже по анализу данных;
подтверждение навыков через выполнение финального проекта.

Ознакомиться с полной программой >>>

3. Инженерия данных | Нетология и НИУ ВШЭ

Используйте промокод kursfinder, чтобы получить скидку 7%

Получить скидку >>>

Еще одна программа по профессии инженер данных, обучение в которой дает серьезный объем знаний и необходимую для успешной реализации в специальности квалификацию. В ходе курса пользователи изучают сразу 3 актуальных языка программирования, учатся владеть инструментами разработки и проводить аналитику больших баз данных, а также автоматизировать эти процессы и др. По окончании получают диплом с приложением на английском.

Более того, если выбрать это дистанционное обучение в рамках магистратуры, то можно получить отсрочку от армии. К тому же, организаторы предоставляют всем возможность сначала ознакомиться с курсом бесплатно — чтобы заранее понять специфику профессии.

Стоимость: 200 000 руб. за семестр
Длительность: 2 года
Формат обучения: видеолекции, онлайн-семинары, практические занятия на дом
Сертификат: есть

Кому подойдет: выпускникам технических и естественно-научных факультетов.

Преимущества:

онлайн-формат с вебинарами, хакатонами и практикой — это позволяет соединять обучение на курсе с работой (или учиться в ВШЭ из любой точки страны);
преподавательский состав — практикующие специалисты, которые делятся своим реальным опытом и говорят о действительно актуальных сегодня задачах;
поддержка от кураторов и активная обратная связь на протяжении всего периода обучения — по любым вопросам, связанным с учебным процессом;
акцент на практику — участники курса работают с настоящими данными и только теми задачами, которые предлагают компании-партнеры;
обязательные стажировки в крупных компаниях и помощь в трудоустройстве — в рамках программы даже есть спецкурс по успешному выходу на рынок труда.

Недостатки:

достаточно высокая стоимость обучения — 2 года по 200 тыс. за семестр;
необходимость иметь диплом бакалавра по любой технической специальности — со средне-специальным или гуманитарным образованием на курс не принимают;
сложные задания — иногда для них нужна та информация, что не было в лекции.

Программа обучения:

освоение работы с такими важными для инженера данных инструментами как SQL, PostgreSQL, Airflow, Yandex Cloud, ClickHouse, CI/CD и др.;
обучение более глубокому владению языками Python, SQL и Java, а также сбору big data, трансформации и обработке данных и т. д.;
знакомство с главными рабочими задачами дата-инженера и методами их решения;
семинары с подготовкой проектов по программной и системной инженерии;
участие в хакатоне с демонстрацией навыков командного взаимодействия.

Ознакомиться с полной программой >>>

4. Инженер данных с нуля | Яндекс Практикум

Купите курс с выгодой до 20% при оплате сразу

Купить курс>>>

Программа для тех, кто понимает, что пройти Data Engineering курс бесплатно и получить при этом необходимый для работы практический опыт не получится. И поэтому выбирает изучить навыки программирования на Python и SQL, а также работу с big data, Data Lake и хранилищами в рамках полноценной программы обучения — для всех желающих, включая гуманитариев. Она предлагает интенсивное погружение в темы и решение реальных задач.

Курс ориентирован на практику и применение современных инструментов, включая Spark, Airflow и др. А самые сложные модули успешно проходятся с помощью кураторов. Кроме того, по завершению учебы все участники получают поддержку при устройстве на работу.

Стоимость: от 6 899 руб. в месяц
Длительность: 11 месяцев
Формат обучения: видеолекции в записи, онлайн-тренажеры, воркшопы
Сертификат: есть

Кому подойдет: всем, кто хочет освоить новую профессию без опыта в IT.

Преимущества:

можно дойти до уровня Junior Data Scientist со статуса абсолютного новичка, а также получать помощь от карьерного центра компании;
доступ к учебным материалам в любое время и поддержка экспертов и кураторов в течение всего срока обучения;
выполнение 10+ проектов, которые можно добавить в персональное портфолио — с ним диплом государственного образца обычно оценивается лучше;
ставка не на теорию, а на практическую работу — обучение на курсе выстраивается по так называемой спринтовой модели;
изучение самых востребованных сегодня технологий и периодически обновляемая программа — для достижения максимальной актуальности.

Недостатки:

по отзывам, практических воркшопов меньше, чем этого бы хотелось студентам;
часть заданий похожи на работу тестировщика — поиск и отлов багов, ошибок и др., что тоже полезно для студентов, но не входит в саму специальность;
материалов лекций мало для выполнения заданий на дом без поиска информации.

Программа обучения:

базовое и углубленное изучения языка Python, инструментов разработчика, работы с HTTP-запросами;
знакомство с алгоритмами и структурами данных, основами SQL и PostgreSQL, а также продвинутым SQL;
проектирование хранилища данных и работа с их витринами, проверка качества и интеграция данных сразу из нескольких источников;
создание аналитической базы и Data Lake, реализация потоковой обработки;
работа с облачными технологиями и подготовка выпускного проекта.

Ознакомиться с полной программой >>>

5. Инженер данных | Хекслет

Программа, которая попала в лучшие курсы по Data Engineer потому, что делает ставку на практику — на решение реальных рабочих задач и проекты в ней отведено почти 80%. При этом участники сразу получают доступ к коммерческим, а не умозрительным IT-проектам, и учатся работать в командах. Однако в процессе это не так пугающе, как кажется, потому что студентов сопровождают наставники, которые подробно разбирают с ними код, и т. д.

Помимо этого, обучение идет без жестких дедлайнов, а учебные материалы сохраняются у пользователей навсегда. Плюс отдельное внимание уделяется трудоустройству и будущим собеседованиям, включая их имитацию и отработку самых правильных ответов и реакций.

Стоимость: от 5 651 руб. в месяц
Длительность: 10 месяцев
Формат обучения: видеоуроки, онлайн-тренажеры, домашние задания, тесты
Сертификат: есть

Кому подойдет: IT-специалистам без опыта и всем, кто хочет перейти в дата-инжиниринг.

Преимущества:

отведение на практику 80% всей программы и работа с реальными коммерческими задачами, результаты которых наиболее наглядные и мотивирующие;
стажировка с настоящими релизами и поддержка куратора на каждом шаге — в том числе в течение полугода после окончания курса (в процессе поиска работы);
наличие бесплатного модуля — для свободного старта и знакомства с форматом еще до внесения оплаты;
помощь в составлении резюме и отработка поведения на будущих собеседованиях — для более успешного их прохождения и возможности выбирать компании;
гарантия возврата денег за обучение — если получить должность дата-инженера по каким-либо причинам не получится.

Недостатки:

сложность материала — если нет никаких базовых познаний в программировании;
отсутствие точных ответов от куратора — они дают скорее направление для поиска;
тестовая часть — по отзывам студентам, тесты не помогают усвоению материала, и их прохождение нужно только «для галочки».

Программа обучения:

введение в основы Data Engineering, языка Python и программирования;
знакомство с инструментами разработки и функциями профессионального Python;
освоение навыков работы с базами данных и API, а также администрирования;
проработка Soft Skills и прохождение отдельного карьерного модуля;
стажировка в крупных партнерских компаниях и выполнение выпускного проекта.

Ознакомиться с полной программой >>>

6. Инженер данных | Karpov.Courses

Курс для тех, кому хочется освоить эту профессию с нуля и уверенно приступить к работе сразу после окончания учебы. В ходе программы студенты выполняют более 230 заданий, работают над практическими кейсами и получают максимально приближенный к реалиям опыт. Для этого они развивают навыки программирования, построения хранилищ данных, а также использования SQL, Python, Spark и других инструментов обработки информации.

Причем процесс обучения разработан самой школой и является авторским, а весь учебный материал остается доступным для учеников даже после выпуска. Также они проходят ряд тестовых заданий и формируют профессиональное портфолио из выполненных проектов.

Стоимость: 80 750 руб.
Длительность: 6 месяцев
Формат обучения: видеоуроки, текстовые конспекты, симуляторы, задания на дом
Сертификат: есть

Кому подойдет: всем новичкам в IT, а также начинающим дата-инженерам без опыта.

Преимущества:

множество практических и тестовых заданий, а также наличие симуляторов для тренировок собеседований;
персональная обратная связь от кураторов проекта плюс приоритетный доступ к вакансиям партнерских компаний;
создание полноценного профессионального портфолио Junior Data Engineer — с проверкой и рекомендациями от экспертов;
прохождение курса на собственной платформе компании — с комментариями по каждому домашнему заданию и доступом к материалам в любое время;
гарантия возврата денег в течение 2 недель после старта обучения — если станет ясно, что программа (или сама профессия) не подходит.

Недостатки:

чересчур академическая подача материала, которая устраивает не всех студентов;
неравномерное соотношение теоретической и практической части в ряде модулей — это создает трудности в усвоении программы;
задержки при проверке домашних заданий — из-за большого потока пользователей.

Программа обучения:

изучение основ обработки данных — от архитектур систем и до выбора нужных для решения конкретных задач инструментов;
работа с базами данных — построение хранилищ, оптимизация запросов и т. д.;
создание пайплайнов — начиная со сбора и трансформации данных и заканчивая их правильной загрузкой;
приобретение навыков работы с облачными решениями и обучение развертыванию инфраструктуры;
разработка идеи финального проекта, его реализация и презентация.

Ознакомиться с полной программой >>>

7. Data Engineer | Otus

Очередная программа, попавшая в топовые курсы по Data Engineering из-за значительного количества практики. Она проходит в Yandex Cloud, где пользователи поэтапно осваивают главные профессиональные инструменты и основы работы с хранилищем данных. Также в процессе уделяется внимание потоковому и пакетному режиму обработки, а в завершении обучения участники могут сами проектировать пайплайны, работать с Apache Spark и т. д.

Также студенты курса получают бесплатный доступ к целому ряду ресурсам и находятся в активном диалоге с преподавателями и кураторами. Отдельно нужно отметить комьюнити платформы — оно большое, быстро развивается и поддерживает всех новых пользователей.

Стоимость: 114 000 руб.
Длительность: 5 месяцев
Формат обучения: вебинары, текстовые материалы, практические задания на дом
Сертификат: есть

Кому подойдет: начинающим дата-инженерам, аналитикам и другим IT-специалистам.

Преимущества:

учеба в любое удобное время (все лекции можно смотреть в записи) и пожизненный доступ к обучающим материалам;
вводный курс по Python в подарок, а также практика в Yandex Cloud — для навыков работы с облачными технологиями в целом;
поддержка преподавательского состава по любым вопросам, связанным с учебным процессом, а также добавление во внутреннее Telegram-сообщество;
работа на комфортной и аккредитованной платформе, которая включена в реестр отечественного программного обеспечения;
создание профессионального портфолио из реальных коммерческих проектов — на базе задач от компаний-партнеров проекта.

Недостатки:

несогласованность в работе преподавателей — они могут повторяться по темам;
ошибки в раздаточных материалах — например, там встречается устаревший код.

Программа обучения:

знакомство с основами дата-инжиниринга и архитектурой систем данных;
углубленное изучение программирования на Python, а также продвинутого SQL;
работа с облачными платформами, обработка big data с применением Apache Spark;
постройка, оптимизация ETL/ELT, работа с разными СУБД и системами хранения;
использование функций Docker, разработка и защита выпускного проекта.

Ознакомиться с полной программой >>>

8. Data-инженер | Слёрм

Курс позволяет освоить профессию дата-инженера от А до Я, начиная с базовых знаний и заканчивая участием в проектах крупных компаний. Причем обучение проходит в комфортном для студентов темпе, и после каждого его модуля они выполняют задания на виртуальных стендах — с подробным разбором их решений экспертами. Цель программы — сформировать у аудитории прикладные навыки применения актуального инструментария.

При этом учащиеся могут использовать не только открытые источники, но и свои данные, а итоговый проект становится частью их портфолио. Программа максимально практична и нацелена на бизнес-задачи, а также регулярно обновляется — вместе с изменениями рынка.

Стоимость: от 4 735 руб. в месяц
Длительность: 120 часов (без дедлайнов)
Формат обучения: видеоуроки, работа на онлайн-стендах, практические задания
Сертификат: есть

Кому подойдет: начинающим аналитикам баз данных, другим IT-специалистам без опыта.

Преимущества:

ориентация на практику — из 120 часов учебной программы на решение реальных задач бизнеса отводится 88;
двухгодичный доступ к материалам курса после его завершения, а также получение постоянной менторской поддержки и разбора заданий от специалистов;
возможность учиться без привязки не только к месту, но и ко времени — участники курса могут пройти 120 часов за любое удобное им количество недель или месяцев;
гарантия актуальности информации и инструментов — после каждого обновления в программе остаются только действительно нужные в моменте технологии;
шанс получить корпоративную скидку и оформить налоговый вычет — что делает стоимость обучения еще более выгодной.

Недостатки:

недостаточная проработанность материалов, по мнению ряда пользователей;
несмотря на обновления, в части тем так и проскакивают уже устаревшие сведения.

Программа обучения:

изучение языка программирования Python и терминала задач Data Engineering;
знакомство с Hadoop, распределенными файловыми системами и реляционными базами данных;
методология и архитектура хранилищ big data, их процессинг и перекладка;
обучение обращению с оркестраторами и шинами данных, потоковой аналитикой;
обретение навыка работы с ETL-инструментом, изучение оценки качества данных;
разработка, выполнение и защита финального проекта.

Ознакомиться с полной программой >>>

9. Профессиональная переподготовка Инженер данных | АПОК

Курс готовит специалистов по работе с большими объемами данных и позволяет им освоить все необходимые инструменты в достаточно сжатые сроки. Студенты изучают особенности хранилищ big data, способы их обработки и подготовки для ML-инженеров и других отделов и т. д. Таким образом, программа рассчитана на то, чтобы они приобрели фундаментальные навыки работы в дата-инженерии, и быстро нашли работу в этой сфере.

Однако так как это программа профессиональной переподготовки, то для поступления на курс надо уметь уже законченное высшее или средне-специальное образование. И желательно математического плана — точных ограничений по профессиям нет, но это упростит учебу.

Стоимость: 29 980 руб.
Длительность: 1 месяц (250 часов)
Формат обучения: вебинары, текстовые конспекты, онлайн-тесты, задания на дом
Сертификат: есть

Кому подойдет: всем, кто хочет поменять свою специальность на работу дата-инженера.

Преимущества:

отсутствие четкого расписания — учеба в любое удобное время, а также совмещать обучение с работой;
высокое качество учебных материалов — структурированная и понятная подача информации, подкрепление теории практическими примерами и т. д.;
активная поддержка студентов — преподаватели и методисты отвечают на вопросы и помогают решать разные вопросы в течение всего срока обучения;
возможность оформить оплату обучения в рассрочку, а также получить налоговый вычет за эту сумму;
при необходимости готовый диплом о профессиональной переподготовке может быть отправлен выпускнику курса по почте (бесплатно).

Недостатки:

технические проблемы с учебной платформы — иногда не сохраняются тесты и др.;
недостаток практических заданий — по сравнению с остальными программами;
высокая интенсивность — освоить 250 часов в течение месяца может быть сложно, особенно если процесс учебы сочетается с работой.

Программа обучения:

введение в само направление Data Science, а также работу с данными и основными инструментами дата-инженера;
изучение основ статистики для анализа данных и технологий машинного обучения;
знакомство с анализом временных рядов и прогнозированием;
работа над реальными бизнес-кейсами и настоящими коммерческими задачами;
разработка итогового проекта, создание портфолио, подготовка к собеседованиям.

Ознакомиться с полной программой >>>

10. Инженер больших данных (Big Data Engineer) | Специалист.ru

Комплексный курс включает в себя 11 отдельных модулей обучения. Учащиеся начинают освоение специальности с изучения специализированных инструментов Excel, и потом приступают к формированию SQL-запросов и использованию базовых конструкций Python. После этого стартует обучение построению диаграмм и разнообразных графиков, а также знакомство с тем, каким образом big data можно соединять и переформатировать.

Учиться по программе можно в свободном графике — записи лекций и семинаров доступны в любое время и к ним разрешается возвращаться еще в течение полугода после финала обучения. А другие учебные материалы (не видео) остаются у студентов навсегда.

Стоимость: 285 290 руб.
Длительность: от 4 месяцев
Формат обучения: записи лекций, семинары с преподавателями, занятия на дом
Сертификат: есть

Кому подойдет: уже подготовленным специалистам с базовыми знаниями по сетевым ОС.

Преимущества:

опытный преподавательский состав — не только практикующие программисты или инженеры, но и доктора наук, а также научные сотрудники РАН;
подарок за успешное окончание курса (на практике его получают все пользователи) — 3 бесплатные персональные консультации по пройденным темам;
участие в «живых» онлайн-семинарах с преподавателями, в ходе которых можно задавать вопросы и получать разбор своих ошибок;
обретение не только теоретических знаний, но и практических навыков в решении стандартных рабочих задач современного дата-инженера;
гарантированная помощь в трудоустройстве (вплоть до подбора самых подходящих вакансий) и возможность получить налоговый вычет за внесенную оплату.

Недостатки:

бессрочный доступ предоставляется только к некоторым материалам курса;
большой объем материала — часть лекций растягивается на 3–4 часа без перерывов, и в отзывах можно найти множество предложений разбивать их на куски.

Программа обучения:

изучение основ работы с большими данными и анализа данных на языке SQL;
программирование на Python и Java — базовые курсы с дополнениями по теме;
знакомство с Apache Kafka для разработчиков и основами Apache Hadoop, а также такими инструментами как MapReduce, Hive, Spark и Cassandra;
обучение автоматизации рабочих процессов при помощи Airflow;
построение пайплайнов — процессов доставки данных из одного места в другое.

Ознакомиться с полной программой >>>

Еще 6 курсов Data Engineer

Так как сегодня это очень востребованное направление, на перечисленных программах по профессии инженер данных курсы в интернете не кончаются. Более того, в предложениях есть и полностью бесплатные варианты — они прекрасно подойдут для знакомства с темой.

Прикладной анализ данных и машинное обучение от Skillfactory — программа для всех, кто хочет получить более фундаментальные знания в сфере анализа больших данных. Техническое образование для поступления на курс не требуется, учиться можно с нуля.
Инженер данных от Компьютерной Академии ТОП — на курсе студенты могут получить все необходимые для освоения новой профессии знания и навыки. В частности, их обучают управлению потоками big data, работе с базами, обработке больших объемов данных при помощи Apache Airflow и проектировке архитектуры хранилищ.
Симулятор «Инженер данных» от Simulative — интерактивный курс с настоящими бизнес-проектами, который подойдет пользователям, предпочитающим практико-ориентированный подход и желающим получить реальный опыт работы с big data.
Big Data Engineer от TopTrening — полноценный курс продолжительностью 1 год, который подходит специалистам, уже работающим в сфере big data или в смежных IT-специальностях.
Data Engineer от NewProlab — обучающая программа с упором на практику, причем максимально приближенную к реальной работе дата-инженеров.
Data Engineer от МФТИ — бесплатное обучение на инженера данных, состоящее из комплекта материалов от преподавателей крупного российского института. По ним пользователи могут освоить работу с Python и SQL, ознакомиться с особенностями Hadoop и Spark, а также разобраться в Apache Kafka, Hive и Git.

Часто задаваемые вопросы

Чем занимается на работе Data Engineer?

Дата-инженеры занимаются созданием и обновлением инфраструктуры данных, а также поддержанием ее работоспособности. Плюс в их обязанности входит разработка и оптимизация процессов загрузки и трансформации big data и их последующего хранения.

Какие навыки нужны, чтобы стать дата-инженером?

Это навыки программирования (Python, SQL), знание баз данных и инструментов для их обработки (Apache Spark, Hadoop и др.), а также облачных технологий и принципов big data. Однако необязательно знать их заранее – множество курсов обучают этому с нуля.

Какие технологические тренды влияют на Data Engineering?

Прежде всего, это распределенные системы обработки данных и облачные технологии для их хранения и анализа. Плюс нельзя не отметить влияние автоматизации процессов ETL и внедрение машинного обучения для анализа информации: всему этому обучают на курсах.

Как в области Data Engineering можно вырасти?

Для этого надо продолжать обучение новым технологиям и методикам обработки данных, а также не отказываться от участия в профессиональных конференциях, вебинарах и т. п. Еще один путь развития — регулярное прохождение курсов для повышения квалификации.

Если я специалист в бизнес-процессах, что мне даст Data Engineering?

В таком случае учеба в этом направлении поможет создавать более эффективные решения для обработки больших данных. Причем именно такие решения, которые будут подходить потребностям определенного бизнеса и, как следствие, повышать показатели его прибыли.

Если обучение Data Engineer уже было, надо ли учиться сейчас? Или сразу идти работать?

Технологий и тенденции в области инженерии данных и IT-сферы постоянно меняются, и поэтому свои знания все же стоит обновить. Это даст возможность эффективнее работать с большими данными, выбирать оптимальные инструменты и двигаться в карьере дальше.

Чтобы пройти любые Data Engineer курсы успешно, нужно заранее оценить свои навыки и уже имеющийся опыт, выбрать подходящую к ним учебную программу, и подключиться к профессиональным сообществам еще на этапе обучения. Это позволит не только влиться в среду и быстрее найти стажировку, но и не потерять мотивацию. Также важно создавать портфолио из выполненных проектов, которое станет важным дополнением к резюме. А с вакансиями проблемы не будет — из-за стремительной цифровизации компаний профессия инженера данных становится ключевой, и бизнес крайне нуждается в таких специалистах.

Показать полностью 12

Обучение Курсы SQL Python Онлайн-курсы Большие данные База данных Блоги компаний Длиннопост

Посты не найдены