9

Творожок Часть 1 QA

Я год ждал пока кто-нибудь напишет в сообщество “Аналитика данных” пост про аналитику или про дата менеджмент. Хуй там валялся. Пара каких-то постов ни о чем. Придется самому писать.

Итак.

Речь пойдет о творожках… Почему о творожках, спросите вы. И я с удовольствием отвечу: потому что я и моя дочь едим их на завтрак и иногда в течении дня. Бывают ситуации когда открываешь холодильник, с вожделением протягиваешь руку к прохладной пластиковой баночке, а там хер. Нету ничего. Закончились творожки. Для того чтобы избежать подобной ситуации в будущем - ее нужно уметь прогнозировать.  А какой может быть прогноз без аналитики?

Творожки я покупаю в большом сетевом магазине, по традиции Пикабу назову его так:  начинается на "Пере" и заканчивается на "кресток". Особо пытливые умы думаю догадаются. Каждый раз когда я там пробиваю покупку на кассе, подсовываю скидочную карту, в надежде получить скидочки. В это время заботливый сервер сохраняет список моих покупок. Поэтому зайдя в личный кабинет магазинчика - я могу посмотреть когда, чего, сколько и за сколько деняк я все покупал.

Скопировав эти данные я получил сырой датасет.  Дата, че купил, сколько и за сколько.

Питончиком причесываем данные и приводим в съедобный вид:

И первое что делает аналитик с сырыми данными - изучает их. И поэтому первое что мы разберём - это QA (качество) данных.

Данные проверяются по принципу “КОролевской СОбаке ТОчно ПОхуй на СВОю УНикальность”.

КО - корректность. Проверяем, что в колонке количество у нас числа, а не слово “хуй” например.

СО - согласованность. Если в сырых данных написано “творожок Блядисимо”, нехуй его сокращать или переименовывать, потому что если они попадут в разные таблицы или базы данных вы потом хер поймете один и тот же это творожок или разные.

ТО - точность. Если творожок стоит 63.99 это значит за два творожка я отвалю 127.98, а не 128 рублей. Ясно вам, Округлятели херовы?

ПО - полнота. Забегая вперед скажу, что на творожки за этот год я потратил 26 тысяч рубасов. Сам охуел если честно. Больше всего творожков пришлось на октябрь. Я бы не смог посчитать этого если в данных нет даты или названия продукта.

СВО - своевременность. Данные собрал с 1 декабря прошлого года до 1 декабря нынешнего. На следующий год пересчитаю за полный год. Будет своевременно. И красиво. 

УН - уникальность. Данные не должны дублироваться и чтобы не охуеть от двойных и тройных сумм в дашборде - создаем ключи и ID везде, где это возможно. Легче потом отследить от какой жопы те или другие ноги.

В любом случае в больших организациях за качество данных отвечает владелец бизнес-функции (начальник продаж, начальник закупок, начальник логистики и прочие шишки), а в очень больших - Data Quality Engineer. Поэтому если закупщики при создании карточки товара въебут килограммы туда где должны быть граммы и “хз” туда где должны быть сантиметры - то вместо кучи интересной информации бизнес-пользователи получат кучу говна. И это должна быть проблема бизнес-функции, а не аналитика, который по мнению бизнес-пользователей должен всю эту херню вылавливать и причесывать.

Продолжение следует…

P.S. Где тег "Творожок"?

Больше постов читайте по тегу «Аналитика». А если хотите изучить новую профессию, посмотрите актуальные курсы от проверенных школ с реальными отзывами на сайте Пикабу Курсы.

Аналитика данных

19 постов93 подписчика