Творожок Часть 1 QA
Я год ждал пока кто-нибудь напишет в сообщество “Аналитика данных” пост про аналитику или про дата менеджмент. Хуй там валялся. Пара каких-то постов ни о чем. Придется самому писать.
Итак.
Речь пойдет о творожках… Почему о творожках, спросите вы. И я с удовольствием отвечу: потому что я и моя дочь едим их на завтрак и иногда в течении дня. Бывают ситуации когда открываешь холодильник, с вожделением протягиваешь руку к прохладной пластиковой баночке, а там хер. Нету ничего. Закончились творожки. Для того чтобы избежать подобной ситуации в будущем - ее нужно уметь прогнозировать. А какой может быть прогноз без аналитики?
Творожки я покупаю в большом сетевом магазине, по традиции Пикабу назову его так: начинается на "Пере" и заканчивается на "кресток". Особо пытливые умы думаю догадаются. Каждый раз когда я там пробиваю покупку на кассе, подсовываю скидочную карту, в надежде получить скидочки. В это время заботливый сервер сохраняет список моих покупок. Поэтому зайдя в личный кабинет магазинчика - я могу посмотреть когда, чего, сколько и за сколько деняк я все покупал.
Скопировав эти данные я получил сырой датасет. Дата, че купил, сколько и за сколько.
Питончиком причесываем данные и приводим в съедобный вид:
И первое что делает аналитик с сырыми данными - изучает их. И поэтому первое что мы разберём - это QA (качество) данных.
Данные проверяются по принципу “КОролевской СОбаке ТОчно ПОхуй на СВОю УНикальность”.
КО - корректность. Проверяем, что в колонке количество у нас числа, а не слово “хуй” например.
СО - согласованность. Если в сырых данных написано “творожок Блядисимо”, нехуй его сокращать или переименовывать, потому что если они попадут в разные таблицы или базы данных вы потом хер поймете один и тот же это творожок или разные.
ТО - точность. Если творожок стоит 63.99 это значит за два творожка я отвалю 127.98, а не 128 рублей. Ясно вам, Округлятели херовы?
ПО - полнота. Забегая вперед скажу, что на творожки за этот год я потратил 26 тысяч рубасов. Сам охуел если честно. Больше всего творожков пришлось на октябрь. Я бы не смог посчитать этого если в данных нет даты или названия продукта.
СВО - своевременность. Данные собрал с 1 декабря прошлого года до 1 декабря нынешнего. На следующий год пересчитаю за полный год. Будет своевременно. И красиво.
УН - уникальность. Данные не должны дублироваться и чтобы не охуеть от двойных и тройных сумм в дашборде - создаем ключи и ID везде, где это возможно. Легче потом отследить от какой жопы те или другие ноги.
В любом случае в больших организациях за качество данных отвечает владелец бизнес-функции (начальник продаж, начальник закупок, начальник логистики и прочие шишки), а в очень больших - Data Quality Engineer. Поэтому если закупщики при создании карточки товара въебут килограммы туда где должны быть граммы и “хз” туда где должны быть сантиметры - то вместо кучи интересной информации бизнес-пользователи получат кучу говна. И это должна быть проблема бизнес-функции, а не аналитика, который по мнению бизнес-пользователей должен всю эту херню вылавливать и причесывать.
Продолжение следует…
P.S. Где тег "Творожок"?



Аналитика данных
19 постов93 подписчика