Боль аналитиков данных как она есть

Перевод:

- Я буду хранить большое количество структурированных данных

- В базе данных, да?

Боль аналитиков данных как она есть IT юмор, База данных, Юмор, Мемы, Картинка с текстом, Энакин и Падме на пикнике

IT-юмор

6K постов52.8K подписчиков

Правила сообщества

Не публикуем посты:
1) с большим количеством мата
2) с просьбами о помощи
3) не относящиеся к IT-юмору

42
Автор поста оценил этот комментарий

Очень часто люди просто не знают функционала Экселя и от того его неправильно воспринимают

раскрыть ветку (1)
47
Автор поста оценил этот комментарий

Далеко не всегда люди обоснованно пользуются экселем или MS Access. Просто они так привыкли и так им удобно. Особенно ярко это проявляется среди людей старшего поколения и работающих в контролинге. Понятно, что небольшое количество данных можно хранить в экселе и обеспечить актуальность и правильность этого файла просто поместив его в облако и включив контроль версий. Но когда большое кол-во данных хранят в экселе, когда приходится 10 минут ждать пока откроется файл, это ппц. Говоришь, давайте найдем прогу, будете заносить, я загружу данные  в базу, сможем визуализировать и анализировать данные сколько угодно. Показываешь, давайте я потрачу один день,  а вы будете экономить каждую месяц по неделе, нет, так работает, мы так привыкли. К сожалению, на всех почти больших предприятиях это так.

показать ответы
4
Автор поста оценил этот комментарий

50 млн строк это херня)

Говорю как аналитик. Сейчас ищу меня в задаче есть таблицы в несколько миллиардов строк. Итоговая витрина получается около 50 лярдов строк.

В data lake объем измеряется петабайтами.

раскрыть ветку (1)
5
Автор поста оценил этот комментарий

Да, именно где то так и начинается big data:)

Автор поста оценил этот комментарий

Да ноль боли, если сильно надо, то договариваешься о шаблонах и загружаешь куда тебе надо после нормализации.

раскрыть ветку (1)
2
Автор поста оценил этот комментарий

речь идет о замене базы данных экселем. Конечно, мы писали скрипты которые считывают csv и загружают все в базу

33
DELETED
Автор поста оценил этот комментарий
К сожалению ни одно большое предприятие не поверит что учётную систему можно сменить за один человеко-день и не впишется в такой блудняк, иначе бы оно давно уже накрылось медным тазом
раскрыть ветку (1)
4
Автор поста оценил этот комментарий
Я говорю про технический шаг, выбрать API и загрузить много времени не нужно
6
Автор поста оценил этот комментарий

Ааааа, дружище, вот я тебя и поймал!)

Не откажешь в совете пикабушнику?))
Инженер по летным испытаниям, в числе прочего занимаюсь обработкой параметрической полетной информации.
Ко мне она поступает в табличном виде (*.xls, *.csv).
В столбцах параметры, которые нужны для обработки (условно столбец с временем, скоростью, высотой, перегрузкой и т.п.), в строках сами данные.

Параметров бывает штук до 10-20, а строк (в зависимости от частоты опроса) до 40-60 тысяч.

Обработка заключается в построении графиков (точечных диаграмм), по определённым признакам находится требуемый "режим", лишнее на диаграмме "отрезается", а дальше либо на печать, либо нахождение средних величин за "режим", интегрирование параметров и т.п.

Понимаю, что имеющийся в наличии Excel - не лучший инструмент для этой работы, т.к.:
- файлы с графиками весят до 80-100мБ (вешает слабые ПК наглухо);
- невозможно добавить больше двух шкал на одном графике, а требуется на одной "картинке" выводить параметры разной размерности (напр. боковая перегрузка 0.02, скорость 350км/ч, высота 4200м). Обхожу несколькими графиками друг под другом.
- долго подгонять все пределы шкал на всех графиках вручную, особенно по времени (горизонтальная ось). Было бы прекрасно изменять пределы по всем графикам сразу.
- бешеная трудоемкость


Судя по комменту Вы занимаетесь дата-анализом? Можете дать наводку на ПО, при помощи которого можно выполнить те же задачи но попроще?
Прост учился на "самолетостроении", понимаю физику процессов и т.д., а с ПО кроме excel и mathlab не знаком...

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

моя любимая прога это Tableau, правда стоит она 70 долларов в месяц. Попробуйте Google Data Studio https://smmplanner.com/blog/bolshoi-ghaid-po-google-data-stu... он условно бесплатный только придется загрузить данный в гугл таблицы. Если у вас секретные данные, возможно это не вариант.

показать ответы
6
Автор поста оценил этот комментарий

Ааааа, дружище, вот я тебя и поймал!)

Не откажешь в совете пикабушнику?))
Инженер по летным испытаниям, в числе прочего занимаюсь обработкой параметрической полетной информации.
Ко мне она поступает в табличном виде (*.xls, *.csv).
В столбцах параметры, которые нужны для обработки (условно столбец с временем, скоростью, высотой, перегрузкой и т.п.), в строках сами данные.

Параметров бывает штук до 10-20, а строк (в зависимости от частоты опроса) до 40-60 тысяч.

Обработка заключается в построении графиков (точечных диаграмм), по определённым признакам находится требуемый "режим", лишнее на диаграмме "отрезается", а дальше либо на печать, либо нахождение средних величин за "режим", интегрирование параметров и т.п.

Понимаю, что имеющийся в наличии Excel - не лучший инструмент для этой работы, т.к.:
- файлы с графиками весят до 80-100мБ (вешает слабые ПК наглухо);
- невозможно добавить больше двух шкал на одном графике, а требуется на одной "картинке" выводить параметры разной размерности (напр. боковая перегрузка 0.02, скорость 350км/ч, высота 4200м). Обхожу несколькими графиками друг под другом.
- долго подгонять все пределы шкал на всех графиках вручную, особенно по времени (горизонтальная ось). Было бы прекрасно изменять пределы по всем графикам сразу.
- бешеная трудоемкость


Судя по комменту Вы занимаетесь дата-анализом? Можете дать наводку на ПО, при помощи которого можно выполнить те же задачи но попроще?
Прост учился на "самолетостроении", понимаю физику процессов и т.д., а с ПО кроме excel и mathlab не знаком...

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Привет, бесплатно или платно? Кто клиент? Стандартные приходят шаблоны или приходится менять руками?

показать ответы
2
Автор поста оценил этот комментарий

Выше рекомендовали попробовать Python и его библиотеку Pandas. Полностью поддерживаю. Посмотрите на ютубе ролики, там доступно объясняют, а вам с инженерным бэкграундом, мне кажется, зайдёт хорошо.

раскрыть ветку (1)
Автор поста оценил этот комментарий

Это правда тоже вариант, очень просто разобраться