Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Уникальная игра, объединяющая популярные механики Match3 и пошаговые бои!

Магический мир

Мидкорные, Ролевые, Три в ряд

Играть

Топ прошлой недели

  • AlexKud AlexKud 38 постов
  • Animalrescueed Animalrescueed 36 постов
  • Oskanov Oskanov 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
9
DELETED
3 года назад
Искусственный интеллект

Хочу в ИИ и Big Data⁠⁠

Народ, подскажите. Имею навыки программирования С++, Python. SQL. Всё надоело, хочется какую-то нишу занять. Интересует ИИ и Big Data.
Подскажите, есть ли в данных областях возможность работать фрилансом?
Что почитать, с чего начать? Где и после какого момента искать работу? Насколько высокий порог вхождения.

[моё] Искусственный интеллект Большие данные Работа Обучение Программирование IT Текст
18
12
rick1177
rick1177
3 года назад
MS, Libreoffice & Google docs

Вопроса пост к программистам, датасаянтистам⁠⁠

Товарищи, прошу посильной помощи, подсказки профи и умельцев во имя научения.


Добрый день.

"Напоролся" на ситуацию впервые, но, как я понимаю, для специалистов по BigData - вполне частая ситуация.

Хотел попробовать поработать с большим массивом данных на основе информации на портале ГосЗакупок. Данных очень много, потому показалось интересным, в том числе, в учебных целях.

Power BI не умеет работать с ftp, где расположены данные, потому пришлось искать варианты решения. Остановился на написании bat-файла, который загружает обновлённые данные c ftp на жёсткий и может обновлять: (код bat-файла, если вдруг интересно)


@Echo off

set downloadfolder="fcs_regions/Permskij_kraj/contracts/"

IF not exist %downloadfolder% (mkdir %downloadfolder%)

"C:\Program Files (x86)\WinSCP\WinSCP.com" ^

/log="D:\Code\M + DAX\ftp.zakupki.gov.ru\scp_sync_log.txt" /ini=nul ^

/command ^

"open ftp://free:free@ftp.zakupki.gov.ru/" ^

"synchronize -criteria=size -transfer=binary local ""d:\Code\M + DAX\ftp.zakupki.gov.ru\%downloadfolder%"" %downloadfolder%" ^

"close" ^

"exit"

set WINSCP_RESULT=%ERRORLEVEL%

if %WINSCP_RESULT% equ 0 (

echo Success

) else (

echo Error

)

exit /b %WINSCP_RESULT%


Всё стало лучше (так казалось), настало время подключаться к данным (а это данные, если вдруг захотите получить готовый комплект). Сформировал 3 файла: общий путь к данным, функция вы извлечения данных из архивов, набор операций преобразования данных.

В общем-то и всё. Начинаем грузить информацию. К слову говоря, делаем это на сервере, где выделяется 36 Гб оперативки и достаточная производительная мощность. Однако, в процессе загрузки (а это только часть данных) всё крашится с неведомыми ошибками. Я полагаю, что просто ресурсов не хватает. Шутка ли, загрузить в кеш 20 Гб данных в виде архивов, каждый из которых надо распаковать и всё это ещё и объединить и прочее.

Собственно, теперь вопрос. Как построить работу с таким объёмом данных и умудриться это всё обработать?


let

Источник = Folder.Files(#"Путь к папке"),

#"Полный путь к файлу" = Table.AddColumn(Источник, "Полный путь к файлу", each [Folder Path]&[Name]),

#"Другие удаленные столбцы" = Table.SelectColumns(#"Полный путь к файлу",{"Полный путь к файлу"}),

#"Измененный тип" = Table.TransformColumnTypes(#"Другие удаленные столбцы",{{"Полный путь к файлу", type text}}),

#"Контент фалйа" = Table.AddColumn(#"Измененный тип", "Контент файла", each File.Contents ([Полный путь к файлу])),

#"Вызвана настраиваемая функция" = Table.AddColumn(#"Контент фалйа", "fx_UnzipContents", each fx_UnzipContents([Контент файла])),

#"Проверка целостности" = Table.AddColumn(#"Вызвана настраиваемая функция","IsEmpty", each Table.IsEmpty([fx_UnzipContents])),

#"Строки с примененным фильтром" = Table.SelectRows(#"Проверка целостности", each ([IsEmpty] = false)),

#"Развернутый элемент fx_UnzipContents" = Table.ExpandTableColumn(#"Строки с примененным фильтром", "fx_UnzipContents", {"FileName", "Content"}, {"FileName", "Content"}),

#"Исключение не xml" = Table.SelectRows(#"Развернутый элемент fx_UnzipContents", each (Text.End([FileName],4) = ".xml")),

#"Добавлен пользовательский объект" = Table.AddColumn(#"Исключение не xml", "Содержание XML", each Xml.Tables([Content])),

#"Развернутый элемент Содержание XML" = Table.ExpandTableColumn(#"Добавлен пользовательский объект", "Содержание XML", {"Name", "Table"}, {"Name", "Table"}),

#"Развернутый элемент Table" = Table.ExpandTableColumn(#"Развернутый элемент Содержание XML", "Table", {"http://zakupki.gov.ru/oos/types/1", "Attribute:schemeVersion"}, {"http://zakupki.gov.ru/oos/types/1", "Attribute:schemeVersion"}),

#"Другие удаленные столбцы1" = Table.SelectColumns(#"Развернутый элемент Table",{"http://zakupki.gov.ru/oos/types/1"}),

#"Развернутый элемент http://zakupki.gov.ru/oos/types/1" = Table.ExpandTableColumn(#"Другие удаленные столбцы1", "http://zakupki.gov.ru/oos/types/1", {"id", "regNum", "number", "publishDate", "signDate", "versionNumber", "foundation", "customer", "protocolDate", "documentBase", "price", "currency", "singleCustomerReason", "executionDate", "finances", "products", "suppliers", "href", "printForm", "scanDocuments", "currentContractStage"}, {"id", "regNum", "number", "publishDate", "signDate", "versionNumber", "foundation", "customer", "protocolDate", "documentBase", "price", "currency", "singleCustomerReason", "executionDate", "finances", "products", "suppliers", "href", "printForm", "scanDocuments", "currentContractStage"}),

#"Развернутый элемент customer" = Table.ExpandTableColumn(#"Развернутый элемент http://zakupki.gov.ru/oos/types/1", "customer", {"regNum", "fullName", "inn", "kpp"}, {"customer.regNum", "customer.fullName", "customer.inn", "customer.kpp"}),

#"Развернутый элемент currency" = Table.ExpandTableColumn(#"Развернутый элемент customer", "currency", {"code", "name"}, {"currency.code", "currency.name"}),

#"Развернутый элемент executionDate" = Table.ExpandTableColumn(#"Развернутый элемент currency", "executionDate", {"month", "year"}, {"executionDate.month", "executionDate.year"}),

#"Развернутый элемент singleCustomerReason" = Table.ExpandTableColumn(#"Развернутый элемент executionDate", "singleCustomerReason", {"id", "name"}, {"singleCustomerReason.id", "singleCustomerReason.name"}),

#"Удаленные столбцы" = Table.RemoveColumns(#"Развернутый элемент singleCustomerReason",{"printForm", "scanDocuments"}),

#"Развернутый элемент foundation" = Table.ExpandTableColumn(#"Удаленные столбцы", "foundation", {"oosOrder"}, {"foundation.oosOrder"}),

#"Развернутый элемент foundation.oosOrder" = Table.ExpandTableColumn(#"Развернутый элемент foundation", "foundation.oosOrder", {"notificationNumber", "lotNumber", "placing"}, {"foundation.oosOrder.notificationNumber", "foundation.oosOrder.lotNumber", "foundation.oosOrder.placing"}),

#"Развернутый элемент suppliers" = Table.ExpandTableColumn(#"Развернутый элемент foundation.oosOrder", "suppliers", {"supplier"}, {"suppliers.supplier"}),

#"Развернутый элемент suppliers.supplier" = Table.ExpandTableColumn(#"Развернутый элемент suppliers", "suppliers.supplier", {"participantType", "inn", "kpp", "organizationName", "country", "factualAddress", "postAddress", "contactPhone"}, {"suppliers.supplier.participantType", "suppliers.supplier.inn", "suppliers.supplier.kpp", "suppliers.supplier.organizationName", "suppliers.supplier.country", "suppliers.supplier.factualAddress", "suppliers.supplier.postAddress", "suppliers.supplier.contactPhone"}),

#"Развернутый элемент suppliers.supplier.country" = Table.ExpandTableColumn(#"Развернутый элемент suppliers.supplier", "suppliers.supplier.country", {"countryCode", "countryFullName"}, {"suppliers.supplier.country.countryCode", "suppliers.supplier.country.countryFullName"}),

#"Развернутый элемент finances" = Table.ExpandTableColumn(#"Развернутый элемент suppliers.supplier.country", "finances", {"financeSource", "extrabudget", "extrabudgetary"}, {"finances.financeSource", "finances.extrabudget", "finances.extrabudgetary"}),

#"Развернутый элемент finances.extrabudget" = Table.ExpandTableColumn(#"Развернутый элемент finances", "finances.extrabudget", {"code", "name"}, {"finances.extrabudget.code", "finances.extrabudget.name"}),

#"Развернутый элемент finances.extrabudgetary" = Table.ExpandTableColumn(#"Развернутый элемент finances.extrabudget", "finances.extrabudgetary", {"month", "year", "substageMonth", "substageYear", "KOSGU", "price"}, {"finances.extrabudgetary.month", "finances.extrabudgetary.year", "finances.extrabudgetary.substageMonth", "finances.extrabudgetary.substageYear", "finances.extrabudgetary.KOSGU", "finances.extrabudgetary.price"}),

#"Развернутый элемент products" = Table.ExpandTableColumn(#"Развернутый элемент finances.extrabudgetary", "products", {"product"}, {"products.product"}),

#"Развернутый элемент products.product" = Table.ExpandTableColumn(#"Развернутый элемент products", "products.product", {"sid", "OKPD", "name", "OKEI", "price", "quantity", "sum"}, {"products.product.sid", "products.product.OKPD", "products.product.name", "products.product.OKEI", "products.product.price", "products.product.quantity", "products.product.sum"}),

#"Развернутый элемент products.product.OKPD" = Table.ExpandTableColumn(#"Развернутый элемент products.product", "products.product.OKPD", {"code", "name"}, {"products.product.OKPD.code", "products.product.OKPD.name"}),

#"Развернутый элемент products.product.OKEI" = Table.ExpandTableColumn(#"Развернутый элемент products.product.OKPD", "products.product.OKEI", {"code", "nationalCode"}, {"products.product.OKEI.code", "products.product.OKEI.nationalCode"})

in

#"Развернутый элемент products.product.OKEI"


А это на случай, если захотите посмотреть мой файлик.

Показать полностью
[моё] Power Query Большие данные Аналитика Длиннопост Текст
18
rick1177
rick1177
3 года назад

Как с применением Power BI создавалась система анализа финансово-хозяйственной деятельности предприятий России и зачем⁠⁠

Статью с аналогичным названием я недавно опубликовал на Хабр.

Статья посвящена анализу результатов финансово-хозяйственной деятельности предприятий России. Работа основана на открытых данных Росстата. Программный продукт также бесплатен для всех. Результаты своей работы также для всех предоставляются бесплатно.


Уверен, что среди сообщества есть финансисты, банкиры, экономисты, аналитики и те, кого я не упомянул, кому данная публикация могла бы быть интересна.


В этой же публикации я бы хотел обратить Ваше внимание на те, по моему мнению, вопиющие неточности, которые обнаружились в статистических данных, предоставляемых Федеральной службой государственной статистики. На момент написания статьи данные находились по данной ссылке (отдельно опубликовал их у себя на файлообменнике и, если вам захочется скачать их и созданное приложение, попробовать его, то милости прошу - переходите на Хабрастатью, поглядите обзор и скачивайте - всё бесплатно и для вас).


Вначале была проделана значительная работа по загрузке данных в Power BI. Всё шло хорошо и начался процесс построения графиков, расчёта дополнительных коэффициентов и т.д. Часть коэффициентов имеет нормативные значения, а если рассматривать их в совокупности, то получается весьма стройная система. Если в коэффициентах не соответствует один из них, то и, с высокой долей вероятности, "поплывёт" и какой-нибудь ещё.

Совершенно странным казалось, после первичного просчёта, часть коэффициентов, которые в сумме должны давать единицу, вдруг перестали это делать.


Надо пояснить, что работа предполагала суммирование всех балансов всех предприятий. Совокупный актив должен равняться совокупному пассиву. Но! Вдруг этого не происходит.


Конечно, я сначала усомнился в себе и перепроверил 300 раз расчёты, но не мог обнаружить ошибку. Перешёл, буквально, к анализу каждого участника рынка и сделал дополнительное построение, сопоставляющее актив каждого предприятия с пассивом. И... О Боже! Реально! Есть огромное множество предприятий, отчётность которых в Росстате "несходима" по этому признаку.


В своей статье на Хабр я привёл несколько примеров.


А теперь давайте оценим масштаб бедствия и причину моего негодования.


1. Федеральный орган государственной статистики, который содержится из бюджетных средств, а также Федеральная налоговая служба, которая также является бюджетной организацией, принудили хозяйствующие субъекты сдавать всевозможною отчётность.

2. Та же ФНС принуждает предприятия проводить проверку контрагентов с применением открытых источников данных, подозревая различные схемы обнала и прочее;

3. На рынке появляется множество организаций, которые аккуратно обрабатывают эти данные и формирую сводки по субъектам и на продают подписки, а ты их покупаешь (но пока часть есть и бесплатная);

4. ФНС начинает продавать свою базу за 200К! (чтобы не быть голословным, вот официальные данные )


Дк, помимо того, что они обязаны предоставлять эту информацию бесплатно (и, надо быть честными, бесплатно без всяких ухищрений, типа введи код на странице и мы вам дадим данные по одной организации бесплатно), они ещё и собрать её нормально не могут и проверить не могут!


Эту информацию используют при принятии решений в части кредитования Банки, различные иные структуры, выдающие субсидии и уверен, что кто-нибудь ещё. Здесь также надо сказать, что эти люди уже давно сами перестали анализировать, а смотрят на работающие системы анализа, а последние опираются на недостоверные данные.


А я… будучи преподавателем, в том числе, больше не смогу развивать этот продукт, т.к. убедить своего ректора приобрести за 200К эту подписку я точно не смогу))


Искренне надеюсь на Вашу поддержку.

Пожалуйста, ознакомьтесь с публикацией, проникнитесь проблемой.


Спасибо

Показать полностью
[моё] Статья Habr Экономика Анализ Bigdata Большие данные Power Query Текст
0
7
Skylevels
Skylevels
4 года назад

Как хранить пароли?⁠⁠

Решил тут озаботиться безопасностью, и попробовать на компе какой-нибудь менеджер паролей, тем более что реклама говорит - секьюрно, удобно, надежно.

Поставл Касперский Password Manager, и при первом запуске вот такое окно:

Как хранить пароли? Лаборатория Касперского, Большие данные, Менеджер паролей

Ваши пароли будут пересылаться хрен знает куда, товарищи! Кстати возможно не только пароли, кто знает какой анальный зонд скрыт в этой программе.

Хотел написать в конце "Читайте лицензионные соглашения", но особо вчитываться и не  пришлось.

Так что по старинке, ручка и блокнот, и подальше от чужих глаз.

Показать полностью
[моё] Лаборатория Касперского Большие данные Менеджер паролей
15
10
ClawedPro
ClawedPro
4 года назад
Лига Юристов

Киберпреступления⁠⁠

Киберпреступления Преступность, Юриспруденция, Большие данные, Киберпреступность

Кибермошенничество стоит на первом месте в общей массе зарегистрированных преступлений, совершенных с применением IT-технологий.

После него самыми распространёнными цифровизированными преступлениями являются кражи и наркотрафик

Данные МВД по России за весь 2020 год

Мой канал в telegram: Digital Law / Clawed

Показать полностью
[моё] Преступность Юриспруденция Большие данные Киберпреступность
3
5
vikent.ru
vikent.ru
4 года назад

Проблемы дискретных и непрерывных моделей по Г.Г. Малинецкому⁠⁠

Проблемы дискретных и непрерывных моделей по Г.Г. Малинецкому Алгоритм, Математика, Дискретная математика, Мышление, Цифровизация, Кибернетика, Большие данные

«На научных семинарах, проходивших в Институте прикладной математики им. М. В. Келдыша РАН, не раз обсуждались вопросы о дискретной формулировке законов природы.


В самом деле, обратим внимание на непоследовательность и парадоксальность нашего нынешнего описания физической реальности. На микроуровне мир дискретен. Но законы природы в современной физике сформулированы на языке дифференциальных уравнений, оперирующих с гладкими и непрерывными функциями. Но поскольку в большинстве интересных и важных случаев мы без компьютера решать их не умеем, то возникает проблема «обратного перевода» - от непрерывных уравнений к тем дискретным сущностям, с которыми оперирует компьютер. Этот «перевод» сам по себе сложен и неоднозначен. Он породил многие направления современной математики, некоторые из которых особенно близки сердцу Р. Пенроуза.


И, естественно, возникает соблазн обойтись без перевода, формулируя законы природы не на «непрерывном», а на «дискретном» языке. Работы в этом направлении активно ведутся (здесь и машины клеточных автоматов, и теория самоорганизованной критичности, и другие подходы, дающие дискретную картину реальности). Тем не менее, появление хотя бы одной «полезной» в смысле Пенроуза теории, сформулированной на дискретном языке могло бы в сущности повлиять на всё естествознание».


Малинецкий Г.Г., Синергетика, нелинейность и концепция Роджера Пенроуза – Введение в книгу: Роджер Пенроуз, Новый ум короля: О компьютерах, мышлении и законах физики, «Едиториал УРСС», 2005 г., с.19.


Источник — портал VIKENT.RU


Дополнительные материалы:

НАУЧНЫЕ ЗАДАЧИ Плейлист из 25-ти видео


Изображения в статье

Георгий Геннадьевич Малинецкий — советский и российский математик. Автор более 800 научных трудов и более 100 научно-популярных статей / РИА Рустим

Показать полностью 1
Алгоритм Математика Дискретная математика Мышление Цифровизация Кибернетика Большие данные
2
107
NeuroLabAlgorith
NeuroLabAlgorith
4 года назад
MS, Libreoffice & Google docs

Базы данных - почему бизнес их боится / избегает⁠⁠

Базы данных - почему бизнес их боится / избегает IT, Цифровые технологии, Технологии, Microsoft Excel, База данных, Данные, Анализ данных, Большие данные, Утечка данных, Хранение данных, Прогресс, SQL, Postgresql, Postgres

Раньше странно было наблюдать, почему при автоматизации бизнес процессов заказчики боятся баз данных


Цепляние за эксель у многих происходит до последнего


Вроде бы уже все, можно отпустить и двигаться дальше. Но нет. Давайте лучше эксель


Потом понял, что они даже по своему правы

Эксель для них это последний бастион, где они еще удерживают ситуацию под контролем. Можно залезть ручками в файл, настроить фильтры, поковыряться. Если надо, то что-то подправить в формулах и связях между таблицами

Переход к базе данных это следующий уровень сложности, знаний для контроля над которым просто нет


Тут они уже нутром понимают, что обратной дороги не будет. Придётся зависеть от этих мутных ИТ-шников, с их sql запросами и прочей магией


А главное - не понятно где данные и как понять, что они защищены

В экселе - все понятно, вот файл, в нем закладки с табличками


А база данных это где?


Еще хорошо если на локальном сервере. По крайне мере может покажут стационарный комп с мигающими лампочками. В мозгах может появится успокаивающая ассоциация, что этот ящик и есть база данных. Тогда его можно в охраняемую комнату запереть и спать спокойно.

А если база данных в "облаке"?


В газетах вон постоянно пишут про хакеров и как из облаков данные утекают


Нет, нам такой прогресс не нужен. Лучше эксель

Тут все надежно, проверено мудростью предков, и есть панацея от всех проблем: ctrl+alt+delete

Показать полностью
[моё] IT Цифровые технологии Технологии Microsoft Excel База данных Данные Анализ данных Большие данные Утечка данных Хранение данных Прогресс SQL Postgresql Postgres
38
10
vernidub
vernidub
4 года назад

Как New York Times подбирает самые кликбейтные заголовки⁠⁠

Лавры Buzzfeed, специалистов по треш-заголовкам, не дают покоя и более крутым спокойным медиа. Один из техноблогеров заметил, что одно из самых авторитетных в США изданий New York Times экспериментирует с заголовками статей. Он вытащил все виды заголовков и данные по их тестированию через открытые API этого СМИ и пришёл к интересным выводам.

Как New York Times подбирает самые кликбейтные заголовки Технологии, Большие данные, Кликбейт, СМИ и пресса, Длиннопост

- Всех посетителей сайта в момент визита на сайт разбивают на группы (иногда до 7) и дают им разные заголовки статей с одним и тем же содержимым. Затем смотрят, на что реагируют лучше и дальше уже на всю аудиторию выкатывают самый эффективный заголовок.


- Оказалось, статьи попадают в "самые читаемые" после такого A/B тестирования с вероятностью на 80% больше, чем без тестирования заголовков.


- Где-то это подбор правильного слова, но чаще - сравнение разных по эмоциональной зарядке заголовков


- 62% аудитории NYT это платные подписки и им нет смысла гнаться за кликбейтом. Однако всё равно чаще всего "побеждают" и выбираются редакцией существенно более драматические заголовки, преувеличивающие драматизм статьи.


- В среднем проверка эффекта идёт за 6 часов жизни статьи на сайте.


- Часто NYT начинает подтюнивать уже вышедшие в топ статьи, чтобы сделать их ещё убойнее. Самый яркий пример - как заголовок про Меган Маркл из "Её жизнь не была сказкой, она потеряла свободу и идентичность" превратился в "Жизнь в королевской семье почти довела меня до самоубийства".

Как New York Times подбирает самые кликбейтные заголовки Технологии, Большие данные, Кликбейт, СМИ и пресса, Длиннопост

Затем он делал ещё один рисёч, где изучал что выводится на главный экран. Главный вывод в нём: - 90% статей живёт на главной странице 9 часов, 10% убивают меньше чем за час

- 40% статей это новости, а вот остальные 60% - это развлекающая херня - мнения и рецепты "как готовить скрэмбл" и "что носить в прохладную погоду", которые живут на главной рекордное время. Его вывод - деловое издание не может удерживать внимание только деловыми новостяии.

Моё резюме же - ничего хорошего в таком взломе человеческого любопытства нет. Когда генерация кликбейтных заголовков и скорость их проверки дойдет до максимума, контент статьи станет совсем вторичен.

Показать полностью 2
Технологии Большие данные Кликбейт СМИ и пресса Длиннопост
8
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии