Посты с тэгом hadoop


Impala для Python-разработчика на примере определения фрода при анализе трафика в маркетинговой платформе

Python-приложения традиционно работают с реляционными БД. Для этого у них есть нужная инфраструктура, множество различных решений и практик. Но иногда приходится использовать другие решения для хранения и обработки данных. Для разработки ETL есть много специализированных инструментов. Но что делать, если есть python-приложение и не хочется разрабатывать какие-то еще сервисы для процессинга данных? Попробуем выделить фродовые эвенты из большого массива данных, хранящихся в Impala, и сделать конструктор отчетов по таким эвентам с помощью только обычного асинхронного веб-приложения на базе python/fastapi.

Читать далее


Big Data Tools EAP 12: экспериментальная поддержка Python, поиск по ноутбукам в Zeppelin

Только что вышло очередное обновление EAP 12 для плагина под названием Big Data Tools, доступного для установки в IntelliJ IDEA Ultimate, PyCharm Professional и DataGrip. Можно установить его через страницу плагина или внутри IDE. Плагин позволяет работать с Zeppelin, загружать файлы в облачные хранилища и проводить мониторинг кластеров Hadoop и Spark.


В этом релизе мы добавили экспериментальную поддержку Python и поиск по ноутбукам Zeppelin. Если вы страдали от каких-то багов, их тоже починено множество. Давайте поговорим об этих изменениях более подробно.


Читать дальше →


Анализ логов с помощью Hadoop/Python


Привет, Хабр! В этом посте я хотел бы рассказать вам о том, как мы, Лаборатория новых профессий, вместе с компанией Data-centric Alliance смогли сконструировать несколько лабораторных работ, посвящённых обработке и анализу веб-логов. Эти лабораторные работы являются ключевыми в рамках первого кейса нашей образовательной программы «Специалист по большим данным» и выполняются на основе аудиторных данных DMP Facetz.DCA. Меня зовут Артем Пичугин, и я являюсь её координатором.



Задача


Представьте, что вы компания, продающая автомобили. Кому показать рекламу автомобиля? На каких сайтах? Так, чтобы недорого и эффективно? Казалось бы, ответ очевиден: пользователям, которые заходят на с


Архитектура Pinterest

Pinterest — по непонятным для меня причинам популярная в определенных кругах социальная сеть, построенная вокруг произвольных картинок чаще всего не собственного производства. Как и Instagram проект довольно молодой, с очень похожей историей и стеком технологий. Тем не менее, Pinterest определенно заслуживает внимания как один из самых быстрорастущих по посещаемости вебсайтов за всю историю.

Платформа

  • Amazon AWS - хостинг и вспомогательные сервисы
  • nginx - вторичная балансировка нагрузки, отдача статики
  • Python - язык программирования
  • Django


Архитектура Pinterest


Pinterest — по непонятным для меня причинам популярная в определенных кругах социальная сеть, построенная вокруг произвольных картинок чаще всего не собственного производства. Как и Instagram проект довольно молодой, с очень похожей историей и стеком технологий. Тем не менее, Pinterest определенно заслуживает внимания как один из самых быстрорастущих по посещаемости вебсайтов за всю историю.

Платформа



Архитектура Pinterest

Pinterest - по непонятным для меня причинам популярная в определенных кругах социальная сеть, построенная вокруг произвольных картинок чаще всего не собственного производства. Как и Instagram проект довольно молодой, с очень похожей историей и стеком технологий. Тем не менее, Pinterest определенно заслуживает внимания как один из самых быстрорастущих по посещаемости вебсайтов за всю историю.

Платформа

  • Amazon AWS - хостинг и вспомогательные сервисы
  • nginx - вторичная балансировка нагрузки, отдача статики
  • Python - язык программирования
  • D


Архитектура Twitter. Два года спустя


В далеком 2008м я уже публиковал статью про архитектуру Twitter, но время летит стремительно и она уже абсолютно устарела. За это время аудитория Twitter росла просто фантастическими темпами и многое поменялось и с технической точки зрения. Интересно что новенького у одного из самых популярных социальных интернет-проектов?

Статистика

  • 3 год, 2 месяца и 1 день потр