Посты с тэгом data mining


[Из песочницы] Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит пирсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geop


[Перевод] Как работает FaceID в iPhone X: алгоритм на Python

Одна из самых крутых фишек iPhone X – это метод разблокировки: FaceID. В этой статье разобран принцип работы данной технологии.



Изображение лица пользователя снимается с помощью инфракрасной камеры, которая более устойчива к изменениям света и цвета окружающей среды. Используя глубокое обучение, смартфон способен распознать лицо пользователя в мельчайших деталях, тем самым “узнавая” владельца каждый раз, когда тот подхватывает свой телефон. Удивительно, но Apple заявила, что этот метод даже безопаснее, чем TouchID: частота ошибок 1:1 000 000.

В этой статье разобран принцип алгоритма, подобного FaceID, с использованием Keras. Также представлены некоторые окончательные наработки, созданные с помощью Kinect.



Руководство для начинающих по машинному обучению и структуре Data Science

Для всех, кому интересна тематика работы с данными, машинного обучения и искусственного интеллекта и для тех, кто только начинает свой путь в изучении — этот пост для вас. Все библиотеки ниже бесплатны, и большинство из них с открытым исходным кодом и выложены на GitHub. Используйте с любовью и делитесь с коллегами.



Machine Learning


  • Scikit-learn — машинное обучение на Python;
  • Shogun — инструментарий машинного обучения;
  • xLearn — высокопроизводительный, простой и масштабируемый пакет для машинного обучения;
  • Reproducible Experiment Platform (REP) — набор инструментов машинного обучения;


Создание и чтение QR-кода на Python в 3 минуты (OpenCV и qrcode)


Сегодня будем создавать QR-код на Python, а также прочитать его с помощью OpenCV.
Можно разбить статью на две части:


  • создание QR-кода на Python.
  • сканирование QR-кода с помощью OpenCV на видео.
Читать дальше →


Напиши свою песню за 10 минут


Сегодня попробуем обучить свою собственную нейронную сеть, чтобы писала текст для песен. Обучающей выборкой будут тексты группы "Руки Вверх". Ничто не мешает чтобы поменять данные на тексты своих любимых групп. Для извлечения данных с веб-сайтов используем Python3 (модуль BeautifulSoup).


Задача будет состоять в том, чтобы выгрузить данные(тексты) c веб-сайтов а потом на их основе обучить нейронную сеть.


На самом деле, можно разбить работу на 2 этапа:
Этап 1: выгрузить и сохранить тексты песни в удобном формате.
Этап 2: обучить свою собственную нейронную сеть.

Читать дальше →


[Из песочницы] Считаем средную ЗП дата-саентолога. Парсим hh.ru с помощу pandas/python

Заходишь на хедхантер, хочешь узнать, что происходит на рынке, доказать бабушке, что у тебя нет работы из-за рынка, а не что ты л̶е̶н̶т̶я̶й̶ (ты просто проводишь альтернативный образ жизни) или хочешь найти стажировку на целых 8 тыс. (до вычета НДФЛ). Приходится каждый раз настраивать кнопки (вилка зарплаты, должность, город и т. д и т. п). И так каждый раз, каждый день…



Тогда вдруг приходит в «башку»: “Так дальше быть не может!”. Я же знаю Python (купил же курс за 1.99$ на Udemy), наверняка уже кто-то написал api. Забыл рассказать, что у меня есть черный пояс с google-fu?



Ну что, ребята? Поехали!

Читать дальше →


С чего начать изучение Python: книги для начинающих



Друзья, забирайте в закладки подборку из 17 книг по Python.

Подборка поможет вам освоить язык программирования с нуля или с минимальными знаниями.
Готовы приступить к изучению Python?

Тогда начнем!
Читать дальше →


Применение машинного обучения и Data Science в промышленности

Хабр, привет. Написал пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.



Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.
Читать дальше →



[Перевод] 4 must-have паттерна проектирования в Python



Пишете на Python и не знаете, с какого паттерна проектирования начать?
В статье разбор популярных шаблонов с примерами кода на Python.
Читать дальше →


Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей


Одна из основных задач диалоговых систем состоит не только в предоставлении нужной пользователю информации, но и в генерации как можно более человеческих ответов. А распознание эмоций собеседника – уже не просто крутая фича, это жизненная необходимость. В этой статье мы рассмотрим архитектуру рекуррентной нейросети для определения эмоций в текстовых беседах, которая принимала участие в SemEval-2019 Task 3 “EmoContext”, ежегодном соревновании по компьютерной лингвистике. Задача состояла в классификации эмоций (“happy”, “sad”, “angry” и “others”) в беседе из трех реплик, в которой участвовали чат-бот и человек.

В первой части статьи мы рассмотрим поставленную в EmoContext задачу и предоставленные организаторами данные. Во второй и третьей частях разберём предварительную обработку текста и способы векторного