Посты с тэгом визуализация данных


Использование ArcGIS API for Python в Jupiter Notebook



Всем привет! Это блог компании "Техносерв". В процессе производства на проектах, которые мы выполняем, рождаются интересные технологические кейсы. Их скопилось такое количество, что мы решили начать делиться ими с миром. И да, это наша первая публикация.


Честь начать блог выпала мне, и я пишу о том, что мне близко и любимо: о геоинформационных технологиях. Я работаю в департаменте Больших Данных, где занимаюсь разработкой высоконагруженных геоинформационных систем и сервисов на базе движков для распределенных вычислений. О высоких материях мы еще поговорим, а сегодня плавно начнем погружение в ГИС.


Все чаще и чаще у аналитиков данных (или как еще их называют — Data Scientist) появляется потребность в визуализации данных на карте. Какой инструмент сейчас считается наиболее удобным для работы аналитика? Конечно же, тетрадки! До последнего времени возможносте



Открытый курс машинного обучения. Тема 2: Визуализация данных c Python


Привет всем, кто начал проходить курс! Новые участники, добро пожаловать! Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE.


Напомним, что к курсу еще можно подключиться, дедлайн по 1 домашнему заданию – 6 марта 23:59.


Сейчас статья уже будет существенно длиннее. Готовы? Поехали!


Читать дальше →


Семантические технологии на практике на примере родословных


Программа, способная к логическим выводам в рамках поставленной задачи, может казаться техническим чудом и воплощением Скайнета. Но, как можно убедиться ниже, на сегодняшний день создать такую программу на языке Python не составит труда, если использовать семантические технологии. Мы остановимся на наглядном примере онтологий — родословных — и для любого члена семьи в родословной сможем выводить его родственные отношения произвольной сложности (она ограничена вычислительными ресурсами). К примеру, на фамильном древе семьи Романовых ниже показан внучатый двоюродный племянник (first cousin twice removed) российского императора Петра II.



Так что если вы хотите познакомиться с технологиями семантического веба на практике, добро пожаловать под кат, где мы потренируемся на кошках на родословных.


Перенаправление данных из COM-порта в web. Доработка


Недавно я опубликовал статью «Перенаправление данных из COM-порта в web», в которой описал прототип системы, транслирующей строки из последовательного порта компьютера в веб-браузер. В той статье я указал направления, в которых надо доработать прототип, чтобы приблизить его к продакшен-стадии:
— никакой дизайн веб-страницы
— в каждый момент времени данные получит только один веб-клиент
— очень ограниченный набор браузеров, с помощью которых можно получить доступ. Например, не работает ни в Internet Explorer 8, ни в браузере из Android 2.3.5
— требуется установка python

Через некоторое время я решил не оставлять его в таком виде и доработать. Под катом результат доработки и описание того, как я устранил все перечисленные недостатки.

Читать дальше →


Работа с данными среднего размера в Python. Pandas и Seaborn


Когда много работаешь с данными, нужно часто строить графики и делать разными преобразования над таблицами. Важно научиться делать это быстро и минимально напрягая мозг. Дело в том, что анализ данных во многом заключается в придумывании и проверке гипотез. Придумывать, конечно, интереснее, чем проверять. Но делать нужно и то и другое. Хорошие инструменты в тренированных руках помогают тратить на техническую работу минимальное количество времени и интеллектуальной энергии.

Я попробовал много инструментов: Excel, Python+Matplotlib, R+ggplot, Python+ggplot, и остановился на связке Python+Pandas+Seaborn. Решил с их использованием уже много задач и хотел бы поделиться наблюдениями.

Читать дальше →


Работаем с метеоданными в Pandas

Задача: сконвертировать данные метеостанции по температуре для работы в pandas
Инструмент: pandas

Всё чаще российские метеорологические данные становятся открытыми, что не может не вызывать положительных эмоций. Однако к сожалению все центры данных стремяться придумать свой уникальный формат, и к сожалению каждый раз нужно мучаться с конвертацией.

В этой короткой заметке я покажу как сконвертировать метеоданные (температуру) полученные с сервера ВНИИГМИ-МЦД в pandas DataFrame.

Для начала вам нужно пойти на сайт http://aisori.meteo.ru/ClimateR и зарегистрироваться там. Затем можно будет войти по логину и паролю. Вам покажут объявления, смело жмите "Далее". Теперь вам предлагают



Миникурс “Python for Geosciences”

Я прочитал небольшое введение в питон для коллег - "Python for Geosciences". Записки с этой презентации доступны на гитхабе. Чтобы от курса была польза вы должны уже знать какой-либо язык программирования, предпочтительно Матлаб.

Они сделаны в виде IPython notebooks, то есть вы сможете загрузив их себе на компьютер и запустив ноутбук IPython исполнять показанный в записках код. Необходимые для работы библиотеки и способ запуска IPython notebooks описаны в третьей части. Чтобы посмотреть онлайн версии ноутбуков прокрутите гитхабовскую страничку немного вниз, там в ридми файле будет оглавление со ссылками на html версии. Код в этих версиях вы исполнять, конечно, не сможете, доступен



Рецензия на книгу “Искусство визуализации в бизнесе”

Со мной связались из издательства, и попросили написать рецензию на эту книжку. Я рецензий никогда в жизни не писал, но книжка показалась действительно полезной, так что решил попробовать. Это дебют в жанре, так что не судите строго.

Если вы изучаете специальность, которая предполагает работу с данными, будь то астрономия, океанология, экономика и даже, как ни странно, менеджмент, то покидая университет вы обычно обладаете довольно неплохими теоретическими знаниями. При этом практическая сторона дела для выпускников является тёмным лесом. Однако в повседневной работе собственно теорией вы пользуетесь довольно редко, и большую часть времени приходится уделять практическим вопросам, которые зачастую в университетах не рассматриваются.

Вы может и знаете назубок все необходимые статистические методы, но голова чаще всего у вас бу



Анализ логов Apache при помощи Pandas и IPython notebook

Потихоньку осваиваю Pandas, питоновский модуль для анализа данных. В процессе сделал довольно подробный ноутбук с примером анализа логов доступа Apache. Цель я преследовал больше образовательную, чем практическую, так что не знаю насколько анализ сделанный там пригодится мне в реальной жизни

Полностью ноутбук сюда не стал выкладывать по двум причинам: он на английском, а переводить мне пока лень, и я не до конца разобрался как красиво перенести ноутбук в вордпресс, делать это полностью вручную, как с прошлым постом, довольно глупо, долго и выглядит в итоге довольно страшно. Пост с примерами



Виртуальная машина для работы океанолога на основе Ubuntu 12.04

Задача: обновить виртуальную машину для работы океанолога.

Пришла пора обновить виртуальную машину до нового LTS релиза Ubuntu 12.04. Под катом список установленного софта, инструкция по установке под виндоуз и советы о том как искать и устанавливать недостающие программы.

Следуя принципу "работает, не трогай" я решил, что для софта, доступного из репозиториев убунты я более новые версии устанавливать не буду. Проблемы, которые могут возникнуть у неподготовленного пользователя с установленным вручную софтом, не компенсируются небольшими улучшениями доступными в новых версиях. При этом конечно обидно, что, например, мой любимый IPython notebook будет только версии 0.12, но думаю это решение правильное.

Образ диска лежит здесь. Файл размером 2 Гб, и при скачке через броузер могут возникнуть проблемы, поэтому лучше его скопировать на свой яндекс диск, и он у вас спокойно за ночь скачае