Посты с тэгом обработка данных


Пучок постов на earthpy

Почти год не писал на earthpy, при этом накопился кое-какой материал. Благо всё было уже в IPython ноутбуках, и особого труда перенести это дело на сайт не составило. Кому интересно, посты получились следующие:

Seaborn library — Библиотека, которая делает картинки matplotlib минимально приемлемыми для просмотра.

How to make your python code run faster — Небольшой рассказ с примерами о том как можно без особого напряжения увеличить скорость питоновского кода, в частности циклов. В качестве инструментов multiprocessing, cython и numba.

Select time ranges in multidimensional arrays with pandas — Небольшой трюк, показывающий как можно использовать pandas время для работы с многомерными массивами.



Анализ логов Apache при помощи Pandas и IPython notebook

Потихоньку осваиваю Pandas, питоновский модуль для анализа данных. В процессе сделал довольно подробный ноутбук с примером анализа логов доступа Apache. Цель я преследовал больше образовательную, чем практическую, так что не знаю насколько анализ сделанный там пригодится мне в реальной жизни

Полностью ноутбук сюда не стал выкладывать по двум причинам: он на английском, а переводить мне пока лень, и я не до конца разобрался как красиво перенести ноутбук в вордпресс, делать это полностью вручную, как с прошлым постом, довольно глупо, долго и выглядит в итоге довольно страшно. Пост с примерами



Конвертируем netCDF в ASCII при помощи Python в Windows

Задача: Помочь друзьям виндузятникам сконвертировать netCDF в ASCII, попутно установив на их компьютеры Python, в надежде, что они таки постепенно забудут про дельфи, фортран и прочие гадости. Заодно попробовать удобно ли в ipython notebook писать посты.

Инструменты: cdo, Pyhton(x,y), ipython notebook

Важно: Этот пост изначально целиком написан в ipython notebook, что значит вы сможете при наличии установленного ipython notebook (как это сделать под Windows смотри ниже) исполнять и изменять код представленный в посте. Читать пост с хорошим форматированием, так как оно выглядит в ноутбуке, а также загрузить файл ноутбука можно здесь (загрузка файла в правом верхнем углу). Также доступна



Виртуальная машина для работы океанолога на основе Ubuntu 12.04

Задача: обновить виртуальную машину для работы океанолога.

Пришла пора обновить виртуальную машину до нового LTS релиза Ubuntu 12.04. Под катом список установленного софта, инструкция по установке под виндоуз и советы о том как искать и устанавливать недостающие программы.

Следуя принципу "работает, не трогай" я решил, что для софта, доступного из репозиториев убунты я более новые версии устанавливать не буду. Проблемы, которые могут возникнуть у неподготовленного пользователя с установленным вручную софтом, не компенсируются небольшими улучшениями доступными в новых версиях. При этом конечно обидно, что, например, мой любимый IPython notebook будет только версии 0.12, но думаю это решение правильное.

Образ диска лежит здесь. Файл размером 2 Гб, и при скачке через броузер могут возникнуть проблемы, поэтому лучше его скопировать на свой яндекс диск, и он у вас спокойно за ночь скачае



Ipython notebook. Часть II – пример работы

Задача: Показать ipython notebook в действии. В частности будем рисовать нашу любимую температуру из файла NCEP реанализа.
Инструменты: ipython notebook, scipy, Basemap

Попробуем использовать ipython notebook, установленный нами в первой части, для чего-нибудь полезного и в процессе ближе познакомимся с его возможностями.

Напомню, что для того, чтобы примеры приведённые в этом посте работали нужно удостовериться, что у вас установлены следующие пакеты:

sudo apt-get install python-scipy python-matplotlib python-mpltoolkits.basemap

Для создания вашей первой сессии в notebook вам просто нужно набрать

ipython notebook

При этом откроется браузер и появится список всех книжек находящихся в папке, если до этого их



Ipython notebook. Часть I – установка в Ubuntu 12.04 и запуск.

Задача: поставить ipython notebook - среду для работы с ipython в браузере, и немножко рассказать о его возможностях.
Инструменты: iptyhon notebook

Думаю, что многим хорошо известен продвинутый питоновский шел ipython. Его создатели большие любители пакета Matematika, и при работе в питоне, они скучали по её рабочей среде, которая реализована в виде записной книжки. Там имеется возможность тут же решить уравнение, отобразить результаты решения, нарисовать график, снабдить всё это текстовым комментарием, а при изменении исходных данных всё пересчитать и перерисовать одним нажатием клавиши.

Примерно с год назад разработчики ipython решили, что так жить больше нельзя, и начали изобретать велосипед разрабатывать свою записную книжку. Да так их понесло, что до сих пор не могут оста



CDO (Climate Data Operators) – рабочая лошадка для обработки netCDF файлов

Задача: проводить манипуляции с файлами формата netCDF, в том числе осреднение и выборку по различным осям, установку временной оси, интерполяцию полей, объединение и разделение файлов.
Инструмент: CDO (Climate Data Operators)

Причина, по которой я так долго тянул с постом о cdo, наверное в том, что они настолько незаметны и настолько часто мной используются, что я практически забываю об их существовании, воспринимая больше просто как некие обычные команды шела. Однако без них жизнь человека работающего с netCDF (а также GRIB) файлами становится гораздо неуютнее. На сегодняшний день существует около 400 операторов, позволяющих проводить первичную обработку файлов. Как бы я не любил Python, поручить ему обработку террабайтов информации значит обречь себя на очень долгое ожидание, тогда как cdo, написанные на C++, справляются с крупномасштабными з