Посты с тэгом data science


Создаем с нуля собственную нейронную сеть на Python



Всем привет!

На повестке дня интересная тема — будем создавать с нуля собственную нейронную сеть на Python. В ее основе обойдемся без сложных библиотек (TensorFlow и Keras).

Перед тем как углубиться, рекомендую освежить знания по искусственным нейронным сетям и подписаться на мой телеграм-канал (@dataisopen), чтобы не пропустить интересных статей.

Основное, о чем нужно знать — искусственная нейронная сеть может быть представлена в виде блоков/кружков (искусственных нейронов), имеющие между собой, в определенном направлении, связи. В


Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1/2

Привет Хабр.

После публикации рейтинга статей за 2017 и 2018 год, следующая идея была очевидна — собрать обобщенный рейтинг за все годы. Но просто собрать ссылки было бы банально (хотя и тоже полезно), поэтому было решено расширить обработку данных и собрать еще немного полезной информации.



Рейтинги, статистика и немного исходного кода на Python под катом. Читать дальше →



Стажировка Sberseasons: Python, UX/UI, Data и ещё много чего для студентов

Привет, Хабр!

Этот пост написан специально для студентов. Если вы уже состоявшийся профессионал, лучше посмотрите, как в gif’ках выглядит жизнь Open Source разработчика, а если вы студент, да еще с
ИТ-шной специальностью, добро пожаловать под кат.

Чем хороша наша программа стажировок Sberseasons? У нас есть много больших интересных проектов на выбор. Они завязаны на современный технологический стек, и их потом можно положить в свое портфолио. Плюс, её можно совмещать с учебой. Разумеется, она у нас оплачивается.

Стажировка доступна сразу по 18 IT-направлениям. О некоторых из них рассказываем подробнее.



Читать дальше →



Жизненный цикл статьи на Хабре: пишем хабрапарсер. Часть вторая

Привет Хабр!

В первой части пятничного анализа была рассмотрена методика сбора некоторой статистики этого замечательного сайта. Изначально не было плана делать продолжение, но в комментариях возникли интересные мысли, которые захотелось проверить. Например, какие статьи имеют больше просмотров, опубликованные в будние или в выходные дни?



Попробуем ответить на этот и другие вопросы, также опубликуем свой чисто научный статистический мини-рейтинг. Как и в первой части, для сбора статистики воспользуемся Python, Pandas и Matplotlib.

Для тех кому интересно что получилось, продолжение под катом. Читать дальше →



Жизненный цикл статьи на хабре: пишем хабрапарсер

Привет Хабр!

Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?



Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.

Тех кому интересно, что из этого получилось, прошу под кат. Читать дальше →



[Из песочницы] Ускорить сложные вычисления с минимальной загрузкой RAM

В процессе освоения ML, СNN, NN на Python новичок почти всегда сталкивается с проблемой скорости вычислений, а иногда и нехватки оперативной памяти.

Особенно это заметно с большими базами, которые по размеру больше 50% свободной RAM. Мысли о покупке более достойного железа всего лишь одно из возможных решений.

Иной вариант использовать одну из возможностей в Python — итерации по самой функции.

Простой и наглядный пример. Допустим Вам необходимо возвести в 200 000 степень ряд чисел от 1 до 10 и сложить их сумму. В итоге вы должны получить число длинной 200 тыс знаков. это в 2 раза больше чем google)

Вот простой код такой функции:

from time import time # импорт модуля времени
# простая функция возведения в степень
def power_1(x):
    power_1 = 0 
    start = time()
    power_1 = x**200000
    end = time()
    total_1 = end - start
    return round(total_1,6)
# простые


Data Science: книги для начального уровня

Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

Ключевыми навыками для начинающих специалистов являются:

  • умение писать код (Python);
  • способность визуализировать свои результаты;
  • понимание того, что происходит «под капотом».

На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.

Читать дальше →


Data Science: книги для начального уровня

Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

Ключевыми навыками для начинающих специалистов являются:

  • умение писать код (Python);
  • способность визуализировать свои результаты;
  • понимание того, что происходит «под капотом».

На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.

Читать дальше →


Совершеннолетняя журналистика: от России до Кремля

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.



В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать дальше →


[Перевод] Data Science в Visual Studio Code с использованием Neuron

Сегодня у нас небольшой рассказ о Neuron, расширении для Visual Studio Code, которое является настоящей киллер-фичей для дата-сайнтистов. Оно позволяет совместить Python, любую библиотеку машинного обучения и Jupyter Notebooks. Подробнее под катом!

Читать дальше →