Посты с тэгом анализ


Как мы используем цепи Маркова в оценке решений и поиске багов. Со скриптом на Python



Нам важно понимать, что с происходит с нашими студентами во время обучения, и как эти события влияют на результат, поэтому мы выстраиваем Customer Journey Map — карту клиентского опыта. Ведь процесс обучения — не нечто непрерывное и цельное, это цепочка взаимосвязанных событий и действий студента, причем эти действия могут сильно отличаться у разных учеников. Вот он прошел урок: что он сделает дальше? Пойдет в домашнее задание? Запустит мобильное приложение? Изменит курс, попросит сменить учителя? Сразу зайдет в следующий урок? Или просто уйдет разочарованным? Можно ли, проанализировав эту карту, выявить закономерности, приводящие к успешному окончанию курса или наоборот, «отваливанию» студента?

Обычно для выстраивания CJM используют специализированные, весьма дорогие инструменты с закрытым кодом. Но нам хотелось придумать что-то простое, требующее минимальных усилий и по возможн


[Из песочницы] Задача: извлечь ключевые выражения из текста на русском языке. NLP на Python

Что было нужно в самом начале:

  • программа, «выуживающая» из сырого текста на русском языке уникальные названия продукции по определенной отрасли. Сырой текст — текст, который писал человек, просто излагая свои мысли и не заботясь о формировании или выделении какого-либо списка слов;
  • автоматически получаемый список слов;
  • минимальная ручная или автоматизированная обработка для преобразования списка в набор хештегов или ключевых слов к тексту.

Полагаю, что неявно с проблемой многие сталкиваются ежедневно, после написания или анализа статьи, поста, комментария, заметки, отчета и т.д. Вот и мне по роду деятельности приходилось сталкиваться с данной проблемой по многу раз в день. Поэтому, можно сказать, к идее автоматизации меня привела «лень», в хорошем смысле этого слова.

Сейчас, когда я пишу эту статью, сохранилась идея, но набор данных конечного результата сильно изменился:

  • выбираются не слова, а клю


[Перевод] 10 лайфхаков для ускорения анализа данных в Python

Советы и рекомендации, особенно в среде программирования, очень полезны. Порой небольшой лайфхак может сильно сократить время работы кода. Незначительные ярлыки или надстройки могут реально повысить производительность работы. Итак, в этой статье я собрал некоторые из моих любимых советов и приёмов, которые я использовал в своей работе. Некоторые из них достаточно известны, а некоторые могут оказаться для вас новыми, но я уверен, что они пригодятся в следующий раз, когда вы будете анализировать данные.



1. Профилирование Pandas dataframe


Профилирование — это процесс, который помогает нам понять данные, а Pandas Profiling — это пакет в Python, который помогает нам это сделать. Это простой и быстрый способ выполнить предварительный анализ данных Pandas Dataframe. Функции pandas df.describe () и df.in