Посты с тэгом частотный анализ


Частотный анализатор на Python, часть 2: консольный интерфейс на argparse

В статье Частотный анализатор на Python, часть 1: счастье в библиотеке была разработана простейшая программа, которая подсчитывала количество словоупотреблений во входном файле и записывала в другой файл слова в порядке частоты использования.

Это хороший пример скрипта на Python, предназначенного для решения одноразовой рутинной задачи: такие скрипты очень часто используют системные администраторы.
Поскольку их задачи рутинны, а скрипты иногда ими и написаны, необходимость правки скрипта вряд ли вызовет большую неприязнь.
Другое дело – обычные пользователи, которые просто хотят воспользоваться программой, используя лишь имеющиеся у них знания о консоли. Для них требуется воссоздать привычный интерфейс и среду, позволив им абстрагироваться от реального содержимого скрипта.

Хотелось бы, чтобы работа со скриптом (вывод частоты, 1 слово на строку в file_result, текст из file1, file2) выгляде



Частотный анализатор на Python, часть 1: счастье в библиотеке

Напишем скрипт на Python, анализирующий частоту употребления слов в тексте.

Это полезно не только для разрешения вопроса о словарном запасе и выяснения наиболее употребительных слов в речи.
В видоизменённой форме эта задача довольно распространена на практике:

  • ранжирование почти всегда предшествует сортировкам (список товаров в магазине, пользователей, тем на форуме);
  • частотный анализ используется при обработке сигналов и кодировании;
  • предоставляет способ сжимающего кодирования: распространённым последовательностям в данных сопоставляются более простые, их кодирующие, что приводит к разгрузке канала Передатчик-Приёмник, но требует хранения словарей с кодом. Это весьма рационально, если по каналу передаются однотипные сообщения;
  • И многие другие.

Определения

Будем считать, что буква – это некий элемент алфавита, представляющего собой множество элементов произвольной природы. Для прим