Что было нужно в самом начале:
- программа, «выуживающая» из сырого текста на русском языке уникальные названия продукции по определенной отрасли. Сырой текст — текст, который писал человек, просто излагая свои мысли и не заботясь о формировании или выделении какого-либо списка слов;
- автоматически получаемый список слов;
- минимальная ручная или автоматизированная обработка для преобразования списка в набор хештегов или ключевых слов к тексту.
Полагаю, что неявно с проблемой многие сталкиваются ежедневно, после написания или анализа статьи, поста, комментария, заметки, отчета и т.д. Вот и мне по роду деятельности приходилось сталкиваться с данной проблемой по многу раз в день. Поэтому, можно сказать, к идее автоматизации меня привела «лень», в хорошем смысле этого слова.
Сейчас, когда я пишу эту статью, сохранилась идея, но набор данных конечного результата сильно изменился:
- выбираются не слова, а клю