Агрегатор новостей

В ходе работ с очередным клиентом, глубоко погрузились в тему NLP и NER.

Задача состояла в автоматическом наполнении аналитического портала.

Начали с обработки архива предыдущих новостей в рунете. Настроили выгрузку новостей за сутки – получился архив примерно с 9000 файлов, в каждом из которых находилось порядка 300 новостных заголовков. Написали обработчик файлов, который создавал датафрейм и мерджил в него каждый файл.

В итоге получили датафрейм объёмом примерно 1,8 миллиона записей.

Факультативная задача состояла в NER-обработке собранных данных и выделении сущностей – местоположение, адреса, персоны, организации и предприятия.

Надо сказать, что здесь мы видимо уже наступили на территорию big data, так как даже мощный сервер укладывался минут на 20 на время обработки.

Вместе с выделением сущностей текст нормализовался и лемматизировался. Создавался мешок слов для работ по классификации.