У меня есть этот побочный проект, где я сканирую местные новостные сайты в моей стране и хочу создать индекс преступности и индекс политической нестабильности. Я уже освещал информационно-поисковую часть проекта. Мой план состоит в том, чтобы сделать:
- Неконтролируемая тема извлечения.
- Обнаружение близких дубликатов.
- Контролируемая классификация и уровень инцидента (преступность / политический - высокий / средний / низкий).
Я буду использовать python и sklearn и уже изучу алгоритмы, которые я могу использовать для этих задач. Я думаю, что 2. может дать мне фактор релевантности истории: чем больше газетных публикаций публикует историю или тему, тем больше она актуальна для этого дня.
Мой следующий шаг - построить месячный, недельный и дневной индекс (по всей стране и по городам) на основе имеющихся у меня возможностей, и я немного растерялся, поскольку «чувствительность к нестабильности» может возрасти со временем. Я имею в виду, что индекс основного инцидента нестабильности в прошлом году может быть меньше, чем индекс этого года. Также, если использовать фиксированную шкалу 0-100 или нет.
Позже я хотел бы иметь возможность прогнозировать инциденты на основе этого, например, приведет ли развитие событий в последние недели к серьезному инциденту. Но сейчас я буду рад получить работу классификации и построения индексной модели.
Буду признателен за любой указатель на документ, соответствующие чтения или мысли. Благодарю.
PD: Извините, если вопрос не принадлежит здесь.
ОБНОВЛЕНИЕ : я еще не «сделал это», но недавно появились новости о группе ученых, которые работают в системе, чтобы предсказать события, используя архивы новостей, и выпустили соответствующую газету « Mining the Web, чтобы предсказать будущие события» (PDF ).
источник
Ответы:
Рассмотрим вариации на счет Джини.
Он нормализуется, и его выходной диапазон составляет от 0 до 1.
РЕДАКТИРОВАТЬ:
Почему GINI "крутой" или хотя бы потенциально подходящий:
Это мера неравенства или неравенства. Он используется в качестве безмасштабной меры для характеристики неоднородности безмасштабных сетей, включая бесконечные и случайные сети. Это полезно при построении деревьев CART, потому что это мера силы разделения определенного разделения данных.
Из-за его ассортимента:
Потому что это нормализовано
Ссылки:
источник