Я хочу построить индекс преступности и индекс политической нестабильности, основанный на новостях

У меня есть этот побочный проект, где я сканирую местные новостные сайты в моей стране и хочу создать индекс преступности и индекс политической нестабильности. Я уже освещал информационно-поисковую часть проекта. Мой план состоит в том, чтобы сделать:

Неконтролируемая тема извлечения.
Обнаружение близких дубликатов.
Контролируемая классификация и уровень инцидента (преступность / политический - высокий / средний / низкий).

Я буду использовать python и sklearn и уже изучу алгоритмы, которые я могу использовать для этих задач. Я думаю, что 2. может дать мне фактор релевантности истории: чем больше газетных публикаций публикует историю или тему, тем больше она актуальна для этого дня.

Мой следующий шаг - построить месячный, недельный и дневной индекс (по всей стране и по городам) на основе имеющихся у меня возможностей, и я немного растерялся, поскольку «чувствительность к нестабильности» может возрасти со временем. Я имею в виду, что индекс основного инцидента нестабильности в прошлом году может быть меньше, чем индекс этого года. Также, если использовать фиксированную шкалу 0-100 или нет.

Позже я хотел бы иметь возможность прогнозировать инциденты на основе этого, например, приведет ли развитие событий в последние недели к серьезному инциденту. Но сейчас я буду рад получить работу классификации и построения индексной модели.

Буду признателен за любой указатель на документ, соответствующие чтения или мысли. Благодарю.

PD: Извините, если вопрос не принадлежит здесь.

ОБНОВЛЕНИЕ : я еще не «сделал это», но недавно появились новости о группе ученых, которые работают в системе, чтобы предсказать события, используя архивы новостей, и выпустили соответствующую газету « Mining the Web, чтобы предсказать будущие события» (PDF ).

machine-learning classification text-mining Роландо Макс
источник

Что касается технической части (инструментов), я бы порекомендовал две книги для О'Рейли: Коллективный разум (с кодом Python), Машинное обучение (с кодом R) ... они охватывают темы, связанные с вашей. Следующим шагом может стать сайт Мэннинга ... Для методологической части я бы порекомендовал группу Semantic Web на LinkedIn.

Раду Мариус Флорин

Супер очень нравится этот вопрос. Держите нас в курсе!!

энтропия

Ответы:

Рассмотрим вариации на счет Джини.

Он нормализуется, и его выходной диапазон составляет от 0 до 1.

РЕДАКТИРОВАТЬ:

Почему GINI "крутой" или хотя бы потенциально подходящий:

Это мера неравенства или неравенства. Он используется в качестве безмасштабной меры для характеристики неоднородности безмасштабных сетей, включая бесконечные и случайные сети. Это полезно при построении деревьев CART, потому что это мера силы разделения определенного разделения данных.

Из-за его ассортимента:

ошибок округления меньше. Диапазоны далеко от 1.0, как правило, страдают от числовых проблем.
это читабельно и более доступно для человека. Люди обладают более конкретным пониманием объектов, чем миллиарды.

Потому что это нормализовано

Сравнение баллов является значимым, 0,9 в одной стране означает тот же уровень относительной неравномерности, что и 0,9 в любой другой стране.
Он нормализован по кривой Лоренца для идеальной однородности, поэтому значения являются релевантными индикаторами отношения распределения значений, представляющих интерес, к кривой Лоренца.

Ссылки:

EngrStudent - Восстановить Монику
источник

Добро пожаловать на сайт, @EngrStudent. Не могли бы вы сказать немного больше о коэффициенте GINI, и почему это правильный ответ здесь? Поскольку вы новичок здесь и начинаете вносить свой вклад, вы можете прочитать наш FAQ , который содержит много информации о сайте.

gung - Восстановить Монику