Использование инструментов анализа текста / естественного языка для эконометрики

9

Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите.

Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки приемлемости. Эти отчеты могут быть связаны с индивидуальной административной информацией. Я хочу извлечь из этих отчетов информацию, которую можно использовать для количественного анализа, и в идеале это больше, чем простой поиск по ключевым словам / регулярным выражениям с использованием grep/ awkи т. Д.

Насколько полезна обработка естественного языка для этого? Каковы другие полезные подходы к анализу текста? Из того, что я понимаю, это большая область, и, скорее всего, некоторые отчеты пришлось бы преобразовать, чтобы использовать в качестве корпуса. Стоит ли тратить время на знакомство с литературой и методиками? Может ли это быть полезным и было ли что-то подобное сделано раньше? Стоит ли это с точки зрения вознаграждений, т.е. могу ли я извлечь потенциально полезную информацию, используя НЛП, для эмпирического исследования в области экономики?

Возможно, есть финансирование, чтобы нанять кого-нибудь, кто бы прочитал и подготовил некоторые отчеты. Это более крупный проект, и есть возможность подать заявку на большее финансирование. Я могу предоставить более подробную информацию о теме, если это строго необходимо. Одним из возможных осложнений является то, что язык немецкий, а не английский.

Что касается квалификаций, я в основном обучаюсь эконометрике и имею некоторые знания о вычислительной статистике на уровне Hastie et al. книга. Я знаю Python, R, Stata и, возможно, смог бы быстро познакомиться с Matlab. Учитывая библиотеки, я предполагаю, что Python является инструментом выбора для этого. Никаких тренировок по качественным методам, если это важно, но я знаю некоторых людей, с которыми я мог бы связаться.

Я рад за любой вклад в этом, то есть, если это потенциально полезно, если так, с чего начать чтение и на каких инструментах сосредоточиться, в частности.

ilprincipe
источник
LASSO, регрессия наименьшего угла и логистический анализ - это несколько потенциально важных инструментов. Возможно, вы захотите проверить, как я подошел к аналогичной проблеме для моего доктора философии. дипломная работа здесь и мой пост в блоге об инструментах НЛП в экономике здесь . Если у вас есть что-то с этим, было бы здорово услышать о вашем прогрессе или любых проблемах, с которыми вы могли столкнуться.
градстудент

Ответы:

2

Я думаю, что было бы полезно определить, какую информацию вы хотите извлечь из данных. Простой поиск по ключевым словам / регулярным выражениям может быть очень полезным для вас. Я работаю в сфере страхования, и мы довольно часто используем этот вид интеллектуального анализа текста - это возможно наивно и определенно несовершенно, но это относительно хорошее начало (или близкое приближение) к тому, что нас обычно интересует.

Но, к моему главному, чтобы выяснить, подходит ли выбранный вами метод, я бы порекомендовал определить, что именно вы хотите извлечь из данных; это самая сложная часть, на мой взгляд.

Может быть интересно найти уникальные слова во всех строках и сделать частоту из первых 1000 слов или около того. Это может быть вычислительно дорого (в зависимости от вашей оперативной памяти / процессора), но может быть интересно посмотреть. Если бы я изучал данные, не зная об этом, я бы начал с этого (другие могут предложить разные точки зрения).

Надеюсь, это поможет.

Франсиско Арсео
источник
спасибо, я определенно думал начать с чего-то вроде этого. Я знаю, что мой вопрос расплывчат, но в целом меня интересует, какую информацию я смог бы извлечь другими методами. Я признаю, что не уверен, возможно ли ответить на этот вопрос, не зная конкретного контекста.
ilprincipe
1
Я думаю, что это всегда проблема для любой связанной с данными работы / профессии. Я бы порекомендовал взглянуть на некоторые из ваших данных, если есть переменные с описанием данных или страхового случая, прочитайте пару десятков - прочувствуйте данные. Помните, что все, что мы когда-либо пытались сделать, - это моделировать основной процесс обработки данных, и для того, чтобы действительно хорошо поработать над этим, вам необходимо знать данные.
Франциско Арсео