Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите.
Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки приемлемости. Эти отчеты могут быть связаны с индивидуальной административной информацией. Я хочу извлечь из этих отчетов информацию, которую можно использовать для количественного анализа, и в идеале это больше, чем простой поиск по ключевым словам / регулярным выражениям с использованием grep
/ awk
и т. Д.
Насколько полезна обработка естественного языка для этого? Каковы другие полезные подходы к анализу текста? Из того, что я понимаю, это большая область, и, скорее всего, некоторые отчеты пришлось бы преобразовать, чтобы использовать в качестве корпуса. Стоит ли тратить время на знакомство с литературой и методиками? Может ли это быть полезным и было ли что-то подобное сделано раньше? Стоит ли это с точки зрения вознаграждений, т.е. могу ли я извлечь потенциально полезную информацию, используя НЛП, для эмпирического исследования в области экономики?
Возможно, есть финансирование, чтобы нанять кого-нибудь, кто бы прочитал и подготовил некоторые отчеты. Это более крупный проект, и есть возможность подать заявку на большее финансирование. Я могу предоставить более подробную информацию о теме, если это строго необходимо. Одним из возможных осложнений является то, что язык немецкий, а не английский.
Что касается квалификаций, я в основном обучаюсь эконометрике и имею некоторые знания о вычислительной статистике на уровне Hastie et al. книга. Я знаю Python, R, Stata и, возможно, смог бы быстро познакомиться с Matlab. Учитывая библиотеки, я предполагаю, что Python является инструментом выбора для этого. Никаких тренировок по качественным методам, если это важно, но я знаю некоторых людей, с которыми я мог бы связаться.
Я рад за любой вклад в этом, то есть, если это потенциально полезно, если так, с чего начать чтение и на каких инструментах сосредоточиться, в частности.
Ответы:
Я думаю, что было бы полезно определить, какую информацию вы хотите извлечь из данных. Простой поиск по ключевым словам / регулярным выражениям может быть очень полезным для вас. Я работаю в сфере страхования, и мы довольно часто используем этот вид интеллектуального анализа текста - это возможно наивно и определенно несовершенно, но это относительно хорошее начало (или близкое приближение) к тому, что нас обычно интересует.
Но, к моему главному, чтобы выяснить, подходит ли выбранный вами метод, я бы порекомендовал определить, что именно вы хотите извлечь из данных; это самая сложная часть, на мой взгляд.
Может быть интересно найти уникальные слова во всех строках и сделать частоту из первых 1000 слов или около того. Это может быть вычислительно дорого (в зависимости от вашей оперативной памяти / процессора), но может быть интересно посмотреть. Если бы я изучал данные, не зная об этом, я бы начал с этого (другие могут предложить разные точки зрения).
Надеюсь, это поможет.
источник