Техника сокращения данных для определения типов стран

11

Я преподаю вводный курс экономической географии. Чтобы помочь моим студентам лучше понять виды стран, которые существуют в современной мировой экономике, и оценить методы сокращения данных, я хочу составить задание, которое создает типологию разных типов стран (например, добавленная стоимость, ожидаемая продолжительность жизни, средняя продолжительность жизни у экспортера природных ресурсов с высоким доходом; Германия относится к первому типу, а Йемен - к примеру второго типа). Это будет использовать общедоступные данные ПРООН (которые, если я правильно помню, содержат социально-экономические данные чуть менее чем в 200 странах; извините, региональных данных нет).

До этого назначения было бы другое, которое просит их (используя тот же - в основном интервал или уровень отношения - данные) исследовать корреляции между этими же переменными.

Я надеюсь, что они сначала разработают интуицию для видов отношений между различными переменными (например, положительная связь между ожидаемой продолжительностью жизни и [различными показателями] богатства; положительная связь между богатством и разнообразием экспорта). Затем, при использовании метода сокращения данных, компоненты или факторы имели бы некоторый интуитивный смысл (например, фактор / компонент 1 отражает важность богатства; фактор / компонент 2 отражает важность образования).

Учитывая, что это студенты второго-четвертого курсов, часто с ограниченным влиянием аналитического мышления в целом, какой метод сокращения данных вы бы предложили как наиболее подходящий для второго задания? Это данные о населении, поэтому логическая статистика (p-значения и т. Д.) На самом деле не нужна.

rabidotter
источник

Ответы:

10

Как исследовательский метод, PCA является хорошим первым выбором для назначения, подобного этому IMO. Также было бы хорошо, если бы они узнали об этом; Похоже, многие из них раньше не видели главных компонентов.

Что касается данных, я бы также указал вам на показатели Всемирного банка, которые на удивление полны: http://data.worldbank.org/indicator .

JMS
источник
5

Я согласен с JMS, и PCA кажется хорошей идеей после изучения начальных корреляций и диаграмм рассеяния между переменными для каждого округа. В этой теме есть несколько полезных советов по внедрению PCA в нематематических терминах.

Я бы также предложил использовать небольшие множественные карты для визуализации пространственного распределения каждой из переменных (и есть несколько хороших примеров в этом вопросе на сайте gis.se). Я думаю, что они работают особенно хорошо, если у вас есть ограниченное количество площадных единиц для сравнения, и вы используете хорошую цветовую схему (как этот пример в блоге Эндрю Гельмана).

К сожалению, характер любого набора данных "стран мира", который я подозреваю, часто приводил к получению редких данных (т. Е. Множества пропущенных стран), что затрудняло географическую визуализацию. Но такие методы визуализации должны быть полезны и в других ситуациях для вашего курса.

Энди У
источник
+1, хорошие ссылки. Сравнение карт переменных с картами оценок PCA также может быть интересным.
JMS
Ссылка на введение PCA в нематематических терминах была полезной, поскольку она помогла мне почувствовать тонкую разницу между PCA и факторным анализом. Предложения ГИС / картографирования также весьма полезны, так как я не думал о визуализации пространственного распределения переменных. Для этой группы студентов это помогло бы им понять основополагающие структуры мировой экономики так, как этого не сделал бы весь мой бла-бла-бла.
rabidotter
1
Хорошие сюжеты часто бьют бла-бла-бла :)
JMS
4

Небольшое добавленное примечание: какой бы из вышеперечисленных методов вы не использовали, вы сначала должны проверить распределение ваших переменных, поскольку многие из них «потребуют», чтобы вы сначала преобразовали их, используя логарифм. Это покажет некоторые отношения гораздо лучше, чем использование исходных переменных.

rolando2
источник
3
+1 Обычно ответ, подобный этому, следует просто опубликовать в виде комментария, но этот совет настолько важен, что он выигрывает от всех возможных акцентов. В частности, результаты PCA, вероятно, будут неинформативными, пока переменные не будут соответствующим образом повторно выражены.
uuber
2

Вы можете использовать разложение CUR в качестве альтернативы PCA. Для разложения CUR вы можете обратиться к [1] ​​или [2]. В разложении CUR C обозначает выбранные столбцы, R обозначает выбранные строки, а U обозначает матрицу связывания. Позвольте мне перефразировать интуицию, лежащую в основе декомпозиции CUR, как описано в [1];

uivi

[(1/2)age − (1/ √2)height + (1/2)income]

Быть одним из значительных некоррелированных «факторов» или «признаков» из набора данных о характеристиках людей не является особенно информативным или значимым.

Хорошая вещь о CUR состоит в том, что базовые столбцы являются фактическими столбцами (или строками) и лучше интерпретируются, чем PCA (который использует транскрипцию SVD).

Алгоритм, приведенный в [1], прост в реализации, и вы можете поиграть с ним, изменив порог ошибки и получив различное количество баз.

[1] MW Mahoney и P. Drineas, «Разложение матрицы CUR для улучшенного анализа данных», Труды Национальной академии наук Соединенных Штатов Америки, том. 106, январь 2009, стр. 697-702.

[2] Дж. Сун, Ю. Се, Х. Чжан и К. Фалутос, «Меньше значит больше: компактная матричная декомпозиция для больших разреженных графов», Материалы седьмой Международной конференции SIAM по интеллектуальному анализу данных, Citeseer, 2007, стр. , 366.

Petrichor
источник
2

В зависимости от ваших целей классификация реестров по группам может быть лучше всего достигнута с помощью некоторого метода кластеризации. Для относительно небольшого числа случаев лучше всего подходит иерархическая кластеризация, по крайней мере, на этапе исследования, в то время как для более отработанного решения вы можете обратиться к некоторому итеративному процессу, например, K-средних. В зависимости от того, какое программное обеспечение вы используете, также можно использовать процесс, который находится в SPSS, но я не знаю, где еще, он называется двухэтапной кластеризацией, которая быстра, хотя и непрозрачна, и, кажется, дает хорошие результаты.

Кластерный анализ дает классификационное решение, которое максимизирует дисперсию между группами, минимизируя дисперсию внутри указанных групп. Это также, вероятно, даст результаты, которые легче интерпретировать.

Томас Бонкомпт
источник
1

Другой вариант - использовать самоорганизующиеся карты (SOM). Есть идеи о том, какое программное обеспечение будут использовать студенты? Я знаю, что R, например, имеет несколько реализаций SOM. Тем не менее, SOM могут не пройти ваш тест «Компоненты имеют интуитивный смысл». (Не обязательно с PCA, либо ...)

Wayne
источник
Извините за задержку с ответом. Студенты будут использовать Minitab 16, который имеет некоторые из более традиционных методов сокращения данных, упомянутых выше. Я посмотрю на самоорганизующиеся карты, но сомневаюсь, будет ли это подходящим для тех студентов, которых я получаю на втором курсе бакалавриата.
rabidotter