Я преподаю вводный курс экономической географии. Чтобы помочь моим студентам лучше понять виды стран, которые существуют в современной мировой экономике, и оценить методы сокращения данных, я хочу составить задание, которое создает типологию разных типов стран (например, добавленная стоимость, ожидаемая продолжительность жизни, средняя продолжительность жизни у экспортера природных ресурсов с высоким доходом; Германия относится к первому типу, а Йемен - к примеру второго типа). Это будет использовать общедоступные данные ПРООН (которые, если я правильно помню, содержат социально-экономические данные чуть менее чем в 200 странах; извините, региональных данных нет).
До этого назначения было бы другое, которое просит их (используя тот же - в основном интервал или уровень отношения - данные) исследовать корреляции между этими же переменными.
Я надеюсь, что они сначала разработают интуицию для видов отношений между различными переменными (например, положительная связь между ожидаемой продолжительностью жизни и [различными показателями] богатства; положительная связь между богатством и разнообразием экспорта). Затем, при использовании метода сокращения данных, компоненты или факторы имели бы некоторый интуитивный смысл (например, фактор / компонент 1 отражает важность богатства; фактор / компонент 2 отражает важность образования).
Учитывая, что это студенты второго-четвертого курсов, часто с ограниченным влиянием аналитического мышления в целом, какой метод сокращения данных вы бы предложили как наиболее подходящий для второго задания? Это данные о населении, поэтому логическая статистика (p-значения и т. Д.) На самом деле не нужна.
источник
Небольшое добавленное примечание: какой бы из вышеперечисленных методов вы не использовали, вы сначала должны проверить распределение ваших переменных, поскольку многие из них «потребуют», чтобы вы сначала преобразовали их, используя логарифм. Это покажет некоторые отношения гораздо лучше, чем использование исходных переменных.
источник
Вы можете использовать разложение CUR в качестве альтернативы PCA. Для разложения CUR вы можете обратиться к [1] или [2]. В разложении CUR C обозначает выбранные столбцы, R обозначает выбранные строки, а U обозначает матрицу связывания. Позвольте мне перефразировать интуицию, лежащую в основе декомпозиции CUR, как описано в [1];
Хорошая вещь о CUR состоит в том, что базовые столбцы являются фактическими столбцами (или строками) и лучше интерпретируются, чем PCA (который использует транскрипцию SVD).
Алгоритм, приведенный в [1], прост в реализации, и вы можете поиграть с ним, изменив порог ошибки и получив различное количество баз.
[1] MW Mahoney и P. Drineas, «Разложение матрицы CUR для улучшенного анализа данных», Труды Национальной академии наук Соединенных Штатов Америки, том. 106, январь 2009, стр. 697-702.
[2] Дж. Сун, Ю. Се, Х. Чжан и К. Фалутос, «Меньше значит больше: компактная матричная декомпозиция для больших разреженных графов», Материалы седьмой Международной конференции SIAM по интеллектуальному анализу данных, Citeseer, 2007, стр. , 366.
источник
В зависимости от ваших целей классификация реестров по группам может быть лучше всего достигнута с помощью некоторого метода кластеризации. Для относительно небольшого числа случаев лучше всего подходит иерархическая кластеризация, по крайней мере, на этапе исследования, в то время как для более отработанного решения вы можете обратиться к некоторому итеративному процессу, например, K-средних. В зависимости от того, какое программное обеспечение вы используете, также можно использовать процесс, который находится в SPSS, но я не знаю, где еще, он называется двухэтапной кластеризацией, которая быстра, хотя и непрозрачна, и, кажется, дает хорошие результаты.
Кластерный анализ дает классификационное решение, которое максимизирует дисперсию между группами, минимизируя дисперсию внутри указанных групп. Это также, вероятно, даст результаты, которые легче интерпретировать.
источник
Hmisc
varclus
источник
Другой вариант - использовать самоорганизующиеся карты (SOM). Есть идеи о том, какое программное обеспечение будут использовать студенты? Я знаю, что R, например, имеет несколько реализаций SOM. Тем не менее, SOM могут не пройти ваш тест «Компоненты имеют интуитивный смысл». (Не обязательно с PCA, либо ...)
источник