Я хочу назначить разные веса переменным в моем кластерном анализе, но моя программа (Stata), похоже, не имеет возможности для этого, поэтому мне нужно сделать это вручную.
Представьте себе 4 переменные A, B, C, D. Веса для этих переменных должны быть
w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%
Мне интересно, действительно ли один из следующих двух подходов сработает:
- Сначала я стандартизирую все переменные (например, по их диапазону). Затем я умножаю каждую стандартизированную переменную на их вес. Затем выполните кластерный анализ.
- Я умножаю все переменные на их вес и впоследствии стандартизирую их. Затем выполните кластерный анализ.
Или обе идеи полная чушь?
[РЕДАКТИРОВАТЬ] Алгоритмы кластеризации (я пробую 3 различных), которые я хочу использовать, это k-средних, средневзвешенная связь и средняя связь. Я планирую использовать средневзвешенную связь, чтобы определить большое количество кластеров, которые я потом подключу к k-means.
clustering
stata
SPi
источник
источник
Ответы:
Один из способов присвоить вес переменной - изменить ее масштаб. Уловка работает для алгоритмов кластеризации, которые вы упоминаете, а именно. k-средних, средневзвешенная связь и средняя связь.
Кауфман, Леонард и Питер Дж. Руссеув. « Поиск групп в данных: введение в кластерный анализ ». (2005) - стр. 11:
Абрахамович, М. (1985). Использование нечисловой информации для измерения различий, документ, представленный на четвертом Европейском совещании Психометрического общества и классификационных обществ, 2-5 июля, Кембридж (Великобритания).
Фридман, HP, и Рубин, J. (1967), О некоторых инвариантных критериев для группировки данных. Дж. Amer. Statist. ASSOC6., 2, 1159-1178.
Hardy, A. и Rasson, JP (1982), Une nouvelle Approche des Проблемы проблем классификации автоматики, Statist. Анальный. Donnies, 7, 41-56.
источник