Расчетное распределение собственных значений для данных iid (однородных или нормальных)

9

Предполагая, что у меня есть набор данных с измерениями (например, d = 20 ), чтобы каждое измерение было iid X iU [ 0 ; 1 ] (альтернативно, каждое измерение X iN [ 0 ; 1 ] ) и не зависит друг от друга.dd=20XiU[0;1]XiN[0;1]

Теперь я рисую случайный объект из этого набора данных, беру ближайших соседей и вычисляю PCA на этом наборе. В отличие от того, что можно ожидать, собственные значения не все одинаковы. В 20 единицах измерения типичный результат выглядит следующим образом:k=3d

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Для нормально распределенных данных результаты выглядят очень похожими, по крайней мере, при масштабировании их до общей суммы ( распределение N [ 0 ; 1 ] d явно имеет более высокую дисперсию в первую очередь).1N[0;1]d

Интересно, есть ли какой-нибудь результат, который предсказывает такое поведение? Я ищу тест, если ряд собственных значений несколько регулярный, и сколько собственных значений соответствуют ожидаемым, а какие значительно отличаются от ожидаемых значений.

Имеется ли результат для данного (небольшого) размера выборки , если коэффициент корреляции для двух переменных является значительным? Даже переменные iid иногда будут иметь результат, отличный от 0, для низких k .kk

ВЫЙТИ - Anony-Mousse
источник
1
хммм, не могли бы вы распечатать эти результаты с меньшим количеством сиг фиг? Я не могу их легко разобрать ...
shabbychef
Ну, как вы можете видеть, величина представляет интерес. Наивно можно было бы ожидать, что все они имеют одинаковую величину.
ВЫЙТИ - Anony-Mousse

Ответы: