Пространство данных, пространство переменных, пространство наблюдения, пространство модели (например, в линейной регрессии)

9

Предположим, у нас есть матрица данных , которая является n- by- , и вектор метки , который является by-one. Здесь каждая строка матрицы является наблюдением, а каждый столбец соответствует измерению / переменной. (предположим, что )XnУ нpYnn>p

Тогда что data space, variable space, observation space, model spaceзначит?

Пространство, охваченное вектором столбца, (вырожденное) -D пространство, поскольку оно имеет координат, будучи рангом , называется переменным пространством, поскольку оно охватывает переменный вектор? Или это называется пространством наблюдения, поскольку каждому измерению / координате соответствует наблюдение?н рnnp

А как насчет пространства, охватываемого векторами строк?

user3813057
источник
5
Это не общеизвестные термины. У вас есть ссылка? Если нет, мы могли бы догадаться, что они означают.
whuber
1
У меня нет ссылки. Однажды я слышал, как мой профессор сказал это некоторое время назад.
user3813057
3
Я почти уверен, что ваш профессор определил эти термины в какой-то момент. Может быть, они в ваших заметках класса ...
whuber

Ответы:

14

Эти термины появляются в некоторых книгах по многомерной статистике. Предположим, у вас есть nиндивидуумы по pколичественным признакам матрицы данных. Затем вы можете построить отдельных людей в виде точек в пространстве, где оси являются объектами. Это будет классический scatterplot, или переменный космический сюжет. Мы говорим, что облако индивидуумов охватывает пространство, определяемое осями-особенностями.

Вы также можете представить диаграмму рассеяния с точками, являющимися переменными, и осями, являющимися индивидуумами. Абсолютно как предыдущий, только перевернутый. Это будет сюжет предметного пространства (или сюжет наблюдательного пространства) с охватывающими его переменными, определяющими его индивидуумы.

Обратите внимание, что если (как часто), n>pто во втором случае только некоторые pизмерения из nразмеров не являются избыточными; это означает, что вы можете и можете рисовать pпеременные точки на pтрехмерном графике . Кроме того, по традиции переменные точки обычно связаны с началом координат, поэтому они выглядят как векторы (стрелки). Мы используем представление предметного пространства главным образом, чтобы показать отношения между переменными, поэтому мы опускаем оси-предметы и изображаем точки в виде стрелок для удобства.1

Если объекты (столбцы матрицы данных) были отцентрированы до рисования графика пространства объекта, то косинусы углов между переменными векторами равны их корреляциям Пирсона, а длины векторов равны нормам переменных (корневая сумма квадратов ) или стандартные отклонения (если разделить на df ).

Переменное пространство и предметное пространство являются двумя сторонами одной медали, они представляют собой одно евклидово аналитическое пространство, представленное только зеркально по отношению друг к другу. Они имеют одинаковые свойства, такие как ненулевые собственные значения и собственные векторы. Следовательно, можно изображать объекты и переменные рядом друг с другом как точки в пространстве главных осей (или другого ортогонального базиса) этого аналитического пространства, - этот совместный график называется биплотом . Я не знаю точно, что означает термин «пространство данных» - если это означает что-то конкретное, то я предполагаю, что это то общее аналитическое пространство, в котором предметное пространство и переменное пространство являются двумя ипостасями.

введите описание изображения здесь

Некоторые локальные ссылки:


1n=5p=2

ttnphns
источник
2
+1. Но я не уверен, каков точный математический смысл того, что переменная и предметное пространство являются «одним и тем же евклидовым аналитическим пространством».
амеба
3
@amoeba, не будучи математическим в ответе, я надеялся, что он интуитивно прозрачен (особенно для таких экспертов по линейной алгебре, как вы). Например, в разложении сингулярных значений матрицы данных (svd, на которой основан биплот) - какое пространство характеризуют собственные значения и левый и правый собственные векторы? Разве это не одно и то же аналитическое пространство, которое может быть разложено различными способами, среди которых (i) строки и столбцы в виде точек по основным осям в качестве осей; (ii) строки как точки, столбцы как оси; (iii) столбцы как точки, строки как оси?
ttnphns