Предположим, у нас есть матрица данных , которая является n- by- , и вектор метки , который является by-one. Здесь каждая строка матрицы является наблюдением, а каждый столбец соответствует измерению / переменной. (предположим, что )У н
Тогда что data space
, variable space
, observation space
, model space
значит?
Пространство, охваченное вектором столбца, (вырожденное) -D пространство, поскольку оно имеет координат, будучи рангом , называется переменным пространством, поскольку оно охватывает переменный вектор? Или это называется пространством наблюдения, поскольку каждому измерению / координате соответствует наблюдение?н р
А как насчет пространства, охватываемого векторами строк?
regression
multiple-regression
terminology
geometry
biplot
user3813057
источник
источник
Ответы:
Эти термины появляются в некоторых книгах по многомерной статистике. Предположим, у вас есть
n
индивидуумы поp
количественным признакам матрицы данных. Затем вы можете построить отдельных людей в виде точек в пространстве, где оси являются объектами. Это будет классический scatterplot, или переменный космический сюжет. Мы говорим, что облако индивидуумов охватывает пространство, определяемое осями-особенностями.Вы также можете представить диаграмму рассеяния с точками, являющимися переменными, и осями, являющимися индивидуумами. Абсолютно как предыдущий, только перевернутый. Это будет сюжет предметного пространства (или сюжет наблюдательного пространства) с охватывающими его переменными, определяющими его индивидуумы.
Обратите внимание, что если (как часто),1
n>p
то во втором случае только некоторыеp
измерения изn
размеров не являются избыточными; это означает, что вы можете и можете рисоватьp
переменные точки наp
трехмерном графике . Кроме того, по традиции переменные точки обычно связаны с началом координат, поэтому они выглядят как векторы (стрелки). Мы используем представление предметного пространства главным образом, чтобы показать отношения между переменными, поэтому мы опускаем оси-предметы и изображаем точки в виде стрелок для удобства.Если объекты (столбцы матрицы данных) были отцентрированы до рисования графика пространства объекта, то косинусы углов между переменными векторами равны их корреляциям Пирсона, а длины векторов равны нормам переменных (корневая сумма квадратов ) или стандартные отклонения (если разделить на df ).
Переменное пространство и предметное пространство являются двумя сторонами одной медали, они представляют собой одно евклидово аналитическое пространство, представленное только зеркально по отношению друг к другу. Они имеют одинаковые свойства, такие как ненулевые собственные значения и собственные векторы. Следовательно, можно изображать объекты и переменные рядом друг с другом как точки в пространстве главных осей (или другого ортогонального базиса) этого аналитического пространства, - этот совместный график называется биплотом . Я не знаю точно, что означает термин «пространство данных» - если это означает что-то конкретное, то я предполагаю, что это то общее аналитическое пространство, в котором предметное пространство и переменное пространство являются двумя ипостасями.
Некоторые локальные ссылки:
n=5
p=2
источник