Я видел сюжет LDA (линейный дискриминантный анализ) с границами решения из «Элемента статистического обучения» :
Я понимаю, что данные проецируются на низкоразмерное подпространство. Тем не менее, я хотел бы знать, как мы получаем границы решений в исходном измерении, чтобы я мог проецировать границы решений на подпространство более низкого измерения (как черные линии на изображении выше).
Есть ли формула, которую я могу использовать для вычисления границ решения в исходном (более высоком) измерении? Если да, то какие данные нужны для этой формулы?
r
references
discriminant-analysis
mynameisJEFF
источник
источник
they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category
.Ответы:
Эта конкретная фигура в Hastie et al. был произведен без вычисления уравнений границ классов. Вместо этого использовался алгоритм, описанный @ttnphns в комментариях, см. Сноску 2 в разделе 4.3, стр. 110:
Однако я продолжу описывать, как получить уравнения границ классов LDA.
Давайте начнем с простого 2D-примера. Вот данные из набора данных Iris ; Я отбрасываю измерения лепестков и учитываю только длину чашелистика и ширину чашелистика. Три класса отмечены красным, зеленым и синим цветами:
Обозначим средние классы (центроиды) через . LDA предполагает, что все классы имеют одинаковую внутриклассовую ковариацию; учитывая данные, эта общая ковариационная матрица оценивается (с точностью до масштабирования) как W = ∑ i ( x i - μ k ) (μ1,μ2,μ3 , где сумма по всем точкам данных и центроида соответствующего класс вычитается из каждой точки.W=∑i(xi−μk)(xi−μk)⊤
Три линии пересекаются в одной точке, как и следовало ожидать. Границы решения задаются лучами, начинающимися с точки пересечения:
аппендикс
источник