У кого-нибудь есть опыт подходов к выбору количества разреженных главных компонентов для включения в регрессионную модель?
pca
sparse
regression-strategies
Фрэнк Харрелл
источник
источник
Ответы:
Хотя у меня нет прямого понимания вашего вопроса, я наткнулся на некоторые исследовательские работы , которые могут вас заинтересовать. Это, конечно, если я правильно понимаю, что вы говорите о разреженном PCA , регрессии основного компонента и связанных с этим темах. В этом случае вот документы:
источник
http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870
Я могу опубликовать копию, если вы не являетесь участником ieee.
Это из статьи, которую я написал в старшекурснике. У меня была проблема, когда мне нужно было решить, сколько измерений (скрытое семантическое индексирование аналогично PCA) использовать в моей модели логистической регрессии. Я выбрал метрику (т. Е. Частоту ошибок при использовании вероятности пометки 0,5) и посмотрел на распределение этой частоты ошибок для разных моделей, обученных по разному количеству измерений. Затем я выбрал модель с самым низким уровнем ошибок. Вы можете использовать другие метрики, такие как площадь под кривой ROC.
Вы также можете использовать что-то вроде ступенчатой регрессии, чтобы выбрать количество измерений для вас. Какой тип регрессии вы выполняете конкретно?
Что вы имеете в виду под разреженным кстати?
источник