Я пытаюсь обобщить то, что я до сих пор понимал в многомерном анализе наказаний с помощью многомерных наборов данных, и я все еще борюсь за то, чтобы получить правильное определение мягкого порогового определения по сравнению с штрафом Лассо (или ).
Точнее, я использовал разреженную регрессию PLS для анализа структуры двухблочных данных, включая геномные данные ( однонуклеотидные полиморфизмы , где мы рассматриваем частоту минорного аллеля в диапазоне {0,1,2}, рассматриваемого как числовая переменная) и непрерывные фенотипы (баллы, определяющие количественные характеристики личности или асимметрию мозга, также рассматриваются как непрерывные переменные). Идея заключалась в том, чтобы выделить наиболее влиятельных предикторов (здесь, генетические вариации на последовательности ДНК), чтобы объяснить межиндивидуальные фенотипические вариации.
Первоначально я использовал пакет mixOmics R (ранее integrOmics
), в котором предусмотрены штрафные регрессии PLS и регуляризованный CCA . Глядя на код R, мы обнаружили, что «редкость» в предикторах просто вызывается путем выбора верхних переменных с самыми высокими нагрузками (в абсолютном значении) для i- го компонента, i = 1 , … , k (алгоритм итеративная и расчетная загрузка переменных для k компонентов, дефлятирование блока предикторов на каждой итерации, см. Sparse PLS: Выбор переменной при интеграции данных Omics для обзора). Наоборот,SPLS пакет в соавторстве с С. Keleş (см разреженных частных наименьших квадратов регрессии для одновременного измерения уменьшения и выбора переменных для более формального описания подхода , проведенного этими авторами) реализует -penalization для переменной пенализации.
Для меня не очевидно, существует ли строгая «биекция», так сказать, между итеративным выбором признаков на основе мягкого порога и регуляризации . Итак, мой вопрос: есть ли математическая связь между ними?
Ссылки
- Chun, H. и Kele ̧s, S. (2010), Разреженные частичные наименьшие квадраты для одновременного уменьшения размера и выбора переменной . Журнал Королевского статистического общества: Серия B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. и Besse, P. (2008), Редкий PLS для выбора переменных при интеграции данных Omics . Статистические применения в генетике и молекулярной биологии , 7 , статья 35.
lars
пакет R; другие методы включают спуск по координатам (см. JSS 2010 33 (1), bit.ly/bDNUFo ), аscikit.learn
пакет Python предлагает оба подхода, bit.ly/bfhnZz .источник