Почему R Squared не является хорошей мерой для регрессии, подходящей с использованием LASSO?

Целью использования LASSO является получение разреженного представления (прогнозируемой величины) в смысле отсутствия множества ковариат. Сравнение моделей с имеет тенденцию отдавать предпочтение моделям с большим количеством ковариат: фактически, добавление ковариат, не связанных с результатом, никогда не уменьшит и почти всегда увеличивает его хотя бы немного. Модель LASSO идентифицирует модель с оптимальным логарифмическим правдоподобием (непенализованное логарифмическое правдоподобие монотонно связано с ). Статистика валидации, которая более широко используется для сравнения моделей LASSO с моделями других типов, представляет собой, например, BIC или перекрестную проверку . $R^2$ $R^2$ $R^2$ $R^2$

Adamo
источник

+1 для ясного представления причины и предоставления альтернативы

Haitao Du

Большое спасибо за отличный ответ! Не могли бы вы остановиться на том, что «Модель LASSO идентифицирует модель с оптимальным наказанным логарифмическим правдоподобием (непенализованное логарифмическое правдоподобие монотонно связано с R2)». Я полагаю, что первая часть означает, что она выберет модель с наименьшим количеством ошибок (в прогнозировании и с помощью штрафов)? Но мне неясно, что означает бит в скобках. Означает ли это, что непенализованный LL повышается с понижением R2? Кроме того, должен ли перекрестно проверенный R2 быть в совершенно новом наборе данных? Или это может быть основано на данных обучения?

Дейв

\log (2 π) N + 1 - \log (N) + \log (\sum_{i = 1}^{n} r_{i}^{2})

$\log(2\pi)N+1−\log(N)+\log(\sum_{i=1}^n r_i^2)$

1 - \sum_{i = 1}^{n} r_{i}^{2} / \sum_{i = 1}^{n} y_{i}^{2}

$1 - \sum_{i=1}^n r_i^2/\sum_{i=1}^ny_i^2$ , Наказание косвенно способствует возникновению ошибки, это цена, которую вы платите за обеспечение разреженности. Непенализованная модель всегда будет иметь более низкую (внутреннюю) ошибку. Люди обычно проводят перекрестную проверку с одним и тем же набором данных. Тестирование моделей в новых наборах данных - совсем другое дело (нет необходимости в «перекрестной» части), и этого недостаточно.

AdamO

@AdamO Думаю, было бы неплохо отредактировать свой комментарий в своем ответе, это очень хорошо.

Мэтью Друри

Привет @AdamO один последний вопрос. Теперь я понимаю, почему традиционный R2 - плохая мера. Но мне неясно, почему перекрестная проверка R2 (в том же наборе данных) подходит?

Дейв

Почему R Squared не является хорошей мерой для регрессии, подходящей с использованием LASSO?

Ответы: