Вычисление проблем, интерпретация regsubsets и общие вопросы о процедуре выбора модели

Я хочу выбрать модели, используя regsubsets(). У меня есть фрейм данных с именем olympiadaten (загруженные данные: http://www.sendspace.com/file/8e27d0 ). Я сначала присоединяю этот фрейм данных, а затем начинаю анализировать, мой код:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

скриншот сюжета:

Теперь проблема в том, что я хочу установить «лучшую» модель снова «вручную» и посмотреть на нее, но значение скорректированного квадрата R не совпадает с выходным значением regsubsets? Это также относится и к другим моделям, например, когда я делаю простейшую модель на графике:

summary(lm(Gesamt~ExpHealth))

Графика говорит, что он должен иметь скорректированный квадрат R примерно 0,14, но когда я смотрю на результат, я получаю значение 0,06435.

Вот вывод summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

Я не знаю, что я мог сделать неправильно, любая помощь будет оценена.

И последнее, но не менее важное, еще несколько вопросов:

В чем разница между выбором моделей по AIC и прил. R в квадрате?
Оба измеряют соответствие и распознают количество переменных, поэтому AIC выбирает не лучшую модель, а модель с самым высоким значением adj. г в квадрате?
Когда у меня 12 переменных, это значит, что у модели возможностей, верно? $2^12$
Так regsubsets()вычисляет ли команда каждую модель и показывает два лучших ( nbest=2) каждого размера?
Если да, могу ли я получить «лучшую» модель?
И когда я делаю AIC с использованием обратного выбора (начиная с модели, которая содержит все переменные), это также заканчивается той же моделью, которая regsubsets()говорит, что лучше?

r multiple-regression model-selection user1690846
источник

Разница в скорректированных заключается в том, что некоторые переменные имеют пропущенные значения. Я полагаю, что вы получили бы тот же скорректированный если бы вы подгоняли модель «вручную», просто используя подмножество данных, для которых все переменные (в формуле в regsubsets) не пропущены. Примечание: выбор вашей модели с использованием regsubsets считается плохим методом.

R^{2}

$R^2$

R^{2}

$R^2$

mark999

@ mark999 Ваши комментарии хороши и, похоже, дают правильный ответ. Вы должны преобразовать его в ответ.

Майкл Р. Черник

Спасибо @MichaelChernick, но я предпочитаю просто оставить это как комментарий.

mark999 26.09.12

@ user1690846 Я рекомендую посмотреть ответ Питера Флома на stats.stackexchange.com/questions/8303/…

mark999

@ mark999 прежде всего спасибо за ответ, но почему это плохой метод? И лучше ли выбирать с AIC? Так должен ли я приспособить модель, используя na.omit (olympiadaten)? Если у кого-то есть ответ на другие вопросы, любые дальнейшие ответы будут очень благодарны, спасибо

user1690846 26.09.12

Ответы:

Чтобы развить идею об использовании всех подмножеств или инструментов наилучших подмножеств для нахождения «наилучшей» подходящей модели, книга Даррелла Хаффа «Как совладать со статистикой» рассказывает о Readers Digest, где публикуется сравнение химических веществ в сигаретном дыме. Смысл их статьи состоял в том, чтобы показать, что между разными брендами не было никакой реальной разницы, но один из брендов был самым низким по некоторым химическим веществам (но настолько незначительным, что разница была бессмысленной), и этот бренд начал большую рекламную кампанию, основанную на быть «самым низким» или «лучшим» согласно Reader Digest.

Все регрессии подмножеств или лучших подмножеств аналогичны, реальное сообщение на графике, которое вы показываете, не «здесь лучший», но на самом деле нет единой лучшей модели. Со статистической точки зрения (с использованием скорректированного r-квадрата) большинство вашей модели практически одинаковы (немногие в нижней части уступают указанным выше, но все остальные похожи). Ваше желание найти «Лучшую» модель из этого стола похоже на то, что сигаретная компания говорит, что их продукт был лучшим, когда целью было показать, что все они похожи.

Вот кое-что, что можно попробовать, случайным образом удалить одну точку из набора данных и повторно запустить анализ, вы получаете ту же самую «Лучшую» модель? или это меняется? повторите несколько раз, удаляя разные точки каждый раз, чтобы увидеть, как меняется «лучшая» модель. Действительно ли вам удобно утверждать, что модель является «Лучшей», когда это небольшое изменение в данных дает другое «Лучшее»? Также посмотрите, насколько разные коэффициенты у разных моделей, как вы интерпретируете эти изменения?

Лучше понять вопрос и науку о данных и использовать эту информацию, чтобы помочь выбрать «лучшую» модель. Рассмотрим две модели, которые очень похожи, единственное отличие состоит в том, что одна модель включает в себя а другая - вместо . Модель с подходит немного лучше (при r-квадрате 0,49 против 0,48), однако для измерения требуется операция и 2 недели ожидания лабораторных результатов при измерении $x_1$ $x_2$ $x_1$ $x_1$ $x_2$ занимает 5 минут и сфигмоманометр. Действительно ли стоило бы потратить дополнительное время, затраты и риск, чтобы получить дополнительные 0,01 в регуляторе r-squared, или лучшая модель была бы быстрее, дешевле и безопаснее? Что имеет смысл с научной точки зрения? В своем примере выше вы действительно думаете, что увеличение расходов на армию улучшит олимпийские игры? или это случай, когда эта переменная действует как суррогат для других переменных расходов, которые будут иметь более прямое влияние?

Другие вещи, которые следует учитывать, включают в себя выбор нескольких хороших моделей и их объединение (усреднение модели), или вместо того, чтобы каждая переменная была либо полностью, либо полностью добавляя некоторую форму штрафа (регрессия Риджа, LASSO ,asticnet, ...).

Грег Сноу
источник

Хороший ответ! Подчеркивает: «Лучше понять вопрос и науку о данных и использовать эту информацию, чтобы помочь выбрать« лучшую »модель» и весь последующий абзац.

Андре Сильва

На некоторые вопросы ответили, поэтому я обращаюсь только к тем, которые касаются выбора модели. AIC, BIC, Mallow Cp и скорректированный R - все это методы для сравнения и выбора моделей, которые учитывают проблемы переоснащенных моделей с помощью скорректированной меры или штрафной функции в критериях. Но в тех случаях, когда функции штрафа отличаются, очень возможно, что два одинаковых критерия могут привести к различным вариантам выбора окончательной модели. Минимальное значение для разных критериев может совпадать для разных моделей. Это наблюдается довольно часто при взгляде на модели, выбранные AIC и BIC. $^2$

Я действительно не знаю, что вы подразумеваете под лучшей моделью. Каждый критерий по существу дает различное определение лучшего. Вы можете назвать модель лучшей с точки зрения информации, энтропии, стохастической сложности, объясненной (скорректированной) дисперсии процента и многого другого. Если вы имеете дело с конкретным критерием и имеете в виду наилучшее определение истинного минимума, скажем, AIC для всех возможных моделей, то это можно гарантировать только при рассмотрении всех моделей (т. Е. Всех подмножеств для выбора переменных). Пошаговая, пошаговая и пошаговая процедура не всегда находят лучшую модель в смысле определенного критерия. С помощью пошаговой регрессии вы можете даже получить разные ответы, запустив разные модели. Я уверен, что Фрэнк Харрелл мог бы многое сказать по этому поводу.

Чтобы узнать больше, есть несколько хороших книг по выбору модели / подмножества, и некоторые из них я упомянул здесь. Также скоро выйдет монография Лейси Гантер со Springer в их серии SpringerBrief. Я был соавтором с ней в этой книге.

Майкл Р. Черник
источник