Является ли высокий

23

В статистике мы делаем линейные регрессии, самые их начала. В общем, мы знаем, что чем выше тем лучше, но существует ли когда-нибудь сценарий, в котором высокий R 2 будет бесполезной моделью?R2R2

Ричард Харди
источник
8
Ответ на stats.stackexchange.com/questions/13314 может дать вам несколько идей.
whuber
2
Там одна ситуация обсуждается здесь , с примера. Например, если вы регрессировали результаты coin1 на coin2 в приведенном здесь примере, вы получите более 85%, но эти очевидные отношения являются полностью ложными. R2
Glen_b
2
не является моделью. Поэтому вы должны сказать «... высокий R 2 будет получен из бесполезной модели» или что-то подобное, а не «... высокий R 2 будет бесполезной моделью». R2R2R2
Ричард Харди
проверьте эту ссылку: Что такое хорошее значение для R в квадрате
Haitao Du
Соответствующая тема: stats.stackexchange.com/q/414349/121522
mkt - Восстановить Монику

Ответы:

43

Да. Критерии оценки статистической модели зависят от конкретной проблемы и не являются какой-либо механической функцией или статистической значимостью (хотя они имеют значение). Соответствующий вопрос: «Модель помогает вам понять данные?»R2

Бессмысленные регрессии с высоким R2

  1. Самый простой способ получить высокое значение - это сделать некоторый эквивалент регрессии правой обуви на левой обуви. Скажите мне размер вашей правой обуви, и я могу предсказать размер вашей левой обуви с большой точностью. Огромный R 2 ! Какая отличная статистическая модель! За исключением того, что означает дудли пу. Вы можете получить отличный R 2 , поместив одну и ту же переменную в левую и правую части регрессии, но эта огромная регрессия R 2 почти наверняка окажется бесполезной.R2R2R2R2

  2. Есть и другие случаи, когда включение переменной с правой стороны является концептуально неправильным действием (даже если оно поднимает ). Допустим, вы пытаетесь оценить, подвергаются ли дискриминации какие-либо меньшинства и имеют меньше шансов получить работу. Вам не следует проверять, перезвонила ли компания после подачи заявления о приеме на работу, поскольку вероятность того, что реакция на заявления о приеме на работу меньшинств может быть ниже, может быть каналом, через который происходит дискриминация! Добавление неправильного контроля может сделать вашу регрессию бессмысленной.R2

  3. Вы всегда можете увеличить , добавив больше регрессоров! Я могу продолжать добавлять регрессоры к правой стороне, пока не получу R 2, который мне нравится. Чтобы предсказать заработок, я мог бы добавить элементы управления образованием, возрастные ограничения, четверть фиксированных эффектов, фиксированные эффекты почтового индекса, фиксированные эффекты занятости, фиксированные эффекты семьи, фиксированные эффекты семьи, фиксированные эффекты домашних животных, длину волос и т. Д. ... перестать иметь смысл, но R 2 продолжает расти. Добавление всего в качестве регрессора называется регрессией «кухонной раковины». Вы можете получить высокое значение R 2, но можете значительно перегрузить данные: ваша модель отлично предсказывает выборку, использованную для оценки модели (имеет высокое значение RR2R2R2R2 ) но оценочная модель ужасно терпит неудачу на новых данных.R2

  4. Та же идея может проявиться при подгонке полиномиальной кривой. Дайте мне случайные данные, и я, вероятно, смогу получить отличный , подобрав полином 200 градусов. По новым данным, однако, предполагаемый полином не сработает из-за переоснащения. Опять же, высокий R 2 для предполагаемой модели, но оценочная модель бесполезна.R2R2

  5. Точка (3-4) - это то, почему мы скорректировали , что дает некоторое наказание за добавление большего количества регрессоров, но скорректированный R 2, как правило, все еще можно улучшить путем подгонки данных. У этого также есть удивительно бессмысленная особенность, что это может стать отрицательным.R2R2

R2R2R2

Мэтью Ганн
источник
+1 за много хороших очков. Я пытаюсь понять, что сказать о тоне ....
rolando2
2
R2
2
R2
7

«Чем выше, тем лучше» - плохое эмпирическое правило для R-квадрата.

Дон Моррисон написал несколько известных статей несколько лет назад, демонстрируя, что R-квадраты, приближающиеся к нулю, могут все еще быть действенными и прибыльными, в зависимости от отрасли. Например, в прямом маркетинговом прогнозировании ответа на рассылку журналов, рассылаемую 10 миллионам домохозяйств, R-квадраты в младших однозначных числах могут привести к прибыльным кампаниям (на основе ROI), если рассылка основана на 2 или 3 верхних ответных ответах. вероятность.

Другой социолог (чье имя ускользает от меня) сегментировал R-квадраты по типу данных, отметив, что по результатам исследования R-квадраты в диапазоне 10-20% были нормой, тогда как для бизнес-данных R-квадраты в диапазоне 40-60% следовало ожидать. Далее они отметили, что R-квадраты в 80-90% и более, вероятно, нарушали фундаментальные предположения регрессии. Тем не менее, этот автор не имел опыта работы с маркетинговым комплексом, данными временных рядов или моделями, содержащими полный набор «причинных» функций (например, классические 4 «Ps» цены, продвижения, места и продукта), которые могут и будут производить R- квадраты приближаются к 100%.

Тем не менее, даже разумные, практические эмпирические правила, такие как эти, не очень помогают при работе с технически неграмотными, чей первый вопрос о прогнозирующей модели всегда будет: «Что такое R-квадрат?»

Майк Хантер
источник
7

Другие ответы предлагают отличные теоретические объяснения многих способов, которыми значения R-квадрата могут быть исправлены / подделаны / вводят в заблуждение / и т. Д. Вот практическая демонстрация, которая всегда придерживалась меня, закодированная в r:

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

Это может обеспечить R-квадрат значения> 0,90. Добавление достаточного количества регрессоров и даже случайных значений может «предсказать» случайные значения.

Адам С
источник
1
Интересно: контраст set.seed(1)и set.seed(2).
PatrickT