Является полезно или опасно?

234

Я просматривал некоторые лекционные заметки Космы Шализи (в частности, раздел 2.1.1 второй лекции ), и мне напомнили, что вы можете получить очень низкий даже если у вас полностью линейная модель.R2

Перефразируя пример Шализи: предположим, у вас есть модель , где известен. Тогда и количество объясненной дисперсии равно ^ 2 \ Var [X] поэтому R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Это переходит к 0 как \ Var [X] \ rightarrow 0 и к 1 как \ Var [X] \ rightarrow \ infty .Y=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

И наоборот, вы можете получить высокое R2 даже если ваша модель заметно нелинейна. (У кого-нибудь есть хороший пример от руки?)

Итак, когда R2 полезная статистика, и когда ее следует игнорировать?

raegtin
источник
5
Обратите внимание на соответствующую
ветку
36
У меня нет ничего статистического, чтобы добавить к превосходным ответам (особенно ответ @whuber), но я думаю, что правильный ответ - «R-квадрат: полезный и опасный». Как почти любая статистика.
Питер Флом
32
Ответ на этот вопрос: «Да»
Fomite
Смотрите stats.stackexchange.com/a/265924/99274 для еще одного ответа.
Карл
Пример из скрипта не очень полезен, если вы не можете сказать нам, что такое ? Если является константой, то ваш аргумент неверен, так как тогда Однако, если является константой Пожалуйста, нанесите относительно для маленького и скажите мне, что это линейно ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Дан

Ответы:

264

Для решения первого вопроса рассмотрим модель

Y=X+sin(X)+ε

с iid среднего нуля и конечной дисперсии. По мере увеличения диапазона (рассматриваемого как фиксированный или случайный) становится равным 1. Тем не менее, если дисперсия мала (около 1 или меньше), данные «заметно нелинейны». На графиках .εXR2εvar(ε)=1

Короткий диапазон X

Более широкий диапазон X

Между прочим, простой способ получить небольшое значение - это нарезать независимые переменные в узкие диапазоны. Регрессия (с использованием точно такой же модели ) в каждом диапазоне будет иметь низкое даже если полная регрессия, основанная на всех данных, имеет высокое . Рассмотрение этой ситуации является информативным упражнением и хорошей подготовкой ко второму вопросу.R2R2R2

Оба следующих графика используют одни и те же данные. для полной регрессии 0,86. для срезов (шириной 1/2 от -5/2 до 5/2) являются +0,16, +0,18, +0,07, +0,14, +0,08, +0,17, +0,20, +0,12, .01 , .00, чтение слева направо. Во всяком случае, совпадения улучшаются в разрезанной ситуации, потому что 10 отдельных строк могут более точно соответствовать данным в их узких диапазонах. Несмотря на для всех срезов значительно ниже полного , то ни прочности отношений, в линейности , ни действительно , любой аспект данных ( за исключением того, диапазон используется для регрессии) изменились.R2R2R2R2X

Облако точек с полной регрессией

Нарезанное облако точек с 10 регрессиями

(Можно возразить, что эта процедура нарезки изменяет распределение Это правда, но тем не менее, оно соответствует наиболее распространенному использованию в моделировании с фиксированными эффектами и показывает степень, в которой говорит нам о дисперсия в ситуации со случайными эффектами. В частности, когда вынужден изменяться в пределах меньшего интервала своего естественного диапазона, обычно падает.)XR2R2XXR2

Основная проблема с заключается в том, что он зависит от слишком многих вещей (даже если они скорректированы в множественной регрессии), но особенно от дисперсии независимых переменных и дисперсии невязок. Обычно это ничего не говорит нам о «линейности» или «силе отношений» или даже о «пригодности» для сравнения последовательности моделей.R2

Большую часть времени вы можете найти лучшую статистику, чем . Для выбора модели вы можете обратиться к AIC и BIC; для выражения адекватности модели, посмотрите на дисперсию остатков. R2

Это подводит нас, наконец, ко второму вопросу . Одна ситуация, в которой может иметь какое-то применение, - это когда независимые переменные устанавливаются в стандартные значения, по существу контролируя влияние их дисперсии. Тогда действительно является прокси для дисперсии остатков, соответствующим образом стандартизированной.R21R2

Whuber
источник
26
Какой удивительно подробный и отзывчивый ответ @whuber
Питер Флом
Разве AIC и BIC явно не корректируют количество оценочных параметров? Если так, то сравнение с нескорректированным R ^ 2 кажется несправедливым. Итак, я спрашиваю, поддерживает ли ваша критика скорректированный R ^ 2? Кажется, что если бы вы были оштрафованы за «нарезку», которая скорректировала R ^ 2, вы могли бы вернуться к тому, чтобы рассказать вам о хорошем соответствии модели.
Расселпирс
7
@dr Моя критика отлично подходит к скорректированному . Единственные случаи, когда есть большая разница между и скорректированным это когда вы используете множество параметров по сравнению с данными. В примере нарезки было почти 1000 точек данных, и нарезка добавила только 18 параметров; корректировки в не будут даже влиять на второй знак после запятой, за исключением , возможно , в конце концов сегментов , где были только несколько точек дюжины данных: и было бы опустить их, на самом деле укрепление аргумента. R2R2R2R2
whuber
5
Ответ на вопрос в вашем первом комментарии должен зависеть от вашей цели, и существует несколько способов интерпретации «тестирования на линейные отношения». Во-первых, вы хотите проверить, является ли коэффициент ненулевым. Во-вторых, вы хотите знать, есть ли доказательства нелинейности. (само по себе) не очень полезно для обоих, хотя мы знаем, что высокий с большим количеством данных означает, что их диаграмма рассеяния выглядит примерно линейной - как мой второй или как пример @ macro. Для каждой цели есть соответствующий тест и связанное с ним значение p. R2R2
whuber
4
Что касается вашего второго вопроса, мы должны задаться вопросом, что может означать «наилучшее» линейное соответствие. Одним из кандидатов будет любое соответствие, которое минимизирует остаточную сумму квадратов. Вы можете смело использовать в качестве прокси для этого, но почему бы не изучить саму (скорректированную) среднеквадратическую ошибку? Это более полезная статистика. R2
whuber
47

Ваш пример применим, только когда переменная должна быть в модели . Это, конечно, не применяется, когда используются обычные оценки наименьших квадратов. Чтобы убедиться в этом, заметим , что если оценивать по методу наименьших квадратов в вашем примере, мы получаем:X a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Где - это (примерная) дисперсия а есть (выборка) среднее значениеsX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Теперь второе слагаемое всегда меньше (равно в пределе), поэтому мы получаем верхнюю оценку вклада в из переменной :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

И поэтому, если только , мы на самом деле увидим как (потому что числитель обращается в ноль, а знаменатель входит в ). Кроме того, мы можем получить сходящегося к чему-то между и зависимости от того, насколько быстро расходятся два члена. Теперь вышеприведенный термин будет обычно расходиться быстрее, чем если должен быть в модели, и медленнее, если не должен быть в модели. В обоих случаях идет в правильном направлении.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

И также обратите внимание, что для любого конечного набора данных (то есть реального) мы никогда не можем иметь если все ошибки не равны нулю. Это в основном указывает на то, что является относительной мерой, а не абсолютной. Поскольку, если на самом деле не равно , мы всегда можем найти более подходящую модель. Это, вероятно, «опасный» аспект в том смысле, что, поскольку он масштабируется между и кажется, что мы можем интерпретировать его в абсолютном смысле.R2=1R2R21R201

Вероятно, более полезно посмотреть, как быстро падает при добавлении переменных в модель. И, наконец, что не менее важно, его никогда не следует игнорировать при выборе переменных, поскольку является достаточной статистикой для выбора переменных - она ​​содержит всю информацию о выборе переменных, которая содержится в данных. Единственное, что нужно, - это выбрать падение соответствующее «подгонке ошибок», которое обычно зависит от размера выборки и количества переменных.R2R2R2

probabilityislogic
источник
4
+1 много приятных очков. Расчеты добавляют количественную информацию к предыдущим ответам.
whuber
27

Если я могу добавить пример, когда опасно. Много лет назад я работал над некоторыми биометрическими данными и, будучи молодым и глупым, был в восторге, когда нашел некоторые статистически значимые значения для моих причудливых регрессий, которые я построил с использованием ступенчатых функций. Только после того, как я оглянулся назад после моего выступления перед широкой международной аудиторией, я понял, что, учитывая огромную дисперсию данных - в сочетании с возможным плохим представлением выборки по отношению к населению, равное 0,02, было совершенно бессмысленным даже если это было «статистически значимым» ...R2R2R2

Те, кто работает со статистикой, должны понимать данные!

Шон
источник
15
Никакая статистика не опасна, если вы понимаете, что это значит. Пример Шона не имеет ничего общего с квадратом R, это общая проблема влюбленности в статистическую значимость. Когда мы проводим статистическое тестирование на практике, нас интересуют только значимые различия. Две популяции никогда не имеют одинакового распределения. Если они близки к равным, нам все равно. При очень больших размерах выборки мы можем обнаружить небольшие несущественные различия. Вот почему в моих медицинских исследованиях я подчеркиваю разницу между клинической и статистической значимостью.
Майкл Черник
11
Сначала мои клиенты часто утверждают, что целью исследования является статистическая значимость. Им нужно показать, что это не так.
Майкл Черник
Статистически значимое значение при 0,02 просто означает, что у вас было достаточно данных, чтобы утверждать, что не равно 0. Но оно близко к 0. Таким образом, существует очень мало связи между независимыми переменными и зависимой переменной. R2R2
Майкл Черник
1
Абсолютно согласен Майкл. Небольшое знание статистики может быть опасным! :) На основе этого понимания много лет назад, я упорно трудился , чтобы не повторить эту ошибку, Daft делать много исследования , чтобы лучше понять , что статистика на самом деле означает. Степень магистра и докторскую степень в области статистики, и я все еще думаю, что у меня долгий путь в учебе!
Шон
Спасибо, Шон. Я ценю ваши комментарии и смирение.
Майкл Черник
16

Если у вас есть один предсказатель точно интерпретируется как доля вариации , которые могут быть объяснены линейной взаимосвязи с . Эта интерпретация должна быть учтена при рассмотрении значения .R2YXR2

Вы можете получить большое из нелинейных отношений, только когда отношение близко к линейному. Например, предположим, что где и . Если вы делаете расчетR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

вы обнаружите, что он составляет около (я только приблизил это с помощью моделирования), несмотря на то, что отношения явно не линейны. Причина в том, что выглядит очень похоже на линейную функцию на интервале ..914eX(2,3)

макрос
источник
1
К замечаниям ниже Эрика и Макро я не думаю, что у кого-то есть это для меня, и, вероятно, лучше иметь один комбинированный ответ вместо трех отдельных, но почему это так важно, что так много дискуссий сосредоточено вокруг того, как вы писать вещи и где вы пишете это вместо того, чтобы сосредоточиться на том, что сказано?
Майкл Черник
8
@MichaelChernick, я не думаю, что есть "так много" дискуссий о том, как каждый пишет вещи. Руководящие принципы, с которыми мы пытались вам помочь, более похожи на «если бы все так делали, этот сайт был бы очень неорганизованным и трудным для соблюдения». Может показаться, что об этих вещах идет много дискуссий, но это, вероятно, только потому, что вы были очень активным участником с тех пор, как вы присоединились, и это здорово, так как вы явно привносите многое в игру. Если вы хотите больше поговорить об этом, рассмотрите возможность начать обсуждение мета, а не обсуждение комментариев под моим несвязанным ответом :)
Макрос
что случилось, если в вашем примере расширить поддержку равномерного распределения?
Qbik
Поскольку я приобрел опыт на этом сайте, я должен согласиться с Macro, что важно быть кратким и консолидированным.
Майкл Черник
15

Одна из ситуаций , вы хотели бы избежать является множественной регрессии, где добавление неуместные предикторов к модели в некоторых случаях может увеличить . Это можно решить, используя вместо этого скорректированное значение , рассчитанное какR 2 R 2R2R2R2

npR¯2=1(1R2)n1np1 где - количество выборок данных, а - количество регрессоров, не считающих постоянный член ,np

jedfrancis
источник
21
Обратите внимание, что добавление нерелевантных переменных гарантирует увеличение (не только в «некоторых случаях»), если только эти переменные не являются полностью коллинеарными существующим переменным. R2
whuber
6
  1. Хорошим примером для высокого с нелинейной функцией является квадратичная функция ограниченная интервалом . С шумом 0 он не будет иметь квадрат равный 1, если у вас есть 3 или более точек, поскольку они не будут идеально вписываться в прямую линию. Но если расчетные точки равномерно распределены на полученное вами будет высоким, возможно, на удивление, таким образом. Это может быть не так, если у вас много точек около 0 и много около 1 с небольшим или ничем посередине.R2y=x2[0,1]R2[0,1]R2

  2. R2 будет плохим в идеальном линейном случае, если шумовой член имеет большую дисперсию. Таким образом, вы можете взять модель которая технически является идеальной линейной моделью, но пусть дисперсия e стремится к бесконечности, и вы получите идущее к 0. Несмотря на свои недостатки, квадрат R действительно измеряет процент Дисперсия объясняется данными, и поэтому она измеряет качество соответствия. Высокое значение означает хорошую подгонку, но мы все равно должны быть осторожны с хорошей подгонкой, вызванной слишком большим количеством параметров для размера имеющегося у нас набора данных.Y=x+ϵR2R2

  3. В ситуации множественной регрессии существует проблема переоснащения. Добавьте переменные и всегда будет увеличиваться. Скорректированный несколько исправляет это, поскольку учитывает количество параметров.R2R2

Майкл Черник
источник