Я просматривал некоторые лекционные заметки Космы Шализи (в частности, раздел 2.1.1 второй лекции ), и мне напомнили, что вы можете получить очень низкий даже если у вас полностью линейная модель.
Перефразируя пример Шализи: предположим, у вас есть модель , где известен. Тогда и количество объясненной дисперсии равно ^ 2 \ Var [X] поэтому R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Это переходит к 0 как \ Var [X] \ rightarrow 0 и к 1 как \ Var [X] \ rightarrow \ infty .
И наоборот, вы можете получить высокое даже если ваша модель заметно нелинейна. (У кого-нибудь есть хороший пример от руки?)
Итак, когда полезная статистика, и когда ее следует игнорировать?
regression
r-squared
raegtin
источник
источник
Ответы:
Для решения первого вопроса рассмотрим модель
с iid среднего нуля и конечной дисперсии. По мере увеличения диапазона (рассматриваемого как фиксированный или случайный) становится равным 1. Тем не менее, если дисперсия мала (около 1 или меньше), данные «заметно нелинейны». На графиках .ε X R2 ε var(ε)=1
Между прочим, простой способ получить небольшое значение - это нарезать независимые переменные в узкие диапазоны. Регрессия (с использованием точно такой же модели ) в каждом диапазоне будет иметь низкое даже если полная регрессия, основанная на всех данных, имеет высокое . Рассмотрение этой ситуации является информативным упражнением и хорошей подготовкой ко второму вопросу.R2 R2 R2
Оба следующих графика используют одни и те же данные. для полной регрессии 0,86. для срезов (шириной 1/2 от -5/2 до 5/2) являются +0,16, +0,18, +0,07, +0,14, +0,08, +0,17, +0,20, +0,12, .01 , .00, чтение слева направо. Во всяком случае, совпадения улучшаются в разрезанной ситуации, потому что 10 отдельных строк могут более точно соответствовать данным в их узких диапазонах. Несмотря на для всех срезов значительно ниже полного , то ни прочности отношений, в линейности , ни действительно , любой аспект данных ( за исключением того, диапазон используется для регрессии) изменились.R2 R2 R2 R2 X
(Можно возразить, что эта процедура нарезки изменяет распределение Это правда, но тем не менее, оно соответствует наиболее распространенному использованию в моделировании с фиксированными эффектами и показывает степень, в которой говорит нам о дисперсия в ситуации со случайными эффектами. В частности, когда вынужден изменяться в пределах меньшего интервала своего естественного диапазона, обычно падает.)X R2 R2 X X R2
Основная проблема с заключается в том, что он зависит от слишком многих вещей (даже если они скорректированы в множественной регрессии), но особенно от дисперсии независимых переменных и дисперсии невязок. Обычно это ничего не говорит нам о «линейности» или «силе отношений» или даже о «пригодности» для сравнения последовательности моделей.R2
Большую часть времени вы можете найти лучшую статистику, чем . Для выбора модели вы можете обратиться к AIC и BIC; для выражения адекватности модели, посмотрите на дисперсию остатков.R2
Это подводит нас, наконец, ко второму вопросу . Одна ситуация, в которой может иметь какое-то применение, - это когда независимые переменные устанавливаются в стандартные значения, по существу контролируя влияние их дисперсии. Тогда действительно является прокси для дисперсии остатков, соответствующим образом стандартизированной.R2 1−R2
источник
Ваш пример применим, только когда переменная должна быть в модели . Это, конечно, не применяется, когда используются обычные оценки наименьших квадратов. Чтобы убедиться в этом, заметим , что если оценивать по методу наименьших квадратов в вашем примере, мы получаем:X a
Теперь второе слагаемое всегда меньше (равно в пределе), поэтому мы получаем верхнюю оценку вклада в из переменной :1 1 R2 X
И поэтому, если только , мы на самом деле увидим как (потому что числитель обращается в ноль, а знаменатель входит в ). Кроме того, мы можем получить сходящегося к чему-то между и зависимости от того, насколько быстро расходятся два члена. Теперь вышеприведенный термин будет обычно расходиться быстрее, чем если должен быть в модели, и медленнее, если не должен быть в модели. В обоих случаях идет в правильном направлении.(1N∑Ni=1XiYi)2→∞ R2→0 s2X→∞ Var[ϵ]>0 R2 0 1 s2X X X R2
И также обратите внимание, что для любого конечного набора данных (то есть реального) мы никогда не можем иметь если все ошибки не равны нулю. Это в основном указывает на то, что является относительной мерой, а не абсолютной. Поскольку, если на самом деле не равно , мы всегда можем найти более подходящую модель. Это, вероятно, «опасный» аспект в том смысле, что, поскольку он масштабируется между и кажется, что мы можем интерпретировать его в абсолютном смысле.R2=1 R2 R2 1 R2 0 1
Вероятно, более полезно посмотреть, как быстро падает при добавлении переменных в модель. И, наконец, что не менее важно, его никогда не следует игнорировать при выборе переменных, поскольку является достаточной статистикой для выбора переменных - она содержит всю информацию о выборе переменных, которая содержится в данных. Единственное, что нужно, - это выбрать падение соответствующее «подгонке ошибок», которое обычно зависит от размера выборки и количества переменных.R2 R2 R2
источник
Если я могу добавить пример, когда опасно. Много лет назад я работал над некоторыми биометрическими данными и, будучи молодым и глупым, был в восторге, когда нашел некоторые статистически значимые значения для моих причудливых регрессий, которые я построил с использованием ступенчатых функций. Только после того, как я оглянулся назад после моего выступления перед широкой международной аудиторией, я понял, что, учитывая огромную дисперсию данных - в сочетании с возможным плохим представлением выборки по отношению к населению, равное 0,02, было совершенно бессмысленным даже если это было «статистически значимым» ...R2 R2 R2
Те, кто работает со статистикой, должны понимать данные!
источник
Если у вас есть один предсказатель точно интерпретируется как доля вариации , которые могут быть объяснены линейной взаимосвязи с . Эта интерпретация должна быть учтена при рассмотрении значения .R2 Y X R2
Вы можете получить большое из нелинейных отношений, только когда отношение близко к линейному. Например, предположим, что где и . Если вы делаете расчетR2 Y=eX+ε X∼Uniform(2,3) ε∼N(0,1)
вы обнаружите, что он составляет около (я только приблизил это с помощью моделирования), несмотря на то, что отношения явно не линейны. Причина в том, что выглядит очень похоже на линейную функцию на интервале ..914 eX (2,3)
источник
Одна из ситуаций , вы хотели бы избежать является множественной регрессии, где добавление неуместные предикторов к модели в некоторых случаях может увеличить . Это можно решить, используя вместо этого скорректированное значение , рассчитанное какR 2 R 2R2 R2 R2
npR¯2=1−(1−R2)n−1n−p−1 где - количество выборок данных, а - количество регрессоров, не считающих постоянный член ,n p
источник
Хорошим примером для высокого с нелинейной функцией является квадратичная функция ограниченная интервалом . С шумом 0 он не будет иметь квадрат равный 1, если у вас есть 3 или более точек, поскольку они не будут идеально вписываться в прямую линию. Но если расчетные точки равномерно распределены на полученное вами будет высоким, возможно, на удивление, таким образом. Это может быть не так, если у вас много точек около 0 и много около 1 с небольшим или ничем посередине.R2 y=x2 [0,1] R2 [0,1] R2
В ситуации множественной регрессии существует проблема переоснащения. Добавьте переменные и всегда будет увеличиваться. Скорректированный несколько исправляет это, поскольку учитывает количество параметров.R2 R2
источник