Линейная регрессия и масштабирование данных

10

На следующем графике показаны коэффициенты, полученные с помощью линейной регрессии ( mpgв качестве целевой переменной и всех других в качестве предикторов).

Для набора данных mtcars ( здесь и здесь ) как с масштабированием данных, так и без него:

введите описание изображения здесь

Как мне интерпретировать эти результаты? Переменные hpи dispзначимы только в том случае, если данные масштабируются. Существуют amи qsecодинаково важны или amважнее qsec? Какую переменную следует назвать важными определяющими факторами mpg?

Спасибо за ваше понимание.

rnso
источник
Если вы не возражаете, можете ли вы просто запустить несколько разных моделей и проверить, какие функции действительно важны? Масштабирование данных выполняется, когда у нас действительно очень разные масштабы для разных столбцов, и они сильно отличаются от вашего графика (хорошие графики), и совершенно очевидно, что масштабирование помогло модели найти реальные представления о данных, как без масштабирования. У модели нет другого выбора, кроме как придать больший вес переменной, которая имеет большие масштабы, при условии, что то, что вы предсказываете, также является немного большим числом ...
Aditya
Спасибо за ваш комментарий на участке. Я не уверен, что вы подразумеваете под "запустить несколько разных моделей". Можете ли вы выяснить, какие функции действительно важны, используя некоторые другие методы, такие как нейронная сеть, чтобы потом можно было сравнить их с результатами линейной регрессии.
rnso
Извините за то , что неясно, что я имел в виду, попробовать различные алгоритмы мл , как дерево на основе и т.д. , и сравнить все их особенности важностей ..
Адитья

Ответы:

4

Дело в том, что коэффициенты л.с. и DISP являются низкими, когда данные немасштабированная и высокий уровень, когда данные масштабируются означает, что эти переменные помогают объясняющие зависимой переменной, но их величина велика, поэтому коэффициенты в немасштабированного случае должны быть низкими.

С точкой зрения «важности», я бы сказал, что абсолютное значение коэффициентов в масштабируются случае является хорошим показателем важности, более чем в немасштабированном случае, поскольку величина переменного также актуальна, и он должен не.

Конечно, более важной переменной является вес.

Дэвид Масип
источник
4

Вы не можете действительно говорить о значимости в этом случае без стандартных ошибок; они масштабируются с переменными и коэффициентами. Кроме того, каждый коэффициент зависит от других переменных в модели, и коллинеарность на самом деле, кажется, увеличивает значение hp и disp.

Изменение масштаба переменных не должно менять значимость результатов вообще. В самом деле, когда я перезапускаю регрессию (с переменными, как есть, и нормализуется путем вычитания среднего значения и деления на стандартные ошибки), каждая оценка коэффициента (кроме константы) имела точно такой же t-стат, что и до масштабирования, и F-критерий общего значения остался точно таким же.

То есть, даже если все переменные были масштабированы так, чтобы иметь среднее значение нуля и дисперсию 1, стандартная ошибка для каждого из коэффициентов регрессии отсутствует, поэтому просто посмотрите на величину каждого коэффициента в стандартизированная регрессия все еще вводит в заблуждение относительно значимости.

Как объяснялся Дэвид Masip, видимый размер коэффициентов имеет обратную связь с величиной точек данных. Но даже тогда, когда коэффициенты на ИЗОБ и л.с. огромны, они по-прежнему существенно не отличается от нуля.

На самом деле, л.с. и дисп сильно коррелированны друг с другом, г = .79, поэтому стандартные ошибки на этих коэффициентах особенно высок по сравнению с коэффициентом величины, потому что они настолько коллинеарным. В этой регрессии они делают странные противовесы, поэтому у каждого есть положительный коэффициент, а у другого отрицательный коэффициент; это похоже на случай переобучения и, кажется, не имеет смысла.

Хороший способ увидеть, какие переменные объясняют наибольшее изменение миль на галлон, - это (скорректированный) R-квадрат. Буквально процент изменения y объясняется изменением переменных x. (Скорректированный R-квадрат включает небольшое наказание за каждую дополнительную переменную x в уравнении, чтобы уравновесить перенастройку.)

Хороший способ увидеть, что важно - в свете других переменных - посмотреть на изменение скорректированного R-квадрата, когда вы пропустите эту переменную из регрессии. Это изменение представляет собой процент дисперсии в зависимой переменной, которую объясняет этот фактор, после того, как другие переменные остаются неизменными. (Формально вы можете проверить, имеют ли значение пропущенные переменные с помощью F-критерия ; именно так работают ступенчатые регрессии для выбора переменных.)

Чтобы проиллюстрировать это, я запустил отдельные линейные регрессии для каждой из переменных в отдельности, предсказав mpg. Одна только переменная wt объясняет 75,3% вариации миль на галлон, и ни одна переменная не объясняет больше. Тем не менее, многие другие переменные соотносятся с wt и объясняют некоторые из этих же вариаций. (Я использовал устойчивые стандартные ошибки, которые могут привести к небольшим различиям в стандартных расчетах ошибок и значимости, но не влияют на коэффициенты или R-квадрат.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Когда все переменные находятся там вместе, R-квадрат равен 0,869, а скорректированный R-квадрат равен 0,807. Таким образом, добавление еще 9 переменных к весу просто объясняет еще 11% вариации (или просто 5% больше, если мы исправим переоснащение). (Многие из переменных объясняют некоторые из тех же вариаций в миль на галлон, что и у wt.) И в этой полной модели единственный коэффициент с p-значением менее 20% - это wt при p = 0,089.

cactus_pardner
источник