Я изучаю линейную регрессию, используя Введение в анализ линейной регрессии Монтгомери, Пека и Вайнинга . Я хотел бы выбрать проект анализа данных.
У меня наивная мысль, что линейная регрессия подходит только тогда, когда подозревают, что существуют линейные функциональные отношения между объясняющими переменными и переменной отклика. Но не так много реальных приложений, казалось бы, соответствуют этому критерию. Тем не менее, линейная регрессия настолько распространена.
О каких аспектах проекта подумал бы опытный статистик, если бы они были на моем месте, ища вопрос + данные, которые хорошо подходят для линейной регрессии.
Ответы:
Это не правильное понимание того, что является «линейным» в «линейной регрессии».
Предполагается, что это не отношения между и x , которые имеют линейную форму (хотя все элементарные примеры могут ввести вас в заблуждение).Y Икс
«Линейный» относится к модели, являющейся линейной по параметрам, и нелинейные отношения между и некоторым x, безусловно, могут быть смоделированы таким образом.Y Икс
Там пример с одним предсказателем здесь , но криволинейные модели чаще установлены в качестве множественной регрессии, где несколько функций предсказателя (х переменного, независимые переменного) могут иметь место в регрессии, и это позволяет большую гибкость. Это включает в себя полиномиальную регрессию, например. Смотрите некоторые обсуждения и примеры здесь .
Однако, если мы учтем тот факт, что предикторы могут быть преобразованы для соответствия изогнутым отношениям, линейность параметров также соответствует линейности в этих преобразованных предикторах.
Кроме того, многие проблемы близки к линейным (по крайней мере, в диапазоне рассматриваемых значений) или настолько шумны, что любая легкая кривизна не заметна, и может подойти множество простых моделей для возрастающей или убывающей взаимосвязи: и в этом случае линейный выбор может быть как адекватным, так и самым простым для подбора и понимания.
Единственный раз, когда я мог бы найти проблему, к которой можно применить регрессию, - это когда я пытаюсь найти хороший пример для обучения. Когда я на самом деле в состоянии выполнять статистическую работу (а не объяснять или преподавать ее), я выбираю методологию, соответствующую интересующему вопросу (и характеристикам данных), а не выбираю данные, подходящие для метода.
Представьте себе плотника, например. Плотник не поднимает спицы и говорит: «На чем я могу это использовать ?». Скорее, у плотника есть проблема, которую нужно решить, и при рассмотрении характеристик проблемы («что я пытаюсь сделать?» И «какую древесину я использую?» И т. Д.) Могут быть использованы конкретные инструменты более актуальным, чем другие. Иногда инструменты, которые доступны , могут ограничивать или направлять выбор (если вы не имеете в скобель, вы , возможно , придется делать с чем - то другим ... или вы можете просто пойти купить скобель).
Однако, давайте предположим , что у вас есть карманный статистик помочь вам , и вы пытаетесь найти проблему подходит для линейной регрессии. Затем они могут предложить вам рассмотреть различные предположения регрессии и когда они имеют значение. Я упомяну несколько вещей.
Если вы можете использовать множественную регрессию, даже если это не является особой проблемой, поскольку можно использовать (например) сплайны кубической регрессии для соответствия довольно общим отношениям.
Я бы посоветовал вам избегать данных с течением времени, если вы не понимаете проблемы с ложной регрессией; придерживаться проблем сечения.
Если вы интересуетесь проверкой гипотез, доверительными интервалами или интервалами прогнозирования, то могут иметь значение более обычные регрессионные допущения (но есть альтернативы, которые не делают этих допущений, а в некоторых случаях, по крайней мере, некоторые из допущений могут не быть особенно важным в любом случае).
Так что, по крайней мере, одна вещь, о которой нужно знать, это то, что делается при выводе логических процедур, которые вы используете, и насколько они важны для вашей конкретной проблемы (например, при выполнении обычных проверок гипотез, нормальность - это предположение, но в больших выборках это предположение может быть не важным, с другой стороны, допущение о постоянной дисперсии может быть более серьезной проблемой).
Есть ряд постов, в которых обсуждаются предположения о регрессии, а также некоторые посты, в которых обсуждается, когда их вообще нужно делать, сколько они могут иметь значение и даже в каком порядке их рассматривать.
источник
источник
@Glen_b дал очень хороший ответ, но, как уже отмечалось, не дошел до конца.
Итак, что касается вашего последнего вопроса:
Опытный статистик, я думаю, не стал бы задавать этот вопрос. Как отмечает Глен, проблема диктует использование инструментов, а не наоборот.
Если бы я пытался изучить технику, такую как линейная регрессия, я бы использовал уже проработанные примеры - но те, которые имели реальные данные, а не составляли данные, предназначенные для упрощения работы. Книга, такая как « Моделирование регрессии на примере», может служить руководством.
Тем не менее, одним из первых шагов в рассмотрении проблемы регрессии является решение о целесообразности линейной регрессии.
источник
Многие ответы касались допущений, которые должны быть соблюдены: линейность остатков, однородность дисперсии по всему диапазону предиктора, отсутствие экстремальных значений, которые могли бы повлиять на линию регрессии, и независимые наблюдения. Остаточные графики довольно легко создать с помощью большинства программ регрессии, а некоторые пакеты предоставляют некоторые автоматически (SAS).
Один человек говорил о трансформации у. Это обычная практика в некоторых областях, но это практика, которая приводит к предвзятым и, возможно, непонятным результатам. Смещение проявляется при попытке обратного преобразования результатов в исходную метрику. Лучше перейти к другому типу регрессии, которая имеет остаточную модель, которая соответствует предположениям распределения остатка. См. Главу 3 « Введение в категориальный анализ данных» Агрести, где он вводит понятие связей. В ряде учебников по регрессии также представлена обобщенная линейная модель.
источник