Мне любопытно, для тех из вас, кто имеет большой опыт сотрудничества с другими исследователями, с какими наиболее распространенными заблуждениями о линейной регрессии вы сталкиваетесь?
Я думаю, что это может быть полезным упражнением, чтобы заранее подумать о распространенных заблуждениях, чтобы
Предвидеть ошибки людей и быть в состоянии успешно сформулировать, почему некоторые заблуждения неверны
Поймите, если я сам питаю некоторые заблуждения!
Несколько основных, о которых я могу думать:
Независимые / зависимые переменные должны быть нормально распределены
Переменные должны быть стандартизированы для точной интерпретации
Любые другие?
Все ответы приветствуются.
Ответы:
Третья ложная предпосылка в том , что увеличение числа оцениваемых параметров обязательно приводит к потере статистической мощности. Это может быть ложным , когда истинное соотношение является нелинейным и требует несколько параметров для оценки (например, функция «сломанной палки» требует не только перехватывать и откосы условия прямого, но требует точки , в которой изломах и сколько изменения наклона оценки также): остатки неправильно определенной модели (например, прямой линии) могут стать довольно большими (относительно правильно заданного функционального отношения), что приведет к более низкой вероятности отклонения и более широким доверительным интервалам и интервалам прогнозирования (в дополнение к искаженным оценкам) ,
источник
(Возможно, мне следует также сослаться на некоторые другие распространенные модели ошибок в переменных во все более общем порядке: ортогональная регрессия , регрессия Деминга и общее наименьшее число квадратов .)
Рекомендации
Smith, GD & Phillips, AN (1996). « Инфляция в эпидемиологии:« доказательство и измерение связи между двумя вещами »вновь ». British Medical Journal , 312 (7047), 1659–1661.
Spearman, C. (1904). «Доказательство и измерение связи между двумя вещами». Американский журнал психологии 15 : 72–101.
источник
Несколько недоразумений, которые, на мой взгляд, характерны для множественной регрессии:
источник
Я бы сказал, что первое, что вы перечислите, является, вероятно, наиболее распространенным - и, возможно, наиболее широко изучаемым способом - из вещей, которые явно видятся неправильными, но вот некоторые другие, которые менее ясны в некоторых ситуациях ( действительно ли они применимы), но могут повлиять на еще больше анализов, и, возможно, более серьезно. Они часто просто никогда не упоминаются, когда вводится предмет регрессии.
Рассматривать как случайные выборки из совокупности наблюдений, представляющих интерес, которые не могут быть близки к репрезентативным (не говоря уже о случайной выборке). [Вместо этого некоторые исследования можно рассматривать как нечто ближе к удобным образцам]
С данными наблюдений, просто игнорируя последствия пропуска важных движущих сил процесса, которые, безусловно, смещают оценки коэффициентов включенных переменных (во многих случаях, даже к вероятному изменению их знака), без попытки рассмотреть способы решения с ними (будь то по незнанию проблемы или просто не подозревая, что что-либо можно сделать). [В некоторых областях исследований эта проблема стоит больше, чем в других, будь то из-за видов собираемых данных или из-за того, что люди в некоторых областях применения с большей вероятностью обучались этой проблеме.]
Ложная регрессия (в основном с данными, собранными с течением времени). [Даже когда люди знают, что это происходит, есть еще одно распространенное заблуждение, что достаточно просто отличить от предполагаемого стационарного, чтобы полностью избежать проблемы.]
Конечно, можно упомянуть много других (например, обращение с независимыми данными, которые почти наверняка будут последовательно коррелированными или даже интегрированными, может быть примерно таким же распространенным).
Вы можете заметить, что обсервационные исследования данных, собранных с течением времени, могут быть затронуты всеми этими моментами одновременно ... но этот вид исследований очень распространен во многих областях исследований, где регрессия является стандартным инструментом. То, как они могут добраться до публикации без единого рецензента или редактора, знающего хотя бы об одном из них и по крайней мере требующего некоторого уровня отказа от ответственности в выводах, продолжает меня беспокоить.
Статистика таит в себе проблемы с невоспроизводимыми результатами, когда речь идет о достаточно тщательно контролируемых экспериментах (в сочетании с, возможно, не столь тщательно контролируемыми анализами), поэтому, насколько хуже должна быть ситуация воспроизводимости?
источник
Я, вероятно, не назвал бы эти заблуждения, но, может быть, общие моменты путаницы / зависаний и, в некоторых случаях, проблемы, о которых исследователи могут не знать.
С ошибочной стороны вещей:
источник
По моему опыту, студенты часто придерживаются мнения, что квадратные ошибки (или регрессия OLS) по своей сути являются подходящей, точной и в целом полезной вещью или даже не имеют альтернативы. Я часто видел рекламу OLS вместе с замечаниями о том, что он «придает больший вес более экстремальным / девиантным наблюдениям», и большую часть времени по крайней мере подразумевается, что это желаемое свойство. Это понятие может быть изменено позже, когда будет введена обработка выбросов и надежных подходов, но в этот момент ущерб уже нанесен. Можно утверждать, что широко распространенное использование квадратов ошибок исторически больше связано с их математическим удобством, чем с каким-то естественным законом реальных затрат на ошибки.
В целом, больший акцент может быть сделан на понимании того, что выбор функции ошибки несколько произвольный. В идеале любой выбор штрафа в алгоритме должен руководствоваться соответствующей реальной функцией стоимости, связанной с потенциальной ошибкой (т. Е. С использованием структуры принятия решений). Почему бы сначала не установить этот принцип, а потом посмотреть, насколько хорошо мы можем это сделать?
источник
Другое распространенное заблуждение состоит в том, что термин ошибки (или нарушение эконометрического выражения) и остатки - это одно и то же.
Термин ошибки является случайной величиной в истинной модели или процессе генерирования данных , и часто предполагается, что он следует определенному распределению, тогда как остатки - это отклонения наблюдаемых данных от подобранной модели. Как таковые, остатки можно считать оценками ошибок.
источник
Наиболее распространенное заблуждение, с которым я сталкиваюсь, состоит в том, что линейная регрессия предполагает нормальность ошибок. Это не так. Нормальность полезна в связи с некоторыми аспектами линейной регрессии, например, небольшими выборочными свойствами, такими как доверительные пределы коэффициентов. Даже для этих вещей существуют асимптотические значения, доступные для ненормальных распределений.
Вторым наиболее распространенным является кластер путаницы в отношении эндогенности, например, невнимательность к петлям обратной связи. Если есть обратная связь от Y до X, это проблема.
источник
Возможно, это также связано с разницей между OLS и общим наименьшим квадратом или первым основным компонентом.
источник
Я часто видел неправильное представление о применимости линейной регрессии в некоторых случаях на практике.
Например, допустим, что интересующая нас переменная - это число чего-то (пример: посетители на веб-сайте) или соотношение чего-то (пример: коэффициент конверсии). В таких случаях переменная может быть лучше смоделирована с использованием функций связи, таких как Пуассон (счетчики), Бета (отношения) и т. Д. Поэтому более подходящим является использование обобщенной модели с более подходящей функцией связи. Но только потому, что переменная не является категориальной, я видел людей, начинающих с простой линейной регрессии (функция ссылки = идентичность). Даже если мы пренебрегаем влиянием на точность, допущения моделирования здесь являются проблемой.
источник
Вот один, я думаю, часто упускается из виду исследователями:
источник
Другое распространенное заблуждение состоит в том, что оценки (подгонянные значения) не являются инвариантными к преобразованиям, например
Это происходит все время, когда вы выполняете логарифмическое преобразование ваших данных, подгоняете линейную регрессию, затем возводите экспоненту в соответствие значение, и люди читают это как регрессию. Это не среднее значение, это медиана (если все действительно распределено по лог-закону).
источник