Предположим, у меня есть несколько городов с разной численностью населения, и я хотел узнать, существует ли положительная линейная зависимость между количеством винных магазинов в городе и количеством DUI. Где я определяю, является ли эта связь значимой или нет, основываясь на t-критерии предполагаемого коэффициента регрессии.
Теперь четко поп. размер города будет положительно коррелировать как с количеством DUI, так и с количеством винных магазинов. Таким образом, если я проведу простую линейную регрессию только для винных магазинов и посмотрю, является ли ее коэффициент регрессии статистически значимым, я, скорее всего, столкнусь с проблемой мультиколлинеарности и переоценим влияние хранилищ спиртных напитков на DUI.
Какой из двух методов я должен использовать, чтобы исправить это?
Я должен разделить количество винных магазинов в городе на население, чтобы получить стоимость винного магазина на душу населения, а затем вернуться к этому.
Я должен регрессировать как на винные магазины, так и на размер, а затем посмотреть, значим ли коэффициент винного магазина при контроле размера.
Какой-то другой метод?
Я, честно говоря, не могу решить, что кажется более разумным. Я колеблюсь между ними, в зависимости от того, о чем думаю, и могу убедить себя, что это правильный путь.
С одной стороны, винные магазины на душу населения кажутся подходящей переменной для использования, поскольку DUI совершаются отдельными лицами, но это не выглядит статистически строгим. С другой стороны, контроль за размером кажется статистически строгим, но скорее косвенным. Кроме того, если я произвожу масштабирование после вычисления винных запасов на душу населения, я получу очень похожие коэффициенты регрессии между двумя методами, но метод 1 дает меньшее значение p.
Ответы:
Я бы регрессировал "DUI на душу населения" (Y) на "винные магазины на душу населения" (X) и "численность населения" (Z). Таким образом, ваш Y отражает склонность к вождению в нетрезвом виде городских жителей, в то время как X является характеристикой населения данного города. Z - управляющая переменная на тот случай, если на Y есть эффект размера. Я не думаю, что вы увидите проблему мультиколлинеарности в этой настройке.
Эта настройка более интересна, чем ваша модель 1. Здесь вы должны предположить, что количество DUI пропорционально населению, тогда как будет нелинейность, например, люди в крупных городах более склонны к вождению в нетрезвом виде. Также X напрямую отражает культурную и правовую среду, уже адаптированную к размеру. Вы можете получить примерно одинаковый X для городов разных размеров в Sough. Это также позволяет вводить другие управляющие переменные, такие как состояние Красный / Синий, Прибрежный / Континентальный и т. Д.βZ
источник
Если оценивать вашу модель с помощью обычных наименьших квадратов, ваша вторая регрессия довольно проблематична.
И вы, возможно, захотите подумать о том, как разница вашего термина ошибки зависит от размера города.
Регрессия (2) эквивалентна вашей регрессии (1), где наблюдения взвешиваются по квадрату населения города:
Для каждого города пусть будет вождения в нетрезвом виде на душу населения, - винные магазины на душу населения, а - население города.у я х я п яi yi xi ni
Регрессия (1): Если вы запустите регрессию (2) без константы, вы по существу масштабируете каждое наблюдение регрессии (1) по совокупности, то есть вы выполняете:
Это взвешенные наименьшие квадраты , а веса, которые вы применяете, являются квадратами населения города. Это большой вес вы даете крупнейшим городам ?!
Обратите внимание, что если у вас есть наблюдение для каждого человека в городе и назначено каждому человеку среднее значение для города, это будет эквивалентно проведению регрессии, при которой вы взвешиваете каждый город по населению (а не по квадрату населения).
источник
Я провел несколько экспериментов на смоделированных данных, чтобы увидеть, какой метод работает лучше всего. Пожалуйста, прочитайте мои выводы ниже.
Давайте рассмотрим два разных сценария: во-первых, где нет прямой связи между DUI и ликерными магазинами, и во-вторых, где у нас есть прямые отношения. Затем изучите каждый из методов, чтобы увидеть, какой метод работает лучше всего.
Случай 1: Нет прямых отношений, но оба связаны с населением
Теперь, когда данные смоделированы, давайте посмотрим, как работает каждый из методов.
Nbr_Liquor_Stores очень значительный, как и ожидалось. Хотя отношения косвенные.
Nbr_Liquor_Stores не имеет значения. Вроде работает, но пока не будем спешить с выводами.
Nbr_Liquor_Stores не имеет значения, значение p также довольно близко к методу 1.
(Nbr_Liquor_Stores / popln) очень важно! Не ожидал, что, возможно, этот метод не самый лучший для вашей задачи.
Случай 2: Прямые отношения как с населением, так и с Nbr_Liquor_Stores
Давайте посмотрим производительность каждого из методов в этом сценарии.
Ожидаемый, но не отличный способ сделать причинные выводы.
Для меня это сюрприз, я ожидал, что этот метод захватит отношения, но он их не поднимает. Таким образом, этот метод не работает в этом сценарии!
Nbr_Liquor_Stores является значимым, р-значение имеет большой смысл. Явный победитель для меня.
TLDR; Метод 2 дает наиболее точные значения p в разных сценариях.
источник