Что вы можете сделать, когда у вас есть предикторные переменные, основанные на средних значениях группы с различными размерами выборки?

14

Рассмотрим классическую задачу анализа данных, где у вас есть результат и как он связан с рядом предикторов . Основным типом приложения здесь является то, что Х я 1 , . , , , Х я рYiXi1,...,Xip

  1. Yi - это некоторый результат на уровне группы, например, уровень преступности в городе .i

  2. Предикторами являются характеристики группового уровня, такие как демографические характеристики города i .

Основная цель - подогнать регрессионную модель (возможно, со случайными эффектами, но пока забудьте об этом):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Возникают ли какие-то технические трудности, когда один (или более) предикторов являются результатом опроса, который имеет разные размеры выборки для каждой единицы? Например, предположим, что Xi1 - это итоговый балл по городу i который представляет собой средний ответ по выборке людей из города i но размеры выборки, на которых основывались эти средние значения, сильно отличаются:

CitySample size120210033004553

Поскольку переменные-предикторы не имеют одинакового значения, в некотором смысле, для каждого города, я боюсь, что обусловливание этих переменных в регрессионной модели, как будто все они «созданы равными», может вызвать некоторые вводящие в заблуждение выводы.

Есть ли название для этого типа проблемы? Если да, то есть ли исследование, как справиться с этим?

Моя мысль - рассматривать ее как переменную предиктора, измеренную с ошибкой, и делать что-то в этом направлении, но в погрешностях измерения есть гетероскедастичность, так что это будет очень сложно. Я мог бы думать об этом неправильно или делать это более сложным, чем это, но любое обсуждение здесь было бы полезно.

макрос
источник
8
Это называется проблемой «гетероскедастических ошибок в переменных». (Эта фраза является хорошей целью для поиска в Google.) Недавно (2007 г.) Делагл и Мейстер предложили непараметрическую оценку плотности ядра в статье JASA . Аннотация о некоторых параметрических методах (метод моментов и MLE) предлагает некоторые дополнительные подходы: sciencedirect.com/science/article/pii/S1572312709000045 . (Я недостаточно знаком с исследованием, чтобы дать вам авторитетный ответ о том, как обращаться с вашим конкретным набором данных.)
whuber
1
@whuber +1 для обоих комментариев. Я думаю, что "ошибки в переменных" было пропущенным ключевым словом, которое я искал. Если ниже никто не даст убедительного ответа, который я мог бы принять, я посмотрю литературу и вернусь, чтобы опубликовать то, что я в итоге получу как ответ.
Макро

Ответы:

2

Статья «Модель гетероскедастических структурных ошибок в переменных с ошибкой уравнения» можно скачать на странице автора:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

в основном вы должны учитывать изменчивость обеих переменных, чтобы избежать противоречивых оценок, ненадежных проверок гипотез и доверительных интервалов.

Александр патриота
источник
0

Один из способов справиться с этим - предположить, что в каждом городе есть распределение с одинаковой дисперсией для отдельных ответов. Тогда среднее измерение каждого города для предиктора будет иметь дисперсию , где - это число людей в среднем по городу . Это был бы простой способ справиться с гетероскедастичностью. Я не знаю никакого специального названия для этой формы проблемы регрессии.σ2Xiσ2/ninii

Майкл Р. Черник
источник
Это кажется разумным, хотя я надеялся вообще избежать моделирования ошибки измерения. Если бы я пошел в этом направлении, что бы вы использовали для оценки влияния предиктора, измеренного с ошибкой? Я использовал один метод под названием SIMEX, но это кажется необычным, и мне интересно, есть ли другие варианты.
Макро
@Macro Я не знаком со специальным программным обеспечением для моделирования регрессии с функцией дисперсии для оценки.
Майкл Р. Черник
3
Макрос, как правило, в регрессии гомоскедастических ошибок в переменных, если ошибки в IV небольшие по сравнению с ошибками в DV, вы можете спокойно игнорировать первый и прибегнуть к обычной регрессии. Это дает вам быстрый и простой способ решить проблему.
whuber
1
@ whuber, спасибо - это полезно. Кажется, что если это эмпирическое правило имеет смысл, то в случае гетероскедастичности имело бы смысл использовать «если наибольшая дисперсия ошибок в IV мала по сравнению с дисперсией ошибок в DV, вы можете спокойно проигнорировать проблему» разумное правило, которое является условием, которое может быть действительно выполнено в данных, на которые я смотрю.
Макро
1
σ211/n(.05,1)Yi