Рассмотрим классическую задачу анализа данных, где у вас есть результат и как он связан с рядом предикторов . Основным типом приложения здесь является то, что Х я 1 , . , , , Х я р
- это некоторый результат на уровне группы, например, уровень преступности в городе .
Предикторами являются характеристики группового уровня, такие как демографические характеристики города .
Основная цель - подогнать регрессионную модель (возможно, со случайными эффектами, но пока забудьте об этом):
Возникают ли какие-то технические трудности, когда один (или более) предикторов являются результатом опроса, который имеет разные размеры выборки для каждой единицы? Например, предположим, что - это итоговый балл по городу который представляет собой средний ответ по выборке людей из города но размеры выборки, на которых основывались эти средние значения, сильно отличаются:
Поскольку переменные-предикторы не имеют одинакового значения, в некотором смысле, для каждого города, я боюсь, что обусловливание этих переменных в регрессионной модели, как будто все они «созданы равными», может вызвать некоторые вводящие в заблуждение выводы.
Есть ли название для этого типа проблемы? Если да, то есть ли исследование, как справиться с этим?
Моя мысль - рассматривать ее как переменную предиктора, измеренную с ошибкой, и делать что-то в этом направлении, но в погрешностях измерения есть гетероскедастичность, так что это будет очень сложно. Я мог бы думать об этом неправильно или делать это более сложным, чем это, но любое обсуждение здесь было бы полезно.
Ответы:
Статья «Модель гетероскедастических структурных ошибок в переменных с ошибкой уравнения» можно скачать на странице автора:
http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers
в основном вы должны учитывать изменчивость обеих переменных, чтобы избежать противоречивых оценок, ненадежных проверок гипотез и доверительных интервалов.
источник
Один из способов справиться с этим - предположить, что в каждом городе есть распределение с одинаковой дисперсией для отдельных ответов. Тогда среднее измерение каждого города для предиктора будет иметь дисперсию , где - это число людей в среднем по городу . Это был бы простой способ справиться с гетероскедастичностью. Я не знаю никакого специального названия для этой формы проблемы регрессии.σ2 Xi σ2/ni ni i
источник