При расчете стандартной ошибки коэффициента регрессии, мы не учитываем хаотичности в конструкции матрице . Например, в OLS мы вычисляем как
Если рассматривались случайным образом , закон общей дисперсии будет, в некотором смысле, требует дополнительного вклада дисперсии , а также. т.е.
Что, если оценка OLS действительно беспристрастна, первый член исчезает, так как ожидание является константой. Второй термин фактически становится: .
Если параметрическая модель для известна, почему бы нам не заменить фактической оценкой ковариации. Например, если является рандомизированным назначением лечения, должна ли биномиальная дисперсия быть более эффективной оценкой?
Почему бы нам не рассмотреть возможность использования гибких непараметрических моделей для оценки возможных источников смещения в оценке OLS и надлежащего учета чувствительности к проекту (т. Е. Распределения ) в первом члене закона общей дисперсии ?
Ответы:
Ваш вопрос (плюс дополнительные комментарии в комментариях), по-видимому, больше всего интересует случай, когда у нас есть рандомизированное контролируемое испытание, когда исследователь случайным образом назначает одну или несколько объясняющих переменных, основываясь на некоторой схеме рандомизации. В этом контексте вы хотите знать, почему мы используем модель, которая рассматривает объясняющие переменные как известные константы, а не рассматривает их как случайные переменные из распределения выборки, навязанного рандомизацией. (Ваш вопрос шире, чем этот, но, похоже, это основной интерес к комментарию, поэтому я обращусь к нему.)
Причина, по которой мы обусловливаем объясняющие переменные в этом контексте, заключается в том, что в задаче регрессии для RCT мы по-прежнему заинтересованы в условном распределении ответной переменной с учетом предикторов . Действительно, в РКИ мы заинтересованы в определении причинного влияния объясняющей переменнойИкс на переменную отклика Y , которую мы собираемся определить с помощью логического вывода об условном распределении (при условии соблюдения некоторых протоколов для предотвращения смешения). Рандомизация вводится для того, чтобы нарушить зависимость между объясняющей переменной Икс и любыми потенциальными переменными (т. Е. Для предотвращения задних связей). †† Однако объектом вывода в задаче по-прежнему является условное распределение переменной ответа с учетом объясняющих переменных. Таким образом, все еще имеет смысл оценивать параметры в этом условном распределении, используя методы оценки, которые обладают хорошими свойствами для вывода условного распределения .
Это нормальный случай, который применяется для РКИ с использованием методов регрессии. Конечно, в некоторых ситуациях у нас есть другие интересы, и мы действительно можем включить неопределенность в отношении объясняющих переменных. Включение неопределенности в объясняющие переменные обычно происходит в двух случаях:
(1) Когда мы переходим за пределы регрессионного анализа и к многомерному анализу, нас интересует совместное распределение объясняющих и ответных переменных, а не просто условное распределение последних с учетом первого. Могут быть приложения, в которых это нас интересует, и поэтому мы бы выходили за рамки регрессионного анализа и включали информацию о распределении объясняющих переменных.
(2) В некоторых регрессионных приложениях наш интерес представляет условное распределение переменной отклика, условно лежащей в основе ненаблюдаемой объясняющей переменной, где мы предполагаем, что наблюдаемые объяснительные переменные были подвержены ошибке («ошибки в переменных»). В этом случае мы включаем неопределенность через «ошибки в переменных». Причина этого заключается в том, что наш интерес в этих случаях заключается в условном распределении, обусловленном ненаблюдаемой базовой переменной .
Обратите внимание, что оба эти случая математически более сложны, чем регрессионный анализ, поэтому, если мы можем избежать использования регрессионного анализа, это, как правило, предпочтительнее. В любом случае, в большинстве приложений регрессионного анализа цель состоит в том, чтобы сделать вывод об условном распределении ответа, учитывая наблюдаемые объясняющие переменные, поэтому эти обобщения становятся ненужными.
источник
Название «ошибки в переменных» и содержание вопроса выглядят по-разному, поскольку спрашивает, почему мы не учитываем различия вX при моделировании условного отклика, то есть при выводе параметров регрессии. Эти две озабоченности кажутся мне ортогональными, поэтому здесь я отвечаю на содержание.
Я ответил на аналогичный вопрос раньше, чем разница между условием регрессоров и лечением их как фиксированных? так что здесь я скопирую часть моего ответа там:
Это можно интерпретировать как факторизацию статистического эксперимента (или процесса генерации данных, DGP), первыйИкс генерируется в соответствии с еψ( х ) , а в качестве второго шага Y генерируется в соответствии с условной плотностью еθ( у∣ X= х ) . Обратите внимание, что первый шаг не использует никаких знаний о θ , которые входят только во второй шаг. Статистика Икс является вспомогательной для θ , см. Https://en.wikipedia.org/wiki/Ancillary_statistic .
В разработанных экспериментах его предположение в основном будет справедливо, часто с данными наблюдений, нет. Вот некоторые примеры проблем: регрессия с запаздывающими ответами в качестве предикторов. Обусловливание предикторов в этом случае также будет зависеть от реакции! (Я добавлю больше примеров).
Этот аргумент разделения полезен также потому, что он указывает на случаи, когда он не может быть использован, например, регрессия с запаздывающими ответами в качестве предикторов.
источник