Статистический вывод при неправильной спецификации

Классическая трактовка статистического вывода основывается на предположении, что существует правильно заданная статистическая информация. То есть распределение , сгенерировавшее наблюдаемые данные является частью статистической модели : Однако в большинстве случаев мы не можем предположить, что это действительно так. Интересно, что происходит с процедурами статистического вывода, если мы отбросим правильно заданное предположение. $\mathbb{P}^*(Y)$ $y$ $\mathcal{M}$

P^{*} (Y) \in M = {P_{θ} (Y) : θ \in Θ}

$\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\}$

Я нашел некоторые работы Белого 1982 года по оценкам ML при неправильной спецификации. В нем утверждается, что оценка максимального правдоподобия является последовательной оценкой для распределения который минимизирует KL-дивергенцию из всех распределений внутри статистической модели и истинного распределения .

P_{θ_{1}} = \arg min_{P_{θ} \in M} K L (P^{*}, P_{θ})

$\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)$

P^{*}

$\mathbb{P}^*$

Что происходит с оценщиками доверия? Подведем итоги оценки достоверности набора. Пусть $\delta:\Omega_Y \rightarrow 2^\Theta$ будет оценщиком множеств, где $\Omega_Y$ - пространство выборок, а $2^\Theta$ - мощность, заданная в пространстве параметров $\Theta$ . То, что мы хотели бы знать, это вероятность того, что наборы, создаваемые $\delta$ включают в себя истинное распределение $\mathbb{P}^*$ , то есть

P^{*} (P^{*} \in {P_{θ} : θ \in δ (Y)}) := A .

$\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A.$

Тем не менее, мы, конечно, не знаем истинного распределения $\mathbb{P}^*$ . Правильно определенное предположение говорит нам, что $\mathbb{P}^* \in \mathcal{M}$ . Тем не менее, мы до сих пор не знаем, что это за модель распространения. Но,

inf_{θ \in Θ} P_{θ} (θ \in δ (Y)) := B

$\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=B$ является нижней границей для вероятности

A

$A$ . Уравнение

B

$B$ является классическим определением уровня достоверности для оценки доверительного множества.

Если мы отбросим правильно заданное предположение, больше не обязательно будет нижней границей для , термина, который нас на самом деле интересует. Действительно, если мы предположим, что модель ошибочна, что, вероятно, имеет место в большинстве реалистичных ситуаций, равно 0, поскольку истинное распределение не содержится в статистической модели . $B$ $A$ $A$ $P^*$ $\mathcal{M}$

С другой точки зрения можно подумать о том, к чему относится когда модель неверно определена. Это более конкретный вопрос. Имеет ли значение, если модель не указана. Если нет, то почему мы вообще беспокоимся о параметрической статистике? $B$ $B$

Я думаю, Уайт 1982 содержит некоторые результаты по этим вопросам. К сожалению, отсутствие у меня математического образования мешает мне понять многое из того, что там написано.

hypothesis-testing confidence-interval model frequentist misspecification Джулиан Карлс
источник

Я нашел этот вопрос + ответ stats.stackexchange.com/questions/149773/… . Это очень похоже. Чтение этих книг, вероятно, приведет к ответу на этот вопрос. Тем не менее, я все еще думаю, что резюме кого-то, кто уже сделал это, было бы очень полезно.

Джулиан Карлс

Жаль, что этот вопрос не вызвал большего интереса - у ссылки Джулиана есть хороший материал, но мне было бы интересно услышать больше мыслей по этому вопросу.

Флориан Хартиг

Обычно обычно делается то, что распределение тестовой статистики вычисляется по нулевой гипотезе, предполагая, что статистическая модель верна. Если значение p достаточно низкое, делается вывод, что это либо случайно, либо что значение равно нулю. Однако, если модель неверно определена, то это также логический вывод. То же самое верно для всех других выводов: тот факт, что модель неверно определена, дает альтернативный вывод. Вот как я об этом думаю, прочитав работу Спаноса.

Тоби

По сути, все модели ошибочны. Это помогает количественно разработать неправильную спецификацию. Для изображения неправильная спецификация - это неправильная регистрация. Например, для ошибки подсчета (например, из-за радиоактивного распада) для достаточного количества отсчетов ошибка распределяется по Пуассону. В этом случае неправильная регистрация временного ряда является ошибкой оси Y квадратного корня изображения, и шум в тех же единицах. Пример тут .

Карл

Ответы:

Пусть - наблюдаемые данные, которые предположительно являются реализацией последовательности iid случайных величин с общей функцией плотности вероятности определенной относительно сигма-конечной меры . Плотность называется плотностью данных (DGP). $y_1, \ldots, y_n$ $Y_1, \ldots, Y_n$ $p_e$ $\nu$ $p_e$

В вероятностной модели исследователя представляет собой набор функций плотности вероятности, которые индексируются вектором параметров . Предположим, что каждая плотность в определена относительно общей сигма-конечной меры (например, каждая плотность может быть функцией вероятностной массы с тем же пространством выборки ). ${\cal M} \equiv \{ p(y ; \theta) : \theta \in \Theta \}$ $\theta$ ${\cal M}$ $\nu$ $S$

Важно сохранить плотность которая фактически генерировала данные, концептуально отличную от вероятностной модели данных. В классических статистических методах тщательное разделение этих понятий либо игнорируется, либо не проводится, либо с самого начала предполагается, что вероятностная модель задана правильно. $p_e$

Правильно заданная модель относительно определяется как модель, где почти везде. Когда неправильно определен относительно это соответствует случаю, когда вероятностная модель не указана правильно. ${\cal M}$ $p_e$ $p_e \in {\cal M}$ $\nu$ ${\cal M}$ $p_e$

Если вероятностная модель задана правильно, то в пространстве параметров существует такое что почти везде. Такой вектор параметров называется «вектором истинных параметров». Если вероятностная модель не указана, то вектор истинных параметров не существует. $\theta^*$ $\Theta$ $p_e(y) = p(y ; \theta^*)$ $\nu$

В рамках модели неправильной спецификации белых цель состоит в том, чтобы найти оценку параметра которая минимизирует над некоторым компактным пространством параметров . Предполагается, что уникальный строгий глобальный минимизатор, , ожидаемого значения в находится внутри . В счастливом случае, когда вероятностная модель указана правильно, может интерпретироваться как «истинное значение параметра». $\hat{\theta}_n$ $\hat{\ell}_n({\theta}) \equiv (1/n) \sum_{i=1}^n \log p(y_i ; { \theta})$ $\Theta$ $\theta^*$ $\hat{\ell}_n$ $\Theta$ $\Theta$ $\theta^*$

В особом случае, когда вероятностная модель задана правильно, тогда является знакомой оценкой максимального правдоподобия. Если мы не знаем, обладаем абсолютным знанием того, что вероятностная модель задана правильно, то называется квазимаксимальной оценкой вероятности, и целью является оценка . Если нам повезет, и модель вероятности будет правильно определена, то оценка вероятности квази-максимума в частном случае сводится к известной оценке максимального правдоподобия, и становится истинным значением параметра. $\hat{\theta}_n$ $\hat{\theta}_n$ $\theta^*$ $\theta^*$

Согласованность в рамках Уайта (1982) соответствует сходимости к не требуя, чтобы был обязательно вектором истинных параметров. В рамках Уайта мы никогда не будем оценивать вероятность того, что множества, порожденные δ, включают в себя ИСТИННОЕ распределение P *. Вместо этого мы всегда оценивали бы распределение вероятности P **, которое является вероятностью события, когда множества, порожденные δ, включают в себя распределение, определяемое плотностью . $\theta^*$ $\theta^*$ $p(y ; \theta^*)$

Напоследок несколько комментариев по поводу неправильной спецификации модели. Легко найти примеры, когда неправильно определенная модель чрезвычайно полезна и очень предсказуема. Например, рассмотрим модель нелинейной (или даже линейной) регрессии с гауссовым остаточным членом, дисперсия которого очень мала, но фактическая остаточная ошибка в среде не является гауссовой.

Также легко найти примеры, в которых правильно заданная модель бесполезна и не является прогнозирующей. Например, рассмотрим модель случайного блуждания для прогнозирования цен на акции, которая предсказывает, что завтрашняя цена закрытия представляет собой взвешенную сумму сегодняшней цены закрытия и некоторый гауссовский шум с чрезвычайно большой дисперсией.

Целью структуры неправильной спецификации модели является не обеспечение достоверности модели, а обеспечение ее надежности. Таким образом, убедитесь, что ошибка выборки, связанная с вашими оценками параметров, доверительными интервалами, проверками гипотез и т. Д., Правильно оценена, несмотря на наличие небольшой или большой степени неправильной спецификации модели. Оценки вероятности квази-максимума асимптотически нормальны с центром в с оценкой ковариационной матрицы, которая зависит как от первой, так и от второй производных отрицательной логарифмической функции правдоподобия. В особом случае, когда вам повезло, и модель верна, все формулы сводятся к знакомой классической статистической структуре, где целью является оценка «истинных» значений параметров. $\theta^*$

RMG
источник

Во-первых, позвольте мне сказать, что это действительно интересный вопрос; Слава Джулиану за публикацию. На мой взгляд, фундаментальная проблема, с которой вы сталкиваетесь при таком анализе, состоит в том, что любой вывод любого подмножества является выводом над ограниченным классом вероятностных мер в модели , поэтому, когда вы начинаете спрашивать о вероятности выведения истинной модели в соответствии с моделью вырождаются до тривиального вопроса о том, существует или нет неправильная спецификация для начала. Белый обходит это, глядя на то, как близко модель подходит к истинной вероятностной мере, используя соответствующую метрику расстояния. Это приводит его к вероятностной мере , которая является ближайшим прокси для $\Theta$ $\mathcal{M}$ $\mathbb{P}_{\theta_1}$ $\mathbb{P}^*$ в . Этот метод рассмотрения может быть расширен, чтобы дать интересные величины, относящиеся к вашему вопросу о наборах достоверности. $\mathcal{M}$ $\mathbb{P}_{\theta_1}$

Прежде чем перейти к этому, стоит отметить, что значения и математически хорошо определены в вашем анализе (т. Е. Они существуют), и они все еще имеют значение; это просто не обязательно очень полезный смысл. Значение в вашем анализе четко определено; это истинная вероятность того, что выведенный набор вероятностных мер включает в себя истинную вероятностную меру. Вы правы, что подразумевает , что означает, что эта величина тривиальна в случае неправильной спецификации. Следуя примеру белых, возможно, более интересно посмотреть на количество: $A$ $B$ $A$ $\mathbb{P}^* \notin \mathcal{M}$ $A = 0$

A^{*} \equiv A^{*} (Y) \equiv P^{*} (P_{θ_{1}} \in {P_{θ} | θ \in δ (Y)}) .

$A^* \equiv A^*(Y) \equiv \mathbb{P}^* (\mathbb{P}_{\theta_1} \in \{P_\theta | \theta \in \delta(Y) \} ).$

Здесь мы заменили внутреннее вхождение со своим ближайшим прокси в модели , так что величина больше не оказывается тривиальной , когда . Теперь мы запрашиваем истинную вероятность того, что предполагаемый набор вероятностных мер включает в себя ближайший прокси для истинной вероятностной меры в модели. Неправильная спецификация модели больше не тривиализирует эту величину, так как мы имеем по построению. $\mathbb{P}^*$ $\mathcal{M}$ $\mathbb{P}^* \notin \mathcal{M}$ $\mathbb{P}_{\theta_1} \in \mathcal{M}$

Белый анализ неправильной спецификации, показывая , что MLE является состоятельной оценкой . Это ценно, потому что говорит вам, что, даже если есть неправильная спецификация, вы все равно правильно оцените ближайший прокси к истинной вероятностной мере в модели. Естественный последующий вопрос, касающийся доверительных множеств, заключается в том, накладывает ли конкретный метод вывода какую-либо нижнюю границу на величину или любой результат сходимости в пределе при $\mathbb{P}_{\theta_1}$ $\delta$ $A^*$ $n \rightarrow \infty$ , Если вы можете установить (положительную) нижнюю границу или (положительную) результат сходимости, это даст вам определенную ценность в гарантировании того, что даже при наличии неправильной спецификации вы все равно правильно оцените ближайший прокси с некоторым уровнем вероятности. Я бы порекомендовал вам изучить эти проблемы, следуя анализу, проведенному Уайтом.

Восстановить Монику
источник