Я хотел бы сгенерировать данные с помощью «Модели 1» и сопоставить их с «Моделью 2». Основная идея состоит в том, чтобы исследовать свойства устойчивости модели 2. Меня особенно интересует коэффициент покрытия 95% доверительного интервала (на основе нормального приближения).
- Как установить количество итераций?
- Правда ли, что репликация больше, чем необходимо, может привести к ложным искажениям? Если так, как это?
simulation
monte-carlo
user7064
источник
источник
Ответы:
На основании вашего последующего комментария кажется, что вы пытаетесь оценить вероятность покрытия доверительного интервала, когда принимаете постоянную дисперсию ошибки, когда истинная дисперсия ошибки не постоянна.
Я думаю об этом так, что для каждого прогона доверительный интервал либо покрывает истинное значение, либо нет. Определите переменную индикатора:
Тогда вероятность покрытия, которая вас интересует, равна которую вы можете оценить по пропорции выборки, которую, я думаю, вы предлагаете.E(Yi)=p
Как установить количество итераций?
Мы знаем, что дисперсия испытания Бернулли равна , и ваши симуляции будут генерировать испытания IID Бернулли, поэтому дисперсия вашей оценки, основанной на моделировании равна , где - это количество симуляций. Вы можете выбрать чтобы уменьшить эту дисперсию столько, сколько хотите. Это факт, чтоp(1−p) p p(1−p)/n n n
Итак, если вы хотите, чтобы дисперсия была меньше предварительно определенного порога, , то вы можете убедиться в этом, выбрав .δ n≥1/4δ
В более общем случае, если вы пытаетесь исследовать свойства распределения выборки оценки с помощью симуляции (например, среднее значение и дисперсию), вы можете выбрать количество симуляций на основе того, какую точность вы хотите достичь в аналогичной модели. мода на то, что описано здесь.
Также обратите внимание, что, когда среднее (или какой-то другой момент) переменной является объектом интереса, как здесь, вы можете построить доверительный интервал для нее на основе моделирования с использованием нормального приближения (то есть центральной предельной теоремы) , как обсуждается в приятном ответе MansT. Это нормальное приближение лучше с ростом числа выборок, поэтому, если вы планируете построить доверительный интервал, обращаясь к центральной предельной теореме, вам нужно, чтобы было достаточно большим, чтобы это можно было применить. Для двоичного случая, как у вас здесь, это приближение кажется хорошим, даже когда и довольно умеренные - скажем, .n np n(1−p) 20
Правда ли, что репликация больше, чем необходимо, может привести к ложным искажениям? Если так, как это?
Как я уже упоминал в комментарии, это зависит от того, что вы подразумеваете под ложным. Большее число симуляций не приведет к смещению в статистическом смысле, но оно может выявить несущественное смещение, которое заметно только при астрономически большом размере выборки. Например, предположим, что истинная вероятность покрытия ошибочно определенного доверительного интервала составила . Тогда, на самом деле, это не проблема в практическом смысле, но вы можете заметить эту разницу, только если провели массу симуляций.94.9999%
источник
Я часто использую ширину доверительных интервалов как быстрый и грязный способ определения необходимого количества итераций.
Пусть будет истинной степенью охвата доверительного интервала 95%, когда данные из «Модели 1» соответствуют «Модели 2». Если - это количество раз, которое доверительный интервал покрывает истинное значение параметра за итераций, то .p X n X∼Bin(n,p)
Оценщик имеет среднее значение и стандартное отклонение . Для большого , является приблизительно нормальным и дает приблизительно 95% доверительный интервал для . Поскольку вы знаете (предположил бы), что , отсюда следует, что ширина этого интервала составляет приблизительно .р√p^=X/n p п р р ±1,96 √p(1−p)/n−−−−−−−−−√ n p^ рр≈0,952⋅1,96√p^±1.96p^(1−p^)/n−−−−−−−−−√ p p≈0.95 2⋅1.960.95⋅0.05/n−−−−−−−−−−√
Если вы считаете, что доверительный интервал с шириной (скажем) приемлем, вы найдете приблизительное число итераций необходимое для этого, решив уравнениеn 0,1 = 2 ⋅ 1,96 √0.1 n
Таким образом, вы можете найти разумный , выбрав точность, которую вы ищете.n
источник
Если вы выполняете симуляцию, минимальное количество требуемых прогонов зависит от вашей цели (что вы пытаетесь оценить и с какой точностью?). Если вы пытаетесь оценить средний ответ, то стандартным отклонением среднего значения для выборки является . Так что, если - необходимая полуширина для доверительного интервала для желаемого среднего значения, то или . d95%d=1,96×Pop.Std.DevPopulation Standard Deviationn−−√ d 95% n=(1,96×Pop.Std.Dev)2d=1.96×Pop.Std.Devn−−√ n=(1.96×Pop.Std.Dev)2d2
Выполнение большего количества симуляций (при условии, что все выборки получены случайным процессом) не повредит оценке с точки зрения точности или смещения.
Охват приблизительного доверительного интервала будет отличаться от требуемого охвата, и погрешность в покрытии должна уменьшаться с увеличением . Как упоминалось в Macro и MansT, вы можете ограничить оценку покрытия Монте-Карло на основе дисперсии биномиальной пропорции, .n p ( 1 - p )95% n p(1−p)n
источник