Если таковые имеются, между подгонкой линии к нескольким отдельным «экспериментам», затем усреднением подгонки или усреднением данных из отдельных экспериментов, затем подгонкой усредненных данных. Позвольте мне уточнить:
Я выполняю компьютерное моделирование, которое генерирует кривую, показанную ниже. Мы извлекаем количество, давайте назовем его «A», подгоняя линейную область графика (длительное время). Значение - это просто наклон линейной области. Конечно, есть ошибка, связанная с этой линейной регрессией.
Обычно мы запускаем около 100 таких симуляций с различными начальными условиями, чтобы вычислить среднее значение «А». Мне сказали, что лучше усреднить необработанные данные (на графике ниже) в группы, скажем, 10, затем выбрать «А» и усреднить эти 10 «А» вместе.
У меня нет интуиции в отношении того, есть ли в этом какая-либо заслуга или она лучше, чем подгонка 100 отдельных значений «А» и их усреднение.
Ответы:
Представьте, что мы находимся в контексте данных панели, где существуют различия во времени и между фирмами . Думайте о каждом периоде времени как об отдельном эксперименте. Я понимаю ваш вопрос как эквивалентно ли оценивать эффект, используя:t i t
Ответ в целом - нет.
Настройка:
В моей формулировке мы можем рассматривать каждый период времени как отдельный эксперимент.t
Допустим, у вас есть сбалансированная панель длиной по фирмам. Если мы разбиваем каждый период времени т. Д. ..., мы можем записать общие данные как:T n (Xt,yt)
Среднее соответствует:
Подгонка средних:
В целом это не равно оценке, основанной на поперечном изменении средних временных рядов (то есть, между оценками).
Где т. Д ...x¯i=1T∑txt,i
Общая оценка OLS:
Что-то, возможно, полезно подумать, это объединенная оценка OLS. Что это? Затем используйте
Пусть и будут нашими оценками по всей выборке и в период соответственно. Тогда мы имеем:S=1nT∑iX′X St=1nX′tXt E[xx′] t
Это что-то вроде среднего значения разных временных оценок , но это немного по-другому. В некотором смысле вы придаете больший вес периодам с большей дисперсией правосторонних переменных.bt
Особый случай: правые переменные не зависят от времени и фирмы
Если правая переменные для каждой фирмы являюсь постоянными во время (т.е. для любого и ) , то для все , и мы имеем:i Xt1=Xt2 t1 t2 S=St t
Веселый комментарий:
Это тот случай, когда Fama и Macbeth применили этот метод усреднения поперечных оценок для получения непротиворечивых стандартных ошибок при оценке того, как ожидаемая доходность варьируется в зависимости от ковариации фирм с рынком (или других факторов нагрузки).
Процедура Fama-Macbeth - это интуитивно понятный способ получения согласованных стандартных ошибок в контексте панели, когда термины ошибок коррелируют с поперечным сечением, но не зависят от времени. Более современная техника, которая дает похожие результаты, - это кластеризация по времени.
источник
(Примечание: у меня недостаточно репутации, чтобы комментировать, поэтому я публикую это как ответ.)
Для конкретного поставленного вопроса ответ с помощью fcop является правильным: подгонка среднего значения аналогична усреднению подгонки (по крайней мере, для линейных наименьших квадратов). Однако стоит упомянуть, что любой из этих наивных « онлайн » подходов может дать необъективные результаты по сравнению с подборкой всех данных одновременно. Поскольку они эквивалентны, я остановлюсь на подходе «соответствовать среднему». По существу, подгонки осредненных кривых игнорирует относительную неопределенность в значений между различными точками. Например, если , и , тоy¯[x]=⟨y[x]⟩ y x y1[x1]=y2[x1]=2 y1[x2]=1 y1[x2]=3 y¯[x1]=y¯[x2]=2 , но любое соответствие кривой должно больше заботить несоответствие в по сравнению с .х 2x1 x2
Обратите внимание, что большинство научных программных платформ должны иметь инструменты для вычисления / обновления истинного «онлайнового» соответствия наименьших квадратов (известного как рекурсивные наименьшие квадраты ). Таким образом, все данные могут быть использованы (если это желательно).
источник