Разница между усреднением данных, затем подгонкой и подбором данных, затем усреднением

10

Если таковые имеются, между подгонкой линии к нескольким отдельным «экспериментам», затем усреднением подгонки или усреднением данных из отдельных экспериментов, затем подгонкой усредненных данных. Позвольте мне уточнить:

Я выполняю компьютерное моделирование, которое генерирует кривую, показанную ниже. Мы извлекаем количество, давайте назовем его «A», подгоняя линейную область графика (длительное время). Значение - это просто наклон линейной области. Конечно, есть ошибка, связанная с этой линейной регрессией.

Обычно мы запускаем около 100 таких симуляций с различными начальными условиями, чтобы вычислить среднее значение «А». Мне сказали, что лучше усреднить необработанные данные (на графике ниже) в группы, скажем, 10, затем выбрать «А» и усреднить эти 10 «А» вместе.

У меня нет интуиции в отношении того, есть ли в этом какая-либо заслуга или она лучше, чем подгонка 100 отдельных значений «А» и их усреднение.

данные

pragmatist1
источник
Я не уверен, что понимаю: вы измеряете A в разные моменты времени, а затем вы оцениваете ? Затем вы делаете это несколько раз, и вы берете среднее значение всех ? A=β0+β1tβ1
Извини, нет. График выше является результатом одного моделирования (назовем это экспериментом). Исходная нелинейная область отбрасывается, затем мы подгоняем линию к линейной части и получаем наклон «А». Таким образом, одно целое моделирование дает единственную оценку «А». Конечно, мой вопрос вращается вокруг того, является ли усреднение многих графиков, а затем вычисление A чем-то другим, чем просто вычисление A для группы графиков и их усреднение. Надеюсь, что это проясняет.
pragmatist1
1
Я не понимаю, почему это будет иметь значение? (если предположения о линейной регрессии выполнены)
Я предполагаю, что примерка никогда не идет не так, как надо / не сходится / не дает смехотворно крутых оценок из-за экспериментов, каждый из которых мал? Это было бы чем-то, что могло бы помочь объединение первых (или иерархических моделей).
Бьёрн
1
Вы также можете объединить все данные вместе, но включить какой-то компонент для проведения различий между экспериментами (разные перехваты для каждого эксперимента или даже разные наклоны), что-то вроде подхода линейной смешанной модели. Таким образом, вы можете аппроксимировать общий уклон, но сможете определить любые «пакетные» эффекты или различия между экспериментами
bdeonovic

Ответы:

2

Представьте, что мы находимся в контексте данных панели, где существуют различия во времени и между фирмами . Думайте о каждом периоде времени как об отдельном эксперименте. Я понимаю ваш вопрос как эквивалентно ли оценивать эффект, используя:tit

  • Поперечное сечение в средних временных рядах.
  • Средние временные ряды изменения поперечного сечения.

Ответ в целом - нет.

Настройка:

В моей формулировке мы можем рассматривать каждый период времени как отдельный эксперимент.t

Допустим, у вас есть сбалансированная панель длиной по фирмам. Если мы разбиваем каждый период времени т. Д. ..., мы можем записать общие данные как:Tn(Xt,yt)

Y=[y1y2yn]X=[X1X2Xn]

Среднее соответствует:

1Ttbt=1Tt(XtXt)1Xtyt=1TtSt1(1nixt,iyt,i)where St=1nixt,ixt,i

Подгонка средних:

В целом это не равно оценке, основанной на поперечном изменении средних временных рядов (то есть, между оценками).

(1nix¯ix¯i)11nix¯iy¯i

Где т. Д ...x¯i=1Ttxt,i

Общая оценка OLS:

Что-то, возможно, полезно подумать, это объединенная оценка OLS. Что это? Затем используйте

b^=(XX)1XY=(1nTtXtXt)1(1nTtXtyi)
bt=(XtXt)1Xtyi
=(1nTtXtXt)1(1nTtXtXtbt)

Пусть и будут нашими оценками по всей выборке и в период соответственно. Тогда мы имеем:S=1nTiXXSt=1nXtXtE[xx]t

b^=1Tt(S1St)bt

Это что-то вроде среднего значения разных временных оценок , но это немного по-другому. В некотором смысле вы придаете больший вес периодам с большей дисперсией правосторонних переменных.bt

Особый случай: правые переменные не зависят от времени и фирмы

Если правая переменные для каждой фирмы являюсь постоянными во время (т.е. для любого и ) , то для все , и мы имеем:iXt1=Xt2t1t2S=Stt

b^=1Ttbt

Веселый комментарий:

Это тот случай, когда Fama и Macbeth применили этот метод усреднения поперечных оценок для получения непротиворечивых стандартных ошибок при оценке того, как ожидаемая доходность варьируется в зависимости от ковариации фирм с рынком (или других факторов нагрузки).

Процедура Fama-Macbeth - это интуитивно понятный способ получения согласованных стандартных ошибок в контексте панели, когда термины ошибок коррелируют с поперечным сечением, но не зависят от времени. Более современная техника, которая дает похожие результаты, - это кластеризация по времени.

Мэтью Ганн
источник
1

(Примечание: у меня недостаточно репутации, чтобы комментировать, поэтому я публикую это как ответ.)

Для конкретного поставленного вопроса ответ с помощью fcop является правильным: подгонка среднего значения аналогична усреднению подгонки (по крайней мере, для линейных наименьших квадратов). Однако стоит упомянуть, что любой из этих наивных « онлайн » подходов может дать необъективные результаты по сравнению с подборкой всех данных одновременно. Поскольку они эквивалентны, я остановлюсь на подходе «соответствовать среднему». По существу, подгонки осредненных кривых игнорирует относительную неопределенность в значений между различными точками. Например, если , и , тоy¯[x]=y[x]yxy1[x1]=y2[x1]=2y1[x2]=1y1[x2]=3y¯[x1]=y¯[x2]=2 , но любое соответствие кривой должно больше заботить несоответствие в по сравнению с .х 2x1x2

Обратите внимание, что большинство научных программных платформ должны иметь инструменты для вычисления / обновления истинного «онлайнового» соответствия наименьших квадратов (известного как рекурсивные наименьшие квадраты ). Таким образом, все данные могут быть использованы (если это желательно).

GeoMatt22
источник
1
Ответ, опубликованный fcop, был удален. Вы можете немного изменить свой ответ
Glen_b