Показано, что 100 измерений для 5 предметов дают гораздо меньше информации, чем 5 измерений для 100 предметов

21

На конференции я услышал следующее утверждение:

100 измерений для 5 предметов дают гораздо меньше информации, чем 5 измерений для 100 предметов.

Очевидно, что это правда, но мне было интересно, как можно это доказать математически ... Я думаю, что можно использовать линейную смешанную модель. Тем не менее, я не знаю много о математике, используемой для их оценки (я просто бегу lmer4за LMM и bmrsза GLMM :) Не могли бы вы показать мне пример, где это правда? Я бы предпочел ответ с некоторыми формулами, а не просто с кодом в R. Не стесняйтесь предполагать простую настройку, такую ​​как, например, линейная смешанная модель с нормально распределенными случайными перехватами и наклонами.

PS Математический ответ, не включающий LMM, тоже подойдет. Я подумал о LMM, потому что они казались мне естественным инструментом, объясняющим, почему меньшее количество измерений от большего количества предметов лучше, чем большее количество измерений от нескольких предметов, но я вполне могу ошибаться.

DeltaIV
источник
3
+1. Я предполагаю, что самым простым вариантом было бы рассмотреть задачу оценки среднего значения где каждый субъект имеет свое собственное среднее и каждое измерение этого субъекта распределяется как . Если мы возьмем измерений от каждого из предметов, то что оптимальный способ набора и заданных постоянной продукты . μaN(μ,σa2)xN(a,σ2)nmnmnm=N
говорит амеба: восстанови
«Оптимальный» в смысле минимизации дисперсии среднего значения выборки для полученных точек данных. N
говорит амеба: восстанови
1
Да. Но для вашего вопроса нам не нужно заботиться о том, как оценить отклонения; Ваш вопрос (т. е. цитата в вашем вопросе) состоит в том, что я верю только в оценке глобального среднего значения и кажется очевидным, что наилучшая оценка дается большим средним всех точек в выборке. Тогда возникает вопрос: учитывая , , , и , какова дисперсия ? Если мы знаем это, мы сможем минимизировать его по отношению к учетом ограниченияˉ x N = n m μ σ 2 σ 2 a n m ˉ x n n m = Nμx¯N=nmμσ2σa2nmx¯nnm=N
Амеба говорит Восстановить Монику
1
Я не знаю, как получить что-то из этого, но я согласен, что это кажется очевидным: для оценки дисперсии ошибок было бы лучше иметь все измерений от одного объекта; и для оценки дисперсии субъекта было бы (вероятно?) лучше иметь различных субъектов с 1 измерением каждый. Хотя это не так ясно о среднем значении, но моя интуиция подсказывает мне, что лучше всего было бы иметь субъектов с 1 измерением каждый. Интересно, правда ли это ...N NNNN
говорит амеба Восстановить Монику
2
Может быть что-то вроде этого: дисперсия выборки означает для каждого субъекта должно быть , где первый член - дисперсия субъекта, а второй - дисперсия оценки среднего значения каждого субъекта. Тогда дисперсия среднего значения по субъектам (т.е. большого среднего) будет который к минимуму , когда . ( σ 2 + σ 2 / п ) / т = σ 2 / м + σ 2 / ( п т ) = σ 2 / м + σ 2 / N = σ 2 / m + c o n s t , m = Nσa2+σ2/n
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
говорит амеба, восстанови Монику

Ответы:

25

Короткий ответ , что ваше предположение верно тогда и только тогда, когда существует положительная корреляция внутриклассовых в данных . Эмпирически говоря, большинство кластеризованных наборов данных в большинстве случаев показывают положительную внутриклассовую корреляцию, что означает, что на практике ваша гипотеза обычно верна. Но если внутриклассовая корреляция равна 0, то два упомянутых вами случая одинаково информативны. И если внутриклассовая корреляция отрицательна , то на самом деле менее информативно проводить меньше измерений на большем количестве предметов; На самом деле мы бы предпочли (что касается уменьшения дисперсии оценки параметра) провести все наши измерения на одном объекте.

Статистически Есть две точки зрения , с которой мы можем думать об этом: а случайные эффекты (или смешанной ) модели , которые вы упоминаете в своем вопросе, или предельная модель , которая в конечном итоге быть немного более информативными здесь.

Модель со случайными эффектами (смешанная)

Скажем, у нас есть набор из субъектов, у которых мы провели по измерений. Тогда простой моделью случайных эффектов го измерения от го субъекта может быть где - фиксированный перехват, - случайный объектный эффект (с дисперсия ), - член ошибки уровня наблюдения (с дисперсией ), а последние два случайных члена являются независимыми.m j i y i j = β + u i + e i j , β u i σ 2 u e i j σ 2 enmji

yij=β+ui+eij,
βuiσu2eijσe2

В этой модели представляет среднее значение по совокупности, и при сбалансированном наборе данных (т. Е. Равном количестве измерений от каждого субъекта) наша лучшая оценка - это просто среднее по выборке. Таким образом, если мы возьмем «больше информации» для обозначения меньшей дисперсии для этой оценки, то в основном мы хотим знать, как дисперсия среднего значения выборки зависит от и . С небольшим количеством алгебры мы можем решить, что n m var ( 1βnm

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
Изучив это выражение, мы увидим, что всякий раз , когда есть какая-либо предметная дисперсия (т. е. ), увеличение числа субъектов ( ) будет оба эти термина, увеличивая при этом число измерений на субъект (σu2>0nm) только сделает второй член меньшим. (Для практического применения этого для разработки проектов репликации нескольких сайтов, см. Этот пост в блоге, который я написал некоторое время назад .)

Теперь вы хотели знать, что происходит, когда мы увеличиваем или уменьшаем или при постоянном общем количестве наблюдений. Поэтому для этого мы считаем константой, так что все выражение дисперсии выглядит как которое настолько мало, насколько это возможно, когда настолько велико, что возможно (до максимума , в этом случае , что означает, что мы проводим одно измерение для каждого субъекта).mnnm

σu2n+constant,
nn=nmm=1

В моем коротком ответе говорилось о внутриклассовой корреляции, так где же это вписывается? В этой простой модели случайных эффектов внутриклассовая корреляция имеет вид (набросок вывода здесь ). Таким образом, мы можем написать приведенное выше уравнение дисперсии как Это действительно не добавляет понимание того, что мы уже видели выше, но это заставляет задуматься: поскольку внутриклассовая корреляция является истинным коэффициентом корреляции, а коэффициенты корреляции могут быть отрицательными, что произойдет (и что это будет означать), если внутриклассный корреляция была отрицательной?

ρ=σu2σu2+σe2
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

В контексте модели случайных эффектов отрицательная внутриклассовая корреляция на самом деле не имеет смысла, поскольку подразумевает, что субъектная дисперсия как-то отрицательна (как мы можем видеть из приведенного выше уравнения , и как объяснено здесь и здесь ) ... но отклонения не могут быть отрицательными! Но это не значит, что концепция отрицательной внутриклассовой корреляции не имеет смысла; это просто означает, что модель случайных эффектов не имеет никакого способа выразить эту концепцию, что является провалом модели, а не концепции. Чтобы адекватно выразить эту концепцию, нам нужно рассмотреть маржинальную модель.σu2ρ

Маргинальная модель

Для этого же набора данных мы могли бы рассмотреть так называемую предельную модель , где в основном мы перенесли случайный предметный эффект ранее в термин ошибки так что мы имеем . В модели случайных эффектов мы рассматривали два случайных члена и как iid , но в маргинальной модели вместо этого мы рассматриваем чтобы следовать блочно-диагональной ковариационной матрице нравиться yij

yij=β+eij,
uieijeij=ui+eijuieijeijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
На словах это означает, что при маргинальной модели мы просто рассматриваем - ожидаемая корреляция между двумя s от одного и того же субъекта (мы предполагаем, что корреляция между субъектами равна 0). Когдаρeρположительно, два наблюдения, сделанные от одного и того же субъекта, в среднем более похожи (ближе друг к другу), чем два наблюдения, произвольно взятые из набора данных, игнорируя кластеризацию из-за субъектов. Когда является отрицательным , два наблюдения , сделанные из того же предмета , как правило, менее похожи (дальше друг от друга), в среднем, чем двух наблюдений полностью составленных в случайном порядке. (Подробнее об этой интерпретации в вопросе / ответах здесь .)ρ

Так что теперь, когда мы смотрим на уравнение для дисперсии среднего значения выборки в маргинальной модели, мы имеем которое является тем же выражением дисперсии, которое мы получили выше для модели случайных эффектов, только с , что согласуется с нашим примечанием выше, что

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
σe2+σu2=σ2eij=ui+eij, Преимущество этой (статистически эквивалентной) точки зрения состоит в том, что здесь мы можем думать об отрицательной внутриклассовой корреляции без необходимости вызывать какие-либо странные понятия, такие как отрицательная субъектная дисперсия. Отрицательные внутриклассовые корреляции просто вписываются в эту структуру.

(Кстати, просто немного в стороне, чтобы указать, что от второй до последней строки приведенного выше вывода означает, что мы должны иметь , иначе все уравнение будет отрицательным, но дисперсия не может быть отрицательным! Таким образом, существует нижняя граница внутриклассовой корреляции, которая зависит от того, сколько измерений мы имеем на кластер. Для (т. е. мы измеряем каждый предмет дважды), внутриклассовая корреляция может пойти вплоть до ; при он может опуститься только до и т. д. Интересный факт!)ρ1/(m1)m=2ρ=1m=3ρ=1/2

Итак, наконец, еще раз, рассматривая общее число наблюдений как константу, мы видим, что вторая-последняя строка вывода выше выглядит так: Поэтому, когда , имея как можно меньше (чтобы мы проводили меньше измерений для большего количества субъектов - в пределе, 1 измерение для каждого субъекта) делает дисперсию оценки настолько малой, насколько это возможно. Но когда , мы на самом деле хотим, чтобы было как можно большим (чтобы в пределе мы брали все измерения в от одного объекта), чтобы сделать дисперсию как можно меньше. И когда( 1 + ( m - 1 ) ρ ) × положительная постоянная . ρ > 0nm

(1+(m1)ρ)×positive constant.
ρ>0ρ < 0 м н м ρ = 0 м нmρ<0mnmρ=0 , дисперсия оценки является просто константой, поэтому наше распределение и не имеет значения.mn
Джейк Уэстфолл
источник
3
+1. Отличный ответ. Я должен признать, что вторая часть, , довольно неинтуитивна: даже при огромном (или бесконечном) общем количестве наблюдений лучшее, что мы можем сделать, - это распределить все наблюдения одному объекту, что означает, что стандартная ошибка среднего значения будет и в принципе невозможно уменьшить ее дальше. Это так странно! Истинная остается неизвестной, какие бы ресурсы ни вкладывались в ее измерение. Правильно ли это толкование? n m σ u βρ<0nmσuβ
говорит амеба, восстанови Монику
3
Ах нет Вышеприведенное неверно, поскольку при увеличении до бесконечности не может оставаться отрицательным и должно приближаться к нулю (что соответствует нулевой дисперсии субъекта). Хм. Эта отрицательная корреляция - забавная вещь: на самом деле это не параметр генеративной модели, поскольку она ограничена размером выборки (тогда как обычно можно ожидать, что генеративная модель сможет генерировать любое количество наблюдений, какими бы ни были параметры). Я не совсем уверен, как правильно думать об этом. ρmρ
говорит амеба: восстанови
1
@DeltaIV Что такое «ковариационная матрица случайных эффектов» в этом случае? В смешанной модели, написанной Джейком выше, есть только один случайный эффект, поэтому на самом деле нет «ковариационной матрицы», а только одно число: . Что вы имеете в виду? Σσu2Σ
говорит амеба: восстанови
2
@DeltaIV Хорошо, общий принцип - en.wikipedia.org/wiki/Inverse-variance_weighting , а дисперсия среднего значения выборки каждого предмета задается как (вот почему Джейк писал выше, что веса должны зависеть от оценки дисперсии между субъектами). Оценка дисперсии внутри субъекта дается как дисперсия объединенных отклонений внутри субъекта, оценка дисперсии между субъектами - это дисперсия средних значений субъектов, и с использованием всего, что можно вычислить, весов. (Но я не уверен, что это на 100% эквивалентно тому, что сделает lmer.)σu2+σe2/mi
амеба говорит: «Восстановите Монику
1
Джейк, да, именно это жесткое кодирование беспокоило меня. Если это «размер выборки», то он не может быть параметром базовой системы. Мое текущее мышление состоит в том, что отрицательное должно фактически указывать на то, что есть другой внутри-субъектный фактор, который игнорируется / неизвестен нам. Например, это может быть до и после некоторого вмешательства, и разница между ними настолько велика, что измерения имеют отрицательную корреляцию. Но это будет означать, что самом деле не размер выборки, а количество уровней этого неизвестного фактора, и это, безусловно , может быть жестко запрограммировано ...ρ мmρm
говорит амеба Reinstate Monica