На конференции я услышал следующее утверждение:
100 измерений для 5 предметов дают гораздо меньше информации, чем 5 измерений для 100 предметов.
Очевидно, что это правда, но мне было интересно, как можно это доказать математически ... Я думаю, что можно использовать линейную смешанную модель. Тем не менее, я не знаю много о математике, используемой для их оценки (я просто бегу lmer4
за LMM и bmrs
за GLMM :) Не могли бы вы показать мне пример, где это правда? Я бы предпочел ответ с некоторыми формулами, а не просто с кодом в R. Не стесняйтесь предполагать простую настройку, такую как, например, линейная смешанная модель с нормально распределенными случайными перехватами и наклонами.
PS Математический ответ, не включающий LMM, тоже подойдет. Я подумал о LMM, потому что они казались мне естественным инструментом, объясняющим, почему меньшее количество измерений от большего количества предметов лучше, чем большее количество измерений от нескольких предметов, но я вполне могу ошибаться.
Ответы:
Короткий ответ , что ваше предположение верно тогда и только тогда, когда существует положительная корреляция внутриклассовых в данных . Эмпирически говоря, большинство кластеризованных наборов данных в большинстве случаев показывают положительную внутриклассовую корреляцию, что означает, что на практике ваша гипотеза обычно верна. Но если внутриклассовая корреляция равна 0, то два упомянутых вами случая одинаково информативны. И если внутриклассовая корреляция отрицательна , то на самом деле менее информативно проводить меньше измерений на большем количестве предметов; На самом деле мы бы предпочли (что касается уменьшения дисперсии оценки параметра) провести все наши измерения на одном объекте.
Статистически Есть две точки зрения , с которой мы можем думать об этом: а случайные эффекты (или смешанной ) модели , которые вы упоминаете в своем вопросе, или предельная модель , которая в конечном итоге быть немного более информативными здесь.
Модель со случайными эффектами (смешанная)
Скажем, у нас есть набор из субъектов, у которых мы провели по измерений. Тогда простой моделью случайных эффектов го измерения от го субъекта может быть где - фиксированный перехват, - случайный объектный эффект (с дисперсия ), - член ошибки уровня наблюдения (с дисперсией ), а последние два случайных члена являются независимыми.m j i y i j = β + u i + e i j , β u i σ 2 u e i j σ 2 eN м J я
В этой модели представляет среднее значение по совокупности, и при сбалансированном наборе данных (т. Е. Равном количестве измерений от каждого субъекта) наша лучшая оценка - это просто среднее по выборке. Таким образом, если мы возьмем «больше информации» для обозначения меньшей дисперсии для этой оценки, то в основном мы хотим знать, как дисперсия среднего значения выборки зависит от и . С небольшим количеством алгебры мы можем решить, что n m var ( 1β N м
Теперь вы хотели знать, что происходит, когда мы увеличиваем или уменьшаем или при постоянном общем количестве наблюдений. Поэтому для этого мы считаем константой, так что все выражение дисперсии выглядит как которое настолько мало, насколько это возможно, когда настолько велико, что возможно (до максимума , в этом случае , что означает, что мы проводим одно измерение для каждого субъекта).m n nm
В моем коротком ответе говорилось о внутриклассовой корреляции, так где же это вписывается? В этой простой модели случайных эффектов внутриклассовая корреляция имеет вид (набросок вывода здесь ). Таким образом, мы можем написать приведенное выше уравнение дисперсии как Это действительно не добавляет понимание того, что мы уже видели выше, но это заставляет задуматься: поскольку внутриклассовая корреляция является истинным коэффициентом корреляции, а коэффициенты корреляции могут быть отрицательными, что произойдет (и что это будет означать), если внутриклассный корреляция была отрицательной?
В контексте модели случайных эффектов отрицательная внутриклассовая корреляция на самом деле не имеет смысла, поскольку подразумевает, что субъектная дисперсия как-то отрицательна (как мы можем видеть из приведенного выше уравнения , и как объяснено здесь и здесь ) ... но отклонения не могут быть отрицательными! Но это не значит, что концепция отрицательной внутриклассовой корреляции не имеет смысла; это просто означает, что модель случайных эффектов не имеет никакого способа выразить эту концепцию, что является провалом модели, а не концепции. Чтобы адекватно выразить эту концепцию, нам нужно рассмотреть маржинальную модель.σ2u ρ
Маргинальная модель
Для этого же набора данных мы могли бы рассмотреть так называемую предельную модель , где в основном мы перенесли случайный предметный эффект ранее в термин ошибки так что мы имеем . В модели случайных эффектов мы рассматривали два случайных члена и как iid , но в маргинальной модели вместо этого мы рассматриваем чтобы следовать блочно-диагональной ковариационной матрице нравитьсяyij
Так что теперь, когда мы смотрим на уравнение для дисперсии среднего значения выборки в маргинальной модели, мы имеем которое является тем же выражением дисперсии, которое мы получили выше для модели случайных эффектов, только с , что согласуется с нашим примечанием выше, что
(Кстати, просто немного в стороне, чтобы указать, что от второй до последней строки приведенного выше вывода означает, что мы должны иметь , иначе все уравнение будет отрицательным, но дисперсия не может быть отрицательным! Таким образом, существует нижняя граница внутриклассовой корреляции, которая зависит от того, сколько измерений мы имеем на кластер. Для (т. е. мы измеряем каждый предмет дважды), внутриклассовая корреляция может пойти вплоть до ; при он может опуститься только до и т. д. Интересный факт!)ρ≥−1/(m−1) m=2 ρ=−1 m=3 ρ=−1/2
Итак, наконец, еще раз, рассматривая общее число наблюдений как константу, мы видим, что вторая-последняя строка вывода выше выглядит так: Поэтому, когда , имея как можно меньше (чтобы мы проводили меньше измерений для большего количества субъектов - в пределе, 1 измерение для каждого субъекта) делает дисперсию оценки настолько малой, насколько это возможно. Но когда , мы на самом деле хотим, чтобы было как можно большим (чтобы в пределе мы брали все измерения в от одного объекта), чтобы сделать дисперсию как можно меньше. И когда( 1 + ( m - 1 ) ρ ) × положительная постоянная . ρ > 0nm
источник