Показано, что 100 измерений для 5 предметов дают гораздо меньше информации, чем 5 измерений для 100 предметов

Короткий ответ , что ваше предположение верно тогда и только тогда, когда существует положительная корреляция внутриклассовых в данных . Эмпирически говоря, большинство кластеризованных наборов данных в большинстве случаев показывают положительную внутриклассовую корреляцию, что означает, что на практике ваша гипотеза обычно верна. Но если внутриклассовая корреляция равна 0, то два упомянутых вами случая одинаково информативны. И если внутриклассовая корреляция отрицательна , то на самом деле менее информативно проводить меньше измерений на большем количестве предметов; На самом деле мы бы предпочли (что касается уменьшения дисперсии оценки параметра) провести все наши измерения на одном объекте.

Статистически Есть две точки зрения , с которой мы можем думать об этом: а случайные эффекты (или смешанной ) модели , которые вы упоминаете в своем вопросе, или предельная модель , которая в конечном итоге быть немного более информативными здесь.

Модель со случайными эффектами (смешанная)

Скажем, у нас есть набор из субъектов, у которых мы провели по измерений. Тогда простой моделью случайных эффектов го измерения от го субъекта может быть где - фиксированный перехват, - случайный объектный эффект (с дисперсия ), - член ошибки уровня наблюдения (с дисперсией ), а последние два случайных члена являются независимыми. $n$ $m$ $j$ $i$

y_{i j} = β + u_{i} + e_{i j},

$y_{ij} = \beta + u_i + e_{ij},$

β

$\beta$

u_{i}

$u_i$

σ_{u}^{2}

$\sigma^2_u$

e_{i j}

$e_{ij}$

σ_{e}^{2}

$\sigma^2_e$

В этой модели представляет среднее значение по совокупности, и при сбалансированном наборе данных (т. Е. Равном количестве измерений от каждого субъекта) наша лучшая оценка - это просто среднее по выборке. Таким образом, если мы возьмем «больше информации» для обозначения меньшей дисперсии для этой оценки, то в основном мы хотим знать, как дисперсия среднего значения выборки зависит от и . С небольшим количеством алгебры мы можем решить, что $\beta$ $n$ $m$

\begin{aligned} var (\frac{1}{n m} \sum_{i} \sum_{j} y_{i j}) & = var (\frac{1}{n m} \sum_{i} \sum_{j} β + u_{i} + e_{i j}) \\ = \frac{1}{n^{2} m^{2}} var (\sum_{i} \sum_{j} u_{i} + \sum_{i} \sum_{j} e_{i j}) \\ = \frac{1}{n^{2} m^{2}} (m^{2} \sum_{i} var (u_{i}) + \sum_{i} \sum_{j} var (e_{i j})) \\ = \frac{1}{n^{2} m^{2}} (n m^{2} σ_{u}^{2} + n m σ_{e}^{2}) \\ = \frac{σ_{u}^{2}}{n} + \frac{σ_{e}^{2}}{n m} . \end{aligned}

$\begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + u_i + e_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_ju_i + \sum_i\sum_je_{ij}) \\ &= \frac{1}{n^2m^2}\Big(m^2\sum_i\text{var}(u_i) + \sum_i\sum_j\text{var}(e_{ij})\Big) \\ &= \frac{1}{n^2m^2}(nm^2\sigma^2_u + nm\sigma^2_e) \\ &= \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm}. \end{aligned}$ Изучив это выражение, мы увидим, что всякий раз , когда есть какая-либо предметная дисперсия (т. е. ), увеличение числа субъектов ( ) будет оба эти термина, увеличивая при этом число измерений на субъект (

σ_{u}^{2} > 0

$\sigma^2_u>0$

n

$n$

m

$m$ ) только сделает второй член меньшим. (Для практического применения этого для разработки проектов репликации нескольких сайтов, см. Этот пост в блоге, который я написал некоторое время назад .)

Теперь вы хотели знать, что происходит, когда мы увеличиваем или уменьшаем или при постоянном общем количестве наблюдений. Поэтому для этого мы считаем константой, так что все выражение дисперсии выглядит как которое настолько мало, насколько это возможно, когда настолько велико, что возможно (до максимума , в этом случае , что означает, что мы проводим одно измерение для каждого субъекта). $m$ $n$ $nm$

\frac{σ_{u}^{2}}{n} + constant,

$\frac{\sigma^2_u}{n} + \text{constant},$

n

$n$

n = n m

$n=nm$

m = 1

$m=1$

В моем коротком ответе говорилось о внутриклассовой корреляции, так где же это вписывается? В этой простой модели случайных эффектов внутриклассовая корреляция имеет вид (набросок вывода здесь ). Таким образом, мы можем написать приведенное выше уравнение дисперсии как Это действительно не добавляет понимание того, что мы уже видели выше, но это заставляет задуматься: поскольку внутриклассовая корреляция является истинным коэффициентом корреляции, а коэффициенты корреляции могут быть отрицательными, что произойдет (и что это будет означать), если внутриклассный корреляция была отрицательной?

ρ = \frac{σ_{u}^{2}}{σ_{u}^{2} + σ_{e}^{2}}

$\rho = \frac{\sigma^2_u}{\sigma^2_u + \sigma^2_e}$

var (\frac{1}{n m} \sum_{i} \sum_{j} y_{i j}) = \frac{σ_{u}^{2}}{n} + \frac{σ_{e}^{2}}{n m} = (\frac{ρ}{n} + \frac{1 - ρ}{n m}) (σ_{u}^{2} + σ_{e}^{2})

$\text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) = \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm} = \Big(\frac{\rho}{n} + \frac{1-\rho}{nm}\Big)(\sigma^2_u+\sigma^2_e)$

В контексте модели случайных эффектов отрицательная внутриклассовая корреляция на самом деле не имеет смысла, поскольку подразумевает, что субъектная дисперсия как-то отрицательна (как мы можем видеть из приведенного выше уравнения , и как объяснено здесь и здесь ) ... но отклонения не могут быть отрицательными! Но это не значит, что концепция отрицательной внутриклассовой корреляции не имеет смысла; это просто означает, что модель случайных эффектов не имеет никакого способа выразить эту концепцию, что является провалом модели, а не концепции. Чтобы адекватно выразить эту концепцию, нам нужно рассмотреть маржинальную модель. $\sigma^2_u$ $\rho$

Маргинальная модель

Для этого же набора данных мы могли бы рассмотреть так называемую предельную модель , где в основном мы перенесли случайный предметный эффект ранее в термин ошибки так что мы имеем . В модели случайных эффектов мы рассматривали два случайных члена и как iid , но в маргинальной модели вместо этого мы рассматриваем чтобы следовать блочно-диагональной ковариационной матрице нравиться $y_{ij}$

y_{i j} = β + e_{i j}^{*},

$y_{ij} = \beta + e^*_{ij},$

u_{i}

$u_i$

e_{i j}

$e_{ij}$

e_{i j}^{*} = u_{i} + e_{i j}

$e^*_{ij} = u_i + e_{ij}$

u_{i}

$u_i$

e_{i j}

$e_{ij}$

e_{i j}^{*}

$e^*_{ij}$

C

$\textbf{C}$

C = σ^{2} [\begin{matrix} R & 0 & \dots & 0 \\ 0 & R & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & R \end{matrix}], R = [\begin{matrix} 1 & ρ & \dots & ρ \\ ρ & 1 & \dots & ρ \\ ⋮ & ⋮ & ⋱ & ⋮ \\ ρ & ρ & \dots & 1 \end{matrix}]

$\textbf{C}= \sigma^2\begin{bmatrix} \textbf{R} & 0& \cdots & 0\\ 0& \textbf{R} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0& 0& \cdots &\textbf{R}\\ \end{bmatrix}, \textbf{R}= \begin{bmatrix} 1 & \rho & \cdots & \rho \\ \rho & 1 & \cdots & \rho \\ \vdots & \vdots & \ddots & \vdots \\ \rho & \rho & \cdots &1\\ \end{bmatrix}$ На словах это означает, что при маргинальной модели мы просто рассматриваем - ожидаемая корреляция между двумя s от одного и того же субъекта (мы предполагаем, что корреляция между субъектами равна 0). Когда

ρ

$\rho$

e^{*}

$e^*$

ρ

$\rho$ положительно, два наблюдения, сделанные от одного и того же субъекта, в среднем более похожи (ближе друг к другу), чем два наблюдения, произвольно взятые из набора данных, игнорируя кластеризацию из-за субъектов. Когда является отрицательным , два наблюдения , сделанные из того же предмета , как правило, менее похожи (дальше друг от друга), в среднем, чем двух наблюдений полностью составленных в случайном порядке. (Подробнее об этой интерпретации в вопросе / ответах здесь .)

ρ

$\rho$

Так что теперь, когда мы смотрим на уравнение для дисперсии среднего значения выборки в маргинальной модели, мы имеем которое является тем же выражением дисперсии, которое мы получили выше для модели случайных эффектов, только с , что согласуется с нашим примечанием выше, что

\begin{aligned} var (\frac{1}{n m} \sum_{i} \sum_{j} y_{i j}) & = var (\frac{1}{n m} \sum_{i} \sum_{j} β + e_{i j}^{*}) \\ = \frac{1}{n^{2} m^{2}} var (\sum_{i} \sum_{j} e_{i j}^{*}) \\ = \frac{1}{n^{2} m^{2}} (n (m σ^{2} + (m^{2} - m) ρ σ^{2})) \\ = \frac{σ^{2} (1 + (m - 1) ρ)}{n m} \\ = (\frac{ρ}{n} + \frac{1 - ρ}{n m}) σ^{2}, \end{aligned}

$\begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + e^*_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_je^*_{ij}) \\ &= \frac{1}{n^2m^2}\Big(n\big(m\sigma^2 + (m^2-m)\rho\sigma^2\big)\Big) \\ &= \frac{\sigma^2\big(1+(m-1)\rho\big)}{nm} \\ &= \Big(\frac{\rho}{n}+\frac{1-\rho}{nm}\Big)\sigma^2, \end{aligned}$

σ_{e}^{2} + σ_{u}^{2} = σ^{2}

$\sigma^2_e+\sigma^2_u=\sigma^2$

e_{i j}^{*} = u_{i} + e_{i j}

$e^*_{ij} = u_i + e_{ij}$ , Преимущество этой (статистически эквивалентной) точки зрения состоит в том, что здесь мы можем думать об отрицательной внутриклассовой корреляции без необходимости вызывать какие-либо странные понятия, такие как отрицательная субъектная дисперсия. Отрицательные внутриклассовые корреляции просто вписываются в эту структуру.

(Кстати, просто немного в стороне, чтобы указать, что от второй до последней строки приведенного выше вывода означает, что мы должны иметь , иначе все уравнение будет отрицательным, но дисперсия не может быть отрицательным! Таким образом, существует нижняя граница внутриклассовой корреляции, которая зависит от того, сколько измерений мы имеем на кластер. Для (т. е. мы измеряем каждый предмет дважды), внутриклассовая корреляция может пойти вплоть до ; при он может опуститься только до и т. д. Интересный факт!) $\rho \ge -1/(m-1)$ $m=2$ $\rho=-1$ $m=3$ $\rho=-1/2$

Итак, наконец, еще раз, рассматривая общее число наблюдений как константу, мы видим, что вторая-последняя строка вывода выше выглядит так: Поэтому, когда , имея как можно меньше (чтобы мы проводили меньше измерений для большего количества субъектов - в пределе, 1 измерение для каждого субъекта) делает дисперсию оценки настолько малой, насколько это возможно. Но когда , мы на самом деле хотим, чтобы было как можно большим (чтобы в пределе мы брали все измерения в от одного объекта), чтобы сделать дисперсию как можно меньше. И когда $nm$

(1 + (m - 1) ρ) \times positive constant .

$\big(1+(m-1)\rho\big) \times \text{positive constant}.$

ρ > 0

$\rho>0$

m

$m$

ρ < 0

$\rho<0$

m

$m$

n m

$nm$

ρ = 0

$\rho=0$ , дисперсия оценки является просто константой, поэтому наше распределение и не имеет значения.

m

$m$

n

$n$

Джейк Уэстфолл
источник

+1. Отличный ответ. Я должен признать, что вторая часть, , довольно неинтуитивна: даже при огромном (или бесконечном) общем количестве наблюдений лучшее, что мы можем сделать, - это распределить все наблюдения одному объекту, что означает, что стандартная ошибка среднего значения будет и в принципе невозможно уменьшить ее дальше. Это так странно! Истинная остается неизвестной, какие бы ресурсы ни вкладывались в ее измерение. Правильно ли это толкование?

ρ < 0

$\rho<0$

n m

$nm$

σ_{u}

$\sigma_u$

β

$\beta$

говорит амеба, восстанови Монику

Ах нет Вышеприведенное неверно, поскольку при увеличении до бесконечности не может оставаться отрицательным и должно приближаться к нулю (что соответствует нулевой дисперсии субъекта). Хм. Эта отрицательная корреляция - забавная вещь: на самом деле это не параметр генеративной модели, поскольку она ограничена размером выборки (тогда как обычно можно ожидать, что генеративная модель сможет генерировать любое количество наблюдений, какими бы ни были параметры). Я не совсем уверен, как правильно думать об этом.

m

$m$

ρ

$\rho$

говорит амеба: восстанови

@DeltaIV Что такое «ковариационная матрица случайных эффектов» в этом случае? В смешанной модели, написанной Джейком выше, есть только один случайный эффект, поэтому на самом деле нет «ковариационной матрицы», а только одно число: . Что вы имеете в виду?

σ_{u}^{2}

$\sigma^2_u$

Σ

$\Sigma$

говорит амеба: восстанови

@DeltaIV Хорошо, общий принцип - en.wikipedia.org/wiki/Inverse-variance_weighting , а дисперсия среднего значения выборки каждого предмета задается как (вот почему Джейк писал выше, что веса должны зависеть от оценки дисперсии между субъектами). Оценка дисперсии внутри субъекта дается как дисперсия объединенных отклонений внутри субъекта, оценка дисперсии между субъектами - это дисперсия средних значений субъектов, и с использованием всего, что можно вычислить, весов. (Но я не уверен, что это на 100% эквивалентно тому, что сделает lmer.)

σ_{u}^{2} + σ_{e}^{2} / m_{i}

$\sigma^2_u + \sigma^2_e/m_i$

амеба говорит: «Восстановите Монику

Джейк, да, именно это жесткое кодирование беспокоило меня. Если это «размер выборки», то он не может быть параметром базовой системы. Мое текущее мышление состоит в том, что отрицательное должно фактически указывать на то, что есть другой внутри-субъектный фактор, который игнорируется / неизвестен нам. Например, это может быть до и после некоторого вмешательства, и разница между ними настолько велика, что измерения имеют отрицательную корреляцию. Но это будет означать, что самом деле не размер выборки, а количество уровней этого неизвестного фактора, и это, безусловно , может быть жестко запрограммировано ...

m

$m$

ρ

$\rho$

m

$m$

говорит амеба Reinstate Monica

Показано, что 100 измерений для 5 предметов дают гораздо меньше информации, чем 5 измерений для 100 предметов

Ответы:

Модель со случайными эффектами (смешанная)

Маргинальная модель