Что означает «независимые наблюдения»?

28

Я пытаюсь понять, что означает предположение о независимых наблюдениях . Некоторые определения:

  1. «Два события независимы тогда и только тогда, когда ». ( Словарь статистических терминов )P(ab)=P(a)P(b)
  2. «возникновение одного события не меняет вероятность другого» ( Википедия ).
  3. «выборка одного наблюдения не влияет на выбор второго наблюдения» ( Дэвид М. Лейн ).

Примером зависимых наблюдений, которые часто приводятся, являются студенты, вложенные в учителей, как показано ниже Давайте предположим, что учителя влияют на студентов, но студенты не влияют друг на друга.

Итак, как эти определения нарушаются для этих данных? Выборка [класс = 7] для [ученик = 1] не влияет на распределение вероятностей для оценки, которая будет выбрана следующей. (Или так? И если да, то что предсказывает наблюдение 1 относительно следующего наблюдения?)

Почему наблюдения были бы независимыми, если бы я измерял gender вместо teacher_id? Разве они не влияют на наблюдения одинаково?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9
RubenGeert
источник
4
Можно предположить, что распределение оценок для учителя 1 имело более низкое «среднее» значение, чем для учителя 2, и, следовательно, все учащиеся учителя 1 имели тенденцию иметь в среднем более низкие оценки, чем учащиеся учителя 2. Другими словами Распределение учеников / оценок по двум учителям вполне может быть разным. Этого было бы достаточно, чтобы сделать наблюдения зависимыми.
Восстановить Монику - Дж. Симпсон
1
@GavinSimpson: я думал об этой точной линии рассуждения. Однако, что, если я заменю teacherна gender? Пол присутствует в большинстве данных социальных наук и в какой-то степени коррелирует практически с чем угодно.
RubenGeert
1
Это должно обязательно зависеть от ответа. Если бы мы смотрели на оценки студентов по наукам в Великобритании, возможно, был бы эффект с различным распределением успеваемости для двух полов, в среднем по изучаемым группам населения. В любом случае, все это имеет значение только (в статистической модели) для остатков или иначе для ответов, обусловленных подобранной моделью. Другими словами, если наблюдения не являются независимыми, это нормально, если модель учитывает это так, что невязки являются независимыми.
Восстановить Монику - Дж. Симпсон
4
Вы не можете принять (1) или (2) в качестве определения (статистической) независимости, потому что независимость может быть определена без ссылки на причинность. Все три цитаты являются лишь попытками привести неформальные, интуитивно понятные примеры . ((3) возможно, может быть использовано в качестве определения при условии, что у вас есть доступ к количественному, точному определению количества информации.) Поэтому было бы неплохо сослаться на фактическое определение, такое как те, которые появляются под заголовком «Определение». в статье Википедии вы ссылаетесь.
whuber
1
Нет, вы можете сделать остатки независимыми (или, по крайней мере, уменьшить зависимость до такой степени, чтобы остатки выглядели независимыми). Это приходит, скажем, из предположения о линейной модели; где Λ - корреляционная матрица. Обычное предположение состоит в том, что Λ является единичной матрицей, следовательно, недиагоналы равны нулю, и, следовательно, предположение о независимости лежит на невязках. Иными словами, это утверждение о y, зависящее от подобранной модели. εN(0,σ2Λ)ΛΛy
Восстановить Монику - Г. Симпсон

Ответы:

11

В теории вероятностей статистическая независимость (которая не совпадает с причинной независимостью) определяется как ваше свойство (3), но (1) следует как следствие . События A и B считаются статистически независимыми, если и только если:AB

P(AB)=P(A)P(B).

Если то если следует, что:P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

Это означает, что статистическая независимость подразумевает, что возникновение одного события не влияет на вероятность другого. Другой способ сказать, что одно событие не должно изменить ваши убеждения о другом. Концепция статистической независимости обычно расширяется от событий к случайным переменным таким образом, что позволяет делать аналогичные утверждения для случайных переменных, включая непрерывные случайные переменные (которые имеют нулевую вероятность любого конкретного результата). Трактовка независимости для случайных величин в основном включает те же определения, которые применяются к функциям распределения.


Важно понимать, что независимость является очень сильным свойством - если события статистически независимы, то (по определению) мы не можем узнать об одном из наблюдений за другим. По этой причине статистические модели обычно включают в себя предположения об условной независимости с учетом некоторого базового распределения или параметров. Точная концептуальная структура зависит от того, используете ли вы байесовские методы или классические методы. Первый включает явную зависимость между наблюдаемыми значениями, в то время как второй включает (сложную и тонкую) неявную форму зависимости. Правильное понимание этой проблемы требует небольшого понимания классической и байесовской статистики.

Статистические модели часто говорят, что они используют предположение, что последовательности случайных величин являются «независимыми и одинаково распределенными (IID)». Например, вы могли бы иметь наблюдаемую последовательность , что означает, что каждая наблюдаемая случайная величина X i обычно распределена со средним μ и стандартным отклонением σX1,X2,X3,...IID N(μ,σ2)Xiμσ, Каждая из случайных переменных в последовательности является «независимой» от других в том смысле, что ее результат не меняет заявленное распределение других значений. В модели такого типа мы используем наблюдаемые значения последовательности для оценки параметров в модели, а затем можем, в свою очередь, прогнозировать ненаблюдаемые значения последовательности. Это обязательно включает в себя использование некоторых наблюдаемых значений, чтобы узнать о других.

Байесовская статистика: все концептуально просто. Предположим , что условно IID, учитывая параметры μ и σ , и обрабатывать эти неизвестные параметры как случайные величины. Учитывая любое невырожденное априорное распределение для этих параметров, значения в наблюдаемой последовательности (безусловно) являются зависимыми, как правило, с положительной корреляцией. Следовательно, совершенно логично, что мы используем наблюдаемые результаты для прогнозирования более поздних ненаблюдаемых результатов - они условно независимы, но безусловно зависят.X1,X2,X3,...μσ

Классическая статистика: это довольно сложно и тонко. Предположим , что IID заданы параметры μ и σX1,X2,X3,...μσ, но обрабатывать эти параметры как «неизвестные константы». Поскольку параметры рассматриваются как константы, в этом случае нет четкой разницы между условной и безусловной независимостью. Тем не менее, мы по-прежнему используем наблюдаемые значения для оценки параметров и прогнозирования ненаблюдаемых значений. Следовательно, мы используем наблюдаемые результаты, чтобы предсказать последующие ненаблюдаемые результаты, даже если они условно «независимы» друг от друга. Это очевидное несоответствие подробно обсуждается в O'Neill, B. (2009) Обмениваемость, корреляция и эффект Байеса. Международный статистический обзор 77 (2) , с. 241 - 250 .


Применяя это к данным оценки студентов, вы, вероятно , модель что - то вроде этого, полагая , что gradeэто условно независимыми данной teacher_id. Вы будете использовать эти данные, чтобы сделать выводы о распределении оценок для каждого учителя (что не должно быть одинаковым), и это позволит вам делать прогнозы относительно неизвестного gradeдругого ученика. Поскольку gradeпеременная используется в логическом выводе, это повлияет на ваши прогнозы любой неизвестной gradeпеременной для другого учащегося. Замена teacher_idна genderне меняет это; в любом случае у вас есть переменная, которую вы можете использовать в качестве предиктора grade.

Если вы используете байесовский метод, у вас будет явное предположение об условной независимости и предварительное распределение для распределения оценок учителей, что приведет к безусловной (прогнозирующей) зависимости оценок, что позволит вам рационально использовать один класс в своем прогнозе другого. Если вы используете классическую статистику, у вас будет предположение о независимости (на основе параметров, которые являются «неизвестными константами»), и вы будете использовать классические методы статистического прогнозирования, которые позволяют использовать один класс для прогнозирования другого.


Существуют некоторые основополагающие представления теории вероятностей, которые определяют независимость через условное утверждение вероятности, а затем дают совместное утверждение вероятности как следствие. Это менее распространено.

Восстановить Монику
источник
6
Статистическая независимость - это то, что вы описываете в первой части вашего ответа. Но ваше предложение «... если события статистически независимы, то (по определению) мы не можем узнать об одном из наблюдения другого». это явно неправильно. Мир полон статистически независимых, но похожих событий и случайных величин.
Алекос Пападопулос
1
Разве «обучение» не означает изменение наших убеждений о чем-либо, основанное на наблюдении за другим? Если так, разве независимость (по определению) не исключает этого?
Восстановить Монику
6
Я собирался сделать комментарий, аналогичный комментарию @Alecos. В целом создается впечатление, что вы утверждаете, что наблюдение одной реализации случайной величины ничего не говорит нам о ее распределении , так что вы не можете ничего предсказать о второй независимой реализации. Если бы это было так, большую часть теории выборки и оценки было бы невозможно разработать. Но вы правы в том смысле, что если мы знаем F и наблюдаем одну реализацию, это не дает нам никакой дополнительной информации о любой другой независимой реализации. FF
whuber
4
Я думаю , что проблема здесь в том , что стандартная модель IID с распределением неявно использует предположение о условной независимости данного знания F . При условии знания F наблюдения являются независимыми, но безусловно у вас есть ситуация, когда каждое наблюдение дает информацию о F , которая затем влияет на ваши убеждения относительно других наблюдений. FFFF
Восстановите Монику
2
Трудность в этом вопросе состоит в том, что классическая статистика рассматривает базовое распределение и параметры как «неизвестные константы» и поэтому не делает какого-либо явного различия между условной или безусловной независимостью, в этом случае. В байесовской статистике все очень просто.
Восстановите Монику
4

Пусть по к - мерный случайный вектор, т.е. коллекция фиксированной позиции случайных величин (измеримых вещественных функций).x=(X1,...,Xj,...,Xk)k

Рассмотрим множество таких векторов, скажем , , и индекс этих векторов на я = 1 , . , , , П , так, скажем ,ni=1,...,n

и рассматривать ихкачестве коллекции под названием "образец",S=( х 1 ,..., х я ,..., х п ). Тогда мы называем каждыйк-

xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k мерный вектор - «наблюдение» (хотя оно действительно становится единым только после того, как мы измерим и запишем реализации задействованных случайных величин).

fi(xi),i=1,...,nf(x1,...,xi,...,xn)

S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

DSn

Это означает, что «наблюдения» являются «совместно независимыми» (в статистическом смысле или «независимыми по вероятности», как это было со старым высказыванием, которое иногда все еще встречается сегодня). Привычка просто называть их «независимыми наблюдениями».

i

Отметим также, что в тех случаях, когда у нас есть непрерывные случайные величины без плотностей, вышеизложенное можно выразить через функции распределения.

Это то, что означает «независимые наблюдения» . Это точно определенное свойство, выраженное в математических терминах. Давайте посмотрим, что из этого следует .

НЕКОТОРЫЕ ПОСЛЕДСТВИЯ НЕЗАВИСИМЫХ НАБЛЮДЕНИЙ

A. Если два наблюдения являются частью группы совместно независимых наблюдений, то они также «попарно независимы» (статистически),

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

Это, в свою очередь, означает, что условные PMF / PDF-файлы равны «маргинальным»

f(xixm)=fi(xi)im,i,m=1,...,n

Это обобщает многие аргументы, обусловленные или обусловленные, скажем,

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

и т. д., если индексы слева отличаются от индексов справа от вертикальной линии.

Это означает, что если мы действительно наблюдаем одно наблюдение, вероятности, характеризующие любое другое наблюдение выборки, не изменяются. Что касается прогноза , независимая выборка не наш лучший друг. Мы бы предпочли иметь зависимость, чтобы каждое наблюдение могло помочь нам сказать что-то больше о любом другом наблюдении.

Б. С другой стороны, независимый образец имеет максимальную информативность. Каждое наблюдение, будучи независимым, несет информацию, которая не может быть выведена, полностью или частично, каким-либо другим наблюдением в выборке. Таким образом, общая сумма максимальна по сравнению с любой сопоставимой выборкой, где существует некоторая статистическая зависимость между некоторыми наблюдениями. Но какая польза от этой информации, если она не может помочь нам улучшить наши прогнозы?

Ну, это косвенная информация о вероятностях, которые характеризуют случайные величины в выборке. Чем больше этих наблюдений имеют общие характеристики (в нашем случае общее распределение вероятностей), тем больше мы в лучшем положении, чтобы обнаружить их, если наша выборка независима.

Другими словами, если выборка независима и «одинаково распределена», то есть

fi(xi)=fm(xm)=f(x),im

f(x)fj(xji)

f(xixm)=fi(xi)xi fi

Следовательно, что касается оценки (которая иногда используется как универсальный термин, но здесь ее следует отличать от концепции прогнозирования ), независимая выборка является нашим «лучшим другом», если она сочетается с «идентично распределенным». " свойство.

C. Из этого также следует, что независимая выборка наблюдений, каждый из которых характеризуется совершенно разным распределением вероятностей, без каких-либо общих характеристик, является настолько бесполезным сбором информации, насколько это возможно (конечно, каждая отдельная информация является Стоит отметить, что проблема в том, что вместе они не могут быть объединены, чтобы предложить что-нибудь полезное). Представьте образец, содержащий три наблюдения: одно, содержащее (количественные характеристики) фрукты из Южной Америки, другое, содержащее горы Европы, и третье, содержащее одежду из Азии. Все три из них представляют довольно интересную информацию, но в качестве образца мы не можем сделать ничего статистически полезного для нас.

Иными словами, необходимым и достаточным условием полезности независимой выборки является то, что наблюдения имеют некоторые общие статистические характеристики. Вот почему в статистике слово «образец» является синонимом не «сбора информации» в целом, а «сбора информации о сущностях, имеющих некоторые общие характеристики».

ПРИМЕНЕНИЕ К ПРИМЕРУ ДАННЫХ ОП

Отвечая на запрос пользователя @gung, давайте рассмотрим пример OP в свете вышеизложенного. Мы разумно предполагаем, что у нас в школе более двух учителей и более шести учеников. Итак, а) мы проводим выборку как учеников, так и учителей, и б) мы включаем в наш набор данных оценку, соответствующую каждой комбинации учитель-ученик.

GPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

PiGi
T1,T2

s1,s2,s3T1s4,s5,s6T2

Обратите внимание на различие между «одной и той же случайной величиной» и «двумя различными случайными переменными, которые имеют идентичные распределения».

s1,s2,s3T1s4,s5,s6T2

Предположим теперь, что мы исключаем случайную переменную "teacher" из нашей выборки. Является ли (Pupil, Grade) выборка из шести наблюдений независимой выборкой? Здесь важны предположения о структурных отношениях между учителями, учениками и классами.

T1T2G1,G2,G3T1

Но скажем, что учителя в этом отношении идентичны. Затем в соответствии с заявленным предположением «учителя влияют на учеников» мы снова имеем, что первые три наблюдения зависят друг от друга, потому что учителя влияют на учеников, которые влияют на оценки, и мы достигаем того же результата, хотя и в этом случае косвенно (и аналогично для другие три). Итак, еще раз, образец не является независимым.

ДЕЛО ГЕНДЕР

GeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

Обратите внимание, что то, что мы включили в описание образца в отношении пола, это не фактическое значение, которое оно принимает для каждого ученика, а случайная переменная «Пол» . Вспомните начало этого очень длинного ответа: образец не определяется как набор чисел (или фиксированных числовых или не значений в целом), а как набор случайных величин (т. Е. Функций).

Gei1Ge1P2,P3,...затем исчезает еще один возможный источник зависимости между наблюдениями. Наконец, влияет ли пол ученика на оценки другого ученика? если мы утверждаем, что это не так, мы получаем независимую выборку (при условии, что все ученики имеют одного и того же учителя).

Алекос Пападопулос
источник
Я не согласен с вашей точкой зрения B. Для некоторых целей, таких как оценка среднего значения, отрицательная корреляция лучше, чем независимость.
kjetil b halvorsen
@kjetil Лучше в каком смысле?
Алекос Пападопулос
Было бы полезно, если бы вы могли конкретно связать это с вопросами ОП в тексте. Учитывая это, как мы понимаем, что перечисленные наблюдения не являются независимыми? И чем отличается отсутствие учителя от отсутствия секса?
gung - Восстановить Монику
@ Gung Я включил некоторые разработки в соответствии с предложениями, которые вы предложили.
Алекос Пападопулос
Лучше в смысле уменьшения дисперсии
kjetil b halvorsen
2

Определения статистической независимости , которые вы даете в вашем посте все по существу правильно, но они не попадают в сердце независимости предположения в статистической модели . Чтобы понять, что мы подразумеваем под предположением о независимых наблюдениях в статистической модели, будет полезно вернуться к тому, что статистическая модель находится на концептуальном уровне.

Статистические модели как приближения к «кости природы»

Давайте используем знакомый пример: мы собираем случайную выборку взрослых людей (из четко определенной популяции - скажем, всех взрослых людей на земле) и измеряем их высоту. Мы хотим оценить средний рост численности взрослого человека. Для этого мы строим простую статистическую модель, предполагая, что рост людей обусловлен нормальным распределением.

Наша модель будет хорошей, если нормальное распределение дает хорошее приближение к тому, как природа «подбирает» высоты для людей. То есть, если мы моделируем данные в рамках нашей обычной модели, будет ли результирующий набор данных очень похож (в статистическом смысле) на то, что мы наблюдаем в природе? В контексте нашей модели, обеспечивает ли наш генератор случайных чисел хорошую симуляцию сложного случайного процесса, который природа использует для определения высоты случайно выбранных взрослых людей («кости природы»)?

Предположение о независимости в простом контексте моделирования

Когда мы предполагали, что мы можем приблизить «кости природы», рисуя случайные числа из нормального распределения, мы не имели в виду, что мы будем рисовать одно число из нормального распределения, а затем назначать эту высоту всем. Мы имели в виду, что мы будем независимо рисовать числа для всех из одного и того же нормального распределения. Это наше предположение о независимости.

Теперь представьте, что наша выборка взрослых была не случайной, а взята из нескольких семей. В одних семьях высокий рост, в других - недостаток. Мы уже говорили, что готовы предположить, что рост всех взрослых происходит из одного нормального распределения. Но выборка из нормального распределения не обеспечит набор данных, который будет очень похож на нашу выборку (наша выборка будет показывать «комки» точек, некоторые короткие, другие высокие - каждый скопление - это семейство). Высоты людей в нашей выборке не являются независимыми от общего нормального распределения.

Предположение о независимости в более сложном контексте моделирования

Но не все потеряно! Возможно, мы сможем записать лучшую модель для нашего образца - такую, которая сохраняет независимость высот. Например, мы могли бы записать линейную модель, где высоты возникают из нормального распределения со средним значением, которое зависит от того, к какой семье принадлежит субъект. В этом контексте нормальное распределение описывает остаточную вариацию , ПОСЛЕ того, как мы учитываем влияние семьи. И независимые выборки из нормального распределения могут быть хорошей моделью для этого остаточного изменения.

В целом, что мы сделали, это записали более сложную модель того, как мы ожидаем, что кости природы будут вести себя в контексте нашего исследования. Записав хорошую модель, мы все еще можем оправдаться, если предположим, что случайная часть модели (то есть случайное отклонение от среднего значения семейства) независимо выбирается для каждого члена населения.

(Условное) допущение независимости в общем контексте моделирования

В целом, статистические модели работают, предполагая, что данные возникают из некоторого распределения вероятностей. Параметры этого распределения (например, среднее значение нормального распределения в приведенном выше примере) могут зависеть от ковариат (например, семейство в приведенном выше примере). Но, конечно, возможны бесконечные вариации. Распределение может быть ненормальным, параметр, который зависит от ковариат, может не быть средним, форма зависимости может быть не линейной и т. Д. Все эти модели основаны на предположении, что они обеспечивают достаточно хорошее приближение к тому, как кости вести себя (опять же, данные, смоделированные в рамках модели, будут статистически похожи на фактические данные, полученные природой).

Когда мы моделируем данные в рамках модели, последним шагом всегда будет рисование случайного числа в соответствии с некоторым смоделированным распределением вероятностей. Это ничьи, которые мы предполагаем независимыми друг от друга. Фактические данные, которые мы получаем, могут не выглядеть независимыми, потому что ковариаты или другие особенности модели могут указывать нам использовать разные распределения вероятностей для разных ничьих (или наборов ничьих). Но вся эта информация должна быть встроена в саму модель. Нам не разрешается, чтобы случайное окончательное число получалось в зависимости от того, какие значения мы нарисовали для других точек данных. Таким образом, события, которые должны быть независимыми, являются рулонами «кубиков природы» в контексте нашей модели.

Полезно ссылаться на эту ситуацию как на условную независимость , что означает, что точки данных не зависят друг от друга при заданных (т. Е. Обусловленных) ковариатах. В нашем примере роста мы предполагаем, что мой рост и рост моего брата, обусловленные моей семьей, не зависят друг от друга, а также не зависят от вашего роста и роста вашей сестры. зависимости от вашей семьи, Как только мы узнаем чью-то семью, мы узнаем, из какого нормального распределения выбрать симуляцию их роста, и жеребьевки для разных людей независимы независимо от их семьи (хотя наш выбор нормального распределения зависит от семьи). Также возможно, что даже после того, как мы разберемся со структурой семьи наших данных, мы все еще не добьемся хорошей условной независимости (возможно, это также важно для моделирования пола, например).

В конечном счете, имеет ли смысл предполагать, что условная независимость наблюдений является решением, которое должно приниматься в контексте конкретной модели. Вот почему, например, в линейной регрессии мы не проверяем, что данные поступают из нормального распределения, но мы проверяем, что ОСТАТКИ поступают из нормального распределения (и из того же нормального распределения по всему диапазону данные). Линейная регрессия предполагает, что после учета влияния ковариат (линии регрессии) данные независимо отбираются из нормального распределения в соответствии со строгим определением независимости в исходном посте.

В контексте вашего примера

«Учитель» в ваших данных может быть как «семья» в примере с ростом.

Последнее вращение на нем

Многие знакомые модели предполагают, что остатки возникают из нормального распределения. Представьте, что я дал вам некоторые данные, которые совершенно явно НЕ были нормальными. Может быть, вы сильно перекошены, или, может быть, они бимодальные. И я сказал вам «эти данные поступают из нормального распределения».

«Ни в коем случае, - говорите вы, - очевидно, что это не нормально!»

«Кто сказал, что данные нормальны?» Я говорю. «Я только сказал, что они приходят из нормального распределения».

"Один в том же!" ты говоришь. «Мы знаем, что гистограмма достаточно большой выборки из нормального распределения будет выглядеть примерно нормально!»

«Но, - говорю я, - я никогда не говорил, что данные были независимо взяты из нормального распределения. DO получаются из нормального распределения, но они не являются независимыми ничьями».

Предположение о (условной) независимости в статистическом моделировании служит для того, чтобы такие умные люди, как я, не игнорировали распределение остатков и неправильно применяли модель.

Две последние заметки

1) Термин «кости природы» изначально не мой, но, несмотря на обращение к нескольким ссылкам, я не могу понять, где я получил это в этом контексте.

2) Некоторые статистические модели (например, модели авторегрессии) не требуют независимости наблюдений таким способом. В частности, они позволяют распределению выборки для данного наблюдения зависеть не только от фиксированных ковариат, но и от данных, которые были до него.

Джейкоб Соколар
источник
Спасибо за это. Мне нравится, что это написано очень доступным способом. Вы рассматриваете вопрос о том, как это работает для учителя, можете ли вы расширить обсуждение, чтобы также рассмотреть идею секса как ковариата?
gung - Восстановить Монику