Я пытаюсь понять, что означает предположение о независимых наблюдениях . Некоторые определения:
- «Два события независимы тогда и только тогда, когда ». ( Словарь статистических терминов )
- «возникновение одного события не меняет вероятность другого» ( Википедия ).
- «выборка одного наблюдения не влияет на выбор второго наблюдения» ( Дэвид М. Лейн ).
Примером зависимых наблюдений, которые часто приводятся, являются студенты, вложенные в учителей, как показано ниже Давайте предположим, что учителя влияют на студентов, но студенты не влияют друг на друга.
Итак, как эти определения нарушаются для этих данных? Выборка [класс = 7] для [ученик = 1] не влияет на распределение вероятностей для оценки, которая будет выбрана следующей. (Или так? И если да, то что предсказывает наблюдение 1 относительно следующего наблюдения?)
Почему наблюдения были бы независимыми, если бы я измерял gender
вместо teacher_id
? Разве они не влияют на наблюдения одинаково?
teacher_id student_id grade
1 1 7
1 2 7
1 3 6
2 4 8
2 5 8
2 6 9
teacher
наgender
? Пол присутствует в большинстве данных социальных наук и в какой-то степени коррелирует практически с чем угодно.Ответы:
В теории вероятностей статистическая независимость (которая не совпадает с причинной независимостью) определяется как ваше свойство (3), но (1) следует как следствие . События A и B считаются статистически независимыми, если и только если:† A B
Если то если следует, что:P(B)>0
Это означает, что статистическая независимость подразумевает, что возникновение одного события не влияет на вероятность другого. Другой способ сказать, что одно событие не должно изменить ваши убеждения о другом. Концепция статистической независимости обычно расширяется от событий к случайным переменным таким образом, что позволяет делать аналогичные утверждения для случайных переменных, включая непрерывные случайные переменные (которые имеют нулевую вероятность любого конкретного результата). Трактовка независимости для случайных величин в основном включает те же определения, которые применяются к функциям распределения.
Важно понимать, что независимость является очень сильным свойством - если события статистически независимы, то (по определению) мы не можем узнать об одном из наблюдений за другим. По этой причине статистические модели обычно включают в себя предположения об условной независимости с учетом некоторого базового распределения или параметров. Точная концептуальная структура зависит от того, используете ли вы байесовские методы или классические методы. Первый включает явную зависимость между наблюдаемыми значениями, в то время как второй включает (сложную и тонкую) неявную форму зависимости. Правильное понимание этой проблемы требует небольшого понимания классической и байесовской статистики.
Статистические модели часто говорят, что они используют предположение, что последовательности случайных величин являются «независимыми и одинаково распределенными (IID)». Например, вы могли бы иметь наблюдаемую последовательность , что означает, что каждая наблюдаемая случайная величина X i обычно распределена со средним μ и стандартным отклонением σX1,X2,X3,...∼IID N(μ,σ2) Xi μ σ , Каждая из случайных переменных в последовательности является «независимой» от других в том смысле, что ее результат не меняет заявленное распределение других значений. В модели такого типа мы используем наблюдаемые значения последовательности для оценки параметров в модели, а затем можем, в свою очередь, прогнозировать ненаблюдаемые значения последовательности. Это обязательно включает в себя использование некоторых наблюдаемых значений, чтобы узнать о других.
Байесовская статистика: все концептуально просто. Предположим , что условно IID, учитывая параметры μ и σ , и обрабатывать эти неизвестные параметры как случайные величины. Учитывая любое невырожденное априорное распределение для этих параметров, значения в наблюдаемой последовательности (безусловно) являются зависимыми, как правило, с положительной корреляцией. Следовательно, совершенно логично, что мы используем наблюдаемые результаты для прогнозирования более поздних ненаблюдаемых результатов - они условно независимы, но безусловно зависят.X1,X2,X3,... μ σ
Классическая статистика: это довольно сложно и тонко. Предположим , что IID заданы параметры μ и σX1,X2,X3,... μ σ , но обрабатывать эти параметры как «неизвестные константы». Поскольку параметры рассматриваются как константы, в этом случае нет четкой разницы между условной и безусловной независимостью. Тем не менее, мы по-прежнему используем наблюдаемые значения для оценки параметров и прогнозирования ненаблюдаемых значений. Следовательно, мы используем наблюдаемые результаты, чтобы предсказать последующие ненаблюдаемые результаты, даже если они условно «независимы» друг от друга. Это очевидное несоответствие подробно обсуждается в O'Neill, B. (2009) Обмениваемость, корреляция и эффект Байеса. Международный статистический обзор 77 (2) , с. 241 - 250 .
Применяя это к данным оценки студентов, вы, вероятно , модель что - то вроде этого, полагая , что
grade
это условно независимыми даннойteacher_id
. Вы будете использовать эти данные, чтобы сделать выводы о распределении оценок для каждого учителя (что не должно быть одинаковым), и это позволит вам делать прогнозы относительно неизвестногоgrade
другого ученика. Посколькуgrade
переменная используется в логическом выводе, это повлияет на ваши прогнозы любой неизвестнойgrade
переменной для другого учащегося. Заменаteacher_id
наgender
не меняет это; в любом случае у вас есть переменная, которую вы можете использовать в качестве предиктораgrade
.Если вы используете байесовский метод, у вас будет явное предположение об условной независимости и предварительное распределение для распределения оценок учителей, что приведет к безусловной (прогнозирующей) зависимости оценок, что позволит вам рационально использовать один класс в своем прогнозе другого. Если вы используете классическую статистику, у вас будет предположение о независимости (на основе параметров, которые являются «неизвестными константами»), и вы будете использовать классические методы статистического прогнозирования, которые позволяют использовать один класс для прогнозирования другого.
Существуют некоторые основополагающие представления теории вероятностей, которые определяют независимость через условное утверждение вероятности, а затем дают совместное утверждение вероятности как следствие. Это менее распространено.†
источник
Пусть по к - мерный случайный вектор, т.е. коллекция фиксированной позиции случайных величин (измеримых вещественных функций).x=(X1,...,Xj,...,Xk) k−
Рассмотрим множество таких векторов, скажем , , и индекс этих векторов на я = 1 , . , , , П , так, скажем ,n i=1,...,n
и рассматривать ихкачестве коллекции под названием "образец",S=( х 1 ,..., х я ,..., х п ). Тогда мы называем каждыйк-
Это означает, что «наблюдения» являются «совместно независимыми» (в статистическом смысле или «независимыми по вероятности», как это было со старым высказыванием, которое иногда все еще встречается сегодня). Привычка просто называть их «независимыми наблюдениями».
Отметим также, что в тех случаях, когда у нас есть непрерывные случайные величины без плотностей, вышеизложенное можно выразить через функции распределения.
Это то, что означает «независимые наблюдения» . Это точно определенное свойство, выраженное в математических терминах. Давайте посмотрим, что из этого следует .
НЕКОТОРЫЕ ПОСЛЕДСТВИЯ НЕЗАВИСИМЫХ НАБЛЮДЕНИЙ
A. Если два наблюдения являются частью группы совместно независимых наблюдений, то они также «попарно независимы» (статистически),
Это, в свою очередь, означает, что условные PMF / PDF-файлы равны «маргинальным»
Это обобщает многие аргументы, обусловленные или обусловленные, скажем,
и т. д., если индексы слева отличаются от индексов справа от вертикальной линии.
Это означает, что если мы действительно наблюдаем одно наблюдение, вероятности, характеризующие любое другое наблюдение выборки, не изменяются. Что касается прогноза , независимая выборка не наш лучший друг. Мы бы предпочли иметь зависимость, чтобы каждое наблюдение могло помочь нам сказать что-то больше о любом другом наблюдении.
Б. С другой стороны, независимый образец имеет максимальную информативность. Каждое наблюдение, будучи независимым, несет информацию, которая не может быть выведена, полностью или частично, каким-либо другим наблюдением в выборке. Таким образом, общая сумма максимальна по сравнению с любой сопоставимой выборкой, где существует некоторая статистическая зависимость между некоторыми наблюдениями. Но какая польза от этой информации, если она не может помочь нам улучшить наши прогнозы?
Ну, это косвенная информация о вероятностях, которые характеризуют случайные величины в выборке. Чем больше этих наблюдений имеют общие характеристики (в нашем случае общее распределение вероятностей), тем больше мы в лучшем положении, чтобы обнаружить их, если наша выборка независима.
Другими словами, если выборка независима и «одинаково распределена», то есть
Следовательно, что касается оценки (которая иногда используется как универсальный термин, но здесь ее следует отличать от концепции прогнозирования ), независимая выборка является нашим «лучшим другом», если она сочетается с «идентично распределенным». " свойство.
C. Из этого также следует, что независимая выборка наблюдений, каждый из которых характеризуется совершенно разным распределением вероятностей, без каких-либо общих характеристик, является настолько бесполезным сбором информации, насколько это возможно (конечно, каждая отдельная информация является Стоит отметить, что проблема в том, что вместе они не могут быть объединены, чтобы предложить что-нибудь полезное). Представьте образец, содержащий три наблюдения: одно, содержащее (количественные характеристики) фрукты из Южной Америки, другое, содержащее горы Европы, и третье, содержащее одежду из Азии. Все три из них представляют довольно интересную информацию, но в качестве образца мы не можем сделать ничего статистически полезного для нас.
Иными словами, необходимым и достаточным условием полезности независимой выборки является то, что наблюдения имеют некоторые общие статистические характеристики. Вот почему в статистике слово «образец» является синонимом не «сбора информации» в целом, а «сбора информации о сущностях, имеющих некоторые общие характеристики».
ПРИМЕНЕНИЕ К ПРИМЕРУ ДАННЫХ ОП
Отвечая на запрос пользователя @gung, давайте рассмотрим пример OP в свете вышеизложенного. Мы разумно предполагаем, что у нас в школе более двух учителей и более шести учеников. Итак, а) мы проводим выборку как учеников, так и учителей, и б) мы включаем в наш набор данных оценку, соответствующую каждой комбинации учитель-ученик.
Обратите внимание на различие между «одной и той же случайной величиной» и «двумя различными случайными переменными, которые имеют идентичные распределения».
Предположим теперь, что мы исключаем случайную переменную "teacher" из нашей выборки. Является ли (Pupil, Grade) выборка из шести наблюдений независимой выборкой? Здесь важны предположения о структурных отношениях между учителями, учениками и классами.
Но скажем, что учителя в этом отношении идентичны. Затем в соответствии с заявленным предположением «учителя влияют на учеников» мы снова имеем, что первые три наблюдения зависят друг от друга, потому что учителя влияют на учеников, которые влияют на оценки, и мы достигаем того же результата, хотя и в этом случае косвенно (и аналогично для другие три). Итак, еще раз, образец не является независимым.
ДЕЛО ГЕНДЕР
Обратите внимание, что то, что мы включили в описание образца в отношении пола, это не фактическое значение, которое оно принимает для каждого ученика, а случайная переменная «Пол» . Вспомните начало этого очень длинного ответа: образец не определяется как набор чисел (или фиксированных числовых или не значений в целом), а как набор случайных величин (т. Е. Функций).
источник
Определения статистической независимости , которые вы даете в вашем посте все по существу правильно, но они не попадают в сердце независимости предположения в статистической модели . Чтобы понять, что мы подразумеваем под предположением о независимых наблюдениях в статистической модели, будет полезно вернуться к тому, что статистическая модель находится на концептуальном уровне.
Статистические модели как приближения к «кости природы»
Давайте используем знакомый пример: мы собираем случайную выборку взрослых людей (из четко определенной популяции - скажем, всех взрослых людей на земле) и измеряем их высоту. Мы хотим оценить средний рост численности взрослого человека. Для этого мы строим простую статистическую модель, предполагая, что рост людей обусловлен нормальным распределением.
Наша модель будет хорошей, если нормальное распределение дает хорошее приближение к тому, как природа «подбирает» высоты для людей. То есть, если мы моделируем данные в рамках нашей обычной модели, будет ли результирующий набор данных очень похож (в статистическом смысле) на то, что мы наблюдаем в природе? В контексте нашей модели, обеспечивает ли наш генератор случайных чисел хорошую симуляцию сложного случайного процесса, который природа использует для определения высоты случайно выбранных взрослых людей («кости природы»)?
Предположение о независимости в простом контексте моделирования
Когда мы предполагали, что мы можем приблизить «кости природы», рисуя случайные числа из нормального распределения, мы не имели в виду, что мы будем рисовать одно число из нормального распределения, а затем назначать эту высоту всем. Мы имели в виду, что мы будем независимо рисовать числа для всех из одного и того же нормального распределения. Это наше предположение о независимости.
Теперь представьте, что наша выборка взрослых была не случайной, а взята из нескольких семей. В одних семьях высокий рост, в других - недостаток. Мы уже говорили, что готовы предположить, что рост всех взрослых происходит из одного нормального распределения. Но выборка из нормального распределения не обеспечит набор данных, который будет очень похож на нашу выборку (наша выборка будет показывать «комки» точек, некоторые короткие, другие высокие - каждый скопление - это семейство). Высоты людей в нашей выборке не являются независимыми от общего нормального распределения.
Предположение о независимости в более сложном контексте моделирования
Но не все потеряно! Возможно, мы сможем записать лучшую модель для нашего образца - такую, которая сохраняет независимость высот. Например, мы могли бы записать линейную модель, где высоты возникают из нормального распределения со средним значением, которое зависит от того, к какой семье принадлежит субъект. В этом контексте нормальное распределение описывает остаточную вариацию , ПОСЛЕ того, как мы учитываем влияние семьи. И независимые выборки из нормального распределения могут быть хорошей моделью для этого остаточного изменения.
В целом, что мы сделали, это записали более сложную модель того, как мы ожидаем, что кости природы будут вести себя в контексте нашего исследования. Записав хорошую модель, мы все еще можем оправдаться, если предположим, что случайная часть модели (то есть случайное отклонение от среднего значения семейства) независимо выбирается для каждого члена населения.
(Условное) допущение независимости в общем контексте моделирования
В целом, статистические модели работают, предполагая, что данные возникают из некоторого распределения вероятностей. Параметры этого распределения (например, среднее значение нормального распределения в приведенном выше примере) могут зависеть от ковариат (например, семейство в приведенном выше примере). Но, конечно, возможны бесконечные вариации. Распределение может быть ненормальным, параметр, который зависит от ковариат, может не быть средним, форма зависимости может быть не линейной и т. Д. Все эти модели основаны на предположении, что они обеспечивают достаточно хорошее приближение к тому, как кости вести себя (опять же, данные, смоделированные в рамках модели, будут статистически похожи на фактические данные, полученные природой).
Когда мы моделируем данные в рамках модели, последним шагом всегда будет рисование случайного числа в соответствии с некоторым смоделированным распределением вероятностей. Это ничьи, которые мы предполагаем независимыми друг от друга. Фактические данные, которые мы получаем, могут не выглядеть независимыми, потому что ковариаты или другие особенности модели могут указывать нам использовать разные распределения вероятностей для разных ничьих (или наборов ничьих). Но вся эта информация должна быть встроена в саму модель. Нам не разрешается, чтобы случайное окончательное число получалось в зависимости от того, какие значения мы нарисовали для других точек данных. Таким образом, события, которые должны быть независимыми, являются рулонами «кубиков природы» в контексте нашей модели.
Полезно ссылаться на эту ситуацию как на условную независимость , что означает, что точки данных не зависят друг от друга при заданных (т. Е. Обусловленных) ковариатах. В нашем примере роста мы предполагаем, что мой рост и рост моего брата, обусловленные моей семьей, не зависят друг от друга, а также не зависят от вашего роста и роста вашей сестры. зависимости от вашей семьи, Как только мы узнаем чью-то семью, мы узнаем, из какого нормального распределения выбрать симуляцию их роста, и жеребьевки для разных людей независимы независимо от их семьи (хотя наш выбор нормального распределения зависит от семьи). Также возможно, что даже после того, как мы разберемся со структурой семьи наших данных, мы все еще не добьемся хорошей условной независимости (возможно, это также важно для моделирования пола, например).
В конечном счете, имеет ли смысл предполагать, что условная независимость наблюдений является решением, которое должно приниматься в контексте конкретной модели. Вот почему, например, в линейной регрессии мы не проверяем, что данные поступают из нормального распределения, но мы проверяем, что ОСТАТКИ поступают из нормального распределения (и из того же нормального распределения по всему диапазону данные). Линейная регрессия предполагает, что после учета влияния ковариат (линии регрессии) данные независимо отбираются из нормального распределения в соответствии со строгим определением независимости в исходном посте.
В контексте вашего примера
«Учитель» в ваших данных может быть как «семья» в примере с ростом.
Последнее вращение на нем
Многие знакомые модели предполагают, что остатки возникают из нормального распределения. Представьте, что я дал вам некоторые данные, которые совершенно явно НЕ были нормальными. Может быть, вы сильно перекошены, или, может быть, они бимодальные. И я сказал вам «эти данные поступают из нормального распределения».
«Ни в коем случае, - говорите вы, - очевидно, что это не нормально!»
«Кто сказал, что данные нормальны?» Я говорю. «Я только сказал, что они приходят из нормального распределения».
"Один в том же!" ты говоришь. «Мы знаем, что гистограмма достаточно большой выборки из нормального распределения будет выглядеть примерно нормально!»
«Но, - говорю я, - я никогда не говорил, что данные были независимо взяты из нормального распределения. DO получаются из нормального распределения, но они не являются независимыми ничьями».
Предположение о (условной) независимости в статистическом моделировании служит для того, чтобы такие умные люди, как я, не игнорировали распределение остатков и неправильно применяли модель.
Две последние заметки
1) Термин «кости природы» изначально не мой, но, несмотря на обращение к нескольким ссылкам, я не могу понять, где я получил это в этом контексте.
2) Некоторые статистические модели (например, модели авторегрессии) не требуют независимости наблюдений таким способом. В частности, они позволяют распределению выборки для данного наблюдения зависеть не только от фиксированных ковариат, но и от данных, которые были до него.
источник