Различение отсутствующих наугад (MAR) от отсутствующих наугад (MCAR)

13

Мне эти два объяснили несколько раз. Они продолжают готовить мой мозг. Пропустить не случайно имеет смысл быть, а Пропустить совершенно случайно имеет смысл ... это Пропадает случайно, что не так много.

Что дает данные, которые будут MAR, но не MCAR?

фомиты
источник
На ваш вопрос отвечает этот другой вопрос: есть ли веская причина для названия «Missing at Random»? , а ресурсы они перечисляют?
Энди W
3
@ AndyW Чтобы быть тупым, нет. Интересная дискуссия о том, почему название неверно, и статья, которая скрывается за подписной стеной.
Fomite

Ответы:

18

Случайное отсутствие (MAR) означает, что отсутствие может быть объяснено переменными, по которым у вас есть полная информация. Это не проверяемое предположение, но есть случаи, когда это разумно, а не нет.

Например, возьмите политические опросы. Многие люди отказываются отвечать. Если вы предполагаете, что причины, по которым люди отказываются отвечать, полностью основаны на демографии, и если у вас есть эти демографические данные по каждому человеку, то данные представляют собой MAR. Известно, что некоторые из причин, по которым люди отказываются отвечать, могут быть основаны на демографии (например, люди как с низким, так и с высоким доходом имеют меньше ответов, чем те, кто находится в середине), но на самом деле нет никакого способа узнать, если это это полное объяснение.

Таким образом, вопрос становится "достаточно ли он полон?" Часто такие методы , как множественные вменения работают лучше , чем другие методы, пока данные не очень пропущено не случайно.

Питер Флом - Восстановить Монику
источник
5
Журнал статистического программного обеспечения (онлайн) был недавно вопрос о множественном вменении, и я смотрел на больших тройках несколько пакетов вменения для R: Amelia, miи mice. Сходства и различия удивительны. ( Amelia«S over imputeдовольно интересно.)
Уэйн
1
Вот ссылка на проблему JSS: jstatsoft.org/v45
- Восстановить Монику
11

Я не уверен, что это правильно, но способ, которым я пытался это понять, состоит в том, что существует матрица возможностей 2х2, которая не совсем симметрична. Что-то вроде:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

То есть, если существует шаблон отсутствия переменной, и данные, которые мы не можем объяснить, у нас есть MNAR, но если данные, которые мы имеем (т.е. другие переменные в нашем наборе данных), могут объяснить это, мы имеем MAR. Если нет пропуска, это MCAR.

Я могу быть далеко отсюда. Кроме того, это оставляет открытым определение «Шаблон» и «Данные объясняет». Я думаю, что «Данные объясняют», как означающие, что другие переменные в вашем наборе данных объясняют это, но я полагаю, что ваша процедура также может объяснить это (например, хороший пример в другом потоке, если у вас есть три переменных измерения, которые измеряют одно и то же процедура состоит в том, что если первые два измерения слишком сильно расходятся, вы проводите третье измерение).

Достаточно ли это точно для интуиции, резюме?

Wayne
источник
-1

Я также изо всех сил пытался понять разницу, поэтому, возможно, некоторые примеры могли бы помочь.

MCAR : пропал совершенно случайно , это здорово. Это означает, что отсутствие ответа является абсолютно случайным. Таким образом, ваш опрос не является предвзятым.

МАР : Случайно пропал , хуже. Представьте, что вы спрашиваете IQ, и у вас гораздо больше женщин, чем мужчин. К счастью для вас, IQ не связан с полом, поэтому вы можете контролировать пол (применять взвешивание), чтобы уменьшить предвзятость.

МНАР : Не пропал случайно , плохо. Подумайте о проведении обследования уровня доходов. И снова, у вас больше женщин, чем мужчин. В этом случае это проблема, потому что уровень доходов связан с полом. Поэтому ваши результаты будут предвзятыми. Не легко избавиться от.

Видите ли, это «треугольная» связь между целевой переменной (Y, например, доход), вспомогательной переменной (X, например, возраст) и поведением ответа (R, группа ответа). Если X относится только к R, то добро (MAR). Если есть связь между X и R и X и Y, это плохо (MNAR).

HonzaB
источник