Модель выборки для краудсорсинга данных?

18

Я работаю над открытым приложением для обследования здоровья, которое планируется использовать в развивающихся странах.

Основная идея заключается в том, что собеседования проводятся краудсорсингом - они проводятся неорганизованными добровольцами, которые отправляют формы данных собеседований, которые они проводили, используя свои мобильные устройства, и каждое обследование сопровождается GPS-данными места проведения опроса.

Традиционные обследования, собираемые государственными органами, обычно проводятся с использованием некоторой стандартной модели выборки - обычно модели вероятностной выборки. Это требует много централизованного планирования, которое не всегда может быть выполнено. (упомянул это, чтобы поставить мой вопрос в правильном контексте)

Можно сказать, что волонтер проведет удобную выборку вокруг своего района. Он будет опрашивать произвольное количество людей, с которыми он может связаться.

Основная проблема заключается в следующем: как можно понять и охарактеризовать общую модель выборки этой геодезической системы? Существуют ли методологии или составленные модели для решения таких случаев?

Аль-Амжад Тауфик Иссаиф
источник

Ответы:

15

Краткий ответ: это образец для удобства. Вы ничего не можете сделать, чтобы оправдать это.

Несколько более длинный ответ: вы находитесь в одной лодке со многими социальными сетями, которые проводят свои внутренние опросы, не имея особого представления о том, кто будет отвечать на опрос из одного вопроса, который будет случайным образом появляться в Facebook или Google + ... за исключением того, что в отличие от этих гигантов, вы не Нет данных о тех, кто не ответил. Сообщество, занимающееся опросом и изучением общественного мнения, обычно не одобряет этот тип работы, поскольку не совсем понятно, как результаты этой сильно смещенной выборки могут быть обобщены для всего населения (если вообще). Вы можете попытаться сбросить вес в соответствии с известной демографией, но тогда вы получите вариацию веса от 1 для человека, который представляет себя только до 1 000 000, назначенного единственному мужчине в возрасте 70+, который знает, как пользоваться компьютером (и в любом случае, вероятно, не является представителем остальных 1 000 000 мужчин старше 70 лет).

Дополнительное чтение: «Как лгать со статистикой» открывается главой о предвзятых выборках. Если вы можете прочитать его и не оплакивать разочарование по поводу дизайна вашего образца, вы можете двигаться дальше. Если вы полагаетесь на добровольцев, ваша выборка будет ориентирована на молодежь и городское население с лучшим доступом к электронным гаджетам. Аналогичным образом, брошюра «Что такое опрос», составленная Фрицем Шойреном, бывшим президентом Американской статистической ассоциации, открывается картиной Гарри Трумэна, чья победа не могла быть предсказана пристрастными методами опроса, существовавшими в то время.

Есть некоторые исследования труднодоступных групп населения . Одним из известных проектов было исследование количества избыточных смертей в Ираке, где были отобраны географические районы, и в каждом районе местный врач попытался бы получить интервью от каждого домохозяйства в городском квартале. Эта конструкция была подвергнута критике, но как бы она ни была компрометирующей, в ней все же был компонент выборки. См. Статьи в Lancet (как вы, вероятно, знаете, вы не можете стать более престижным в медицинском мире) http://dx.doi.org/10.1016/S0140-6736(04)17441-2 и http: //dx.doi .org / 10.1016 / S0140-6736 (06) 69491-9 .

Stask
источник
(+1) Стас, есть ли здесь что-то принципиально отличное от выборки по квоте ? Просто любопытно, беглое прочтение вопроса делает его похожим на изменение терминологии. Кроме того, вкратце, каковы основные критические замечания по исследованию выборки кластеров в Ираке? Я помню, как видел это, когда он впервые вышел, и немного читал об этом.
кардинал
Я полагаю, одно отличие состоит в том, что на человека не существует квоты ...;)
кардинал
Большое спасибо! Теперь у меня хорошее понимание, прежде чем я переделываю идею!
Аль-Амжад Тауфик Иссаиф
Я думаю, что были проблемы с небольшим количеством кластеров, и один кластер закончился выбросом, где военная активность была намного выше, чем где-либо еще в стране. Для меня первое, на что стоит обратить внимание, это заявления AAPOR и ASA об исследовании. В то время как Ланцет может быть отличным медицинским журналом, а Джон Хопкинс, великий врач, нюхает авторитет AAPOR и отрицает их методологические документы, это было просто непрофессионально.
StasK