Что делать, если вы берете случайную выборку и видите, что она явно не репрезентативна, как в недавнем вопросе . Например, что, если предполагается, что распределение населения симметрично относительно 0, а выборка, которую вы выбираете случайным образом, имеет несбалансированные положительные и отрицательные наблюдения, а разбаланс является статистически значимым, что вас оставляет? Какие разумные утверждения вы можете сделать о населении на основе предвзятой выборки? Каков разумный порядок действий в такой ситуации? Имеет ли значение, когда в нашем исследовании мы замечаем этот дисбаланс?
sampling
experiment-design
inference
sample
Джоэл В.
источник
источник
Ответы:
Ответ дается MLS (использование выборки значения) только так хорошо , как предположения вы можете сделать о своих дистрибутивах. Основная сила парадигмы выборки с конечной совокупностью заключается в том, что она непараметрическая, поскольку она не делает никаких предположений о распределении данных, чтобы делать (действительные) выводы о параметрах конечной совокупности.
Подход к исправлению выборочных дисбалансов называется пост-стратификацией . Вам необходимо разбить выборку на непересекающиеся классы (после-страты), а затем повторно взвесить эти классы в соответствии с известными показателями численности населения. Если известно, что в вашей популяции медиана равна 0, вы можете пересчитать положительные и отрицательные наблюдения, чтобы их весовые пропорции стали 50-50: если у вас был неудачный SRS с 10 отрицательными наблюдениями и 20 положительными наблюдениями, вы бы дали отрицательные вес 15/10 = 1,5 и положительные 15/20 = 0,75.
Существуют более тонкие формы калибровки образца , в которых вы можете калибровать образец для удовлетворения более общих ограничений, таких как наличие среднего значения непрерывной переменной, равного конкретному значению. С ограничением симметрии довольно сложно работать, хотя это тоже может быть выполнимо. Может быть, у Жан Опсомера есть что-то по этому поводу : он проделал большую работу по оценке ядра для данных опроса.
источник
Я являюсь младшим членом здесь, но я бы сказал, что отбрасывать и начинать сначала - это всегда лучший ответ, если вы знаете, что ваша выборка значительно непредставительна, и если у вас есть представление о том, как возникла непредставительная выборка в первую очередь и как избежать этого, если это возможно во второй раз.
Что хорошего в том, чтобы пробовать второй раз, если вы, вероятно, окажетесь в одной лодке?
Если повторный сбор данных не имеет смысла или является чрезмерно дорогостоящим, вам придется работать с тем, что у вас есть, пытаясь компенсировать нерепрезентативность посредством стратификации, вменения, модного моделирования или чего-либо еще. Вы должны четко отметить, что вы получили компенсацию таким образом, почему вы считаете это необходимым и почему вы думаете, что это сработало. Затем проработайте неопределенность, возникшую из вашей компенсации, на протяжении всего анализа. (Это сделает ваши выводы менее определенными, верно?)
Если вы не можете этого сделать, вам нужно полностью отказаться от проекта.
источник
источник