Опросы: Является ли 25% крупного представителя базы пользователей?

13

Мой работодатель в настоящее время проводит общекорпоративный опрос об отношении к офису, т.е. о настроениях. В прошлом они открывали опрос для всех областей бизнеса (допустим, 10 очень разных отделов) и всех сотрудников в них (в общей сложности 1000 сотрудников во всей компании). Количество сотрудников в каждом отделе не равно и одно конкретный отдел, вероятно, составляет 50% от общей численности населения организации.

В этом году опрос открывается только для 25% от общей базы сотрудников, и выбор «случайный»

Следовательно, у меня есть два запроса:

  • Если это действительно случайный выбор всей базы сотрудников, как это статистически достоверная выборка, предполагающая, что все эти сотрудники ответили?

  • Если это случайно на уровне каждого отдела, например, 25% каждого отдела, то как получается, что допустимая выборка с учетом одного отдела составляет более 50% от общей численности населения.

Я бы предположил, что для определения настроения большинства в компании потребуется не менее 50% базы сотрудников в каждом отделе, чтобы обеспечить истинное чувство чтения.

Обновление : опрос не проводится. Не может быть никакой гарантии 100% ответа от 25% выбранных. Нет никаких стимулов или карательных мер, если опрос заполнен или не заполнен.

Colin
источник
2
Я бы посоветовал сделать опрос настолько малым (количество / тип вопросов), насколько это необходимо, а затем сделать его обязательным для тех немногих, кто вам нужен, чтобы сотрудники / менеджеры не жаловались, что это гигантская трата времени. Если люди выбирают сами, это гарантирует систематический уклон в той или иной форме.
Ник Т
Если вы измеряете среднее значение некоторой переменной, которая обычно распределяется, то после примерно 20 ответов размер вашего +/- интервала будет расти примерно со скоростью 1/sqrt(# responses). Например, с 20 ответами у вас будет +/- .468 * sigma. Со 100 ответами это будет +/- .198 * sigma. С 1000 ответов это будет +/- .062 * sigma.
Пейс

Ответы:

22

Подумайте об опросах населения в целом, скажем, в США. Если нам нужно, чтобы 50% населения определили мнение большинства, нам понадобится выборка из 160 миллионов человек, что является по-настоящему запретительным. Даже 1% выборка является экстремальной (около 3,2 миллиона), и это делается редко. Важное исследование в США - «Общее социальное исследование» - включает выборки от 1500 до почти 3000 человек. Таким образом, 25% выборка сама по себе не проблема.

Помните, что опрос не является выборами или референдумом. Для того, чтобы последние были законными, каждый отвечающий требованиям человек должен иметь возможность высказать свое мнение. Для опроса цель состоит в том, чтобы получить хорошую оценку среднего мнения, и вы можете получить ее с помощью случайной выборки. Таким образом, компания должна решить, какова цель опроса: это способ для сотрудников высказать свое мнение и участие в компании, или это способ для менеджеров получить информацию?

Обе схемы выборки гарантируют, что 25% сотрудников будут опрошены. Последнее гарантирует, что меньший отдел представлен в опросе. Если вам небезразличны стандартные ошибки, вы должны принять во внимание вложенный характер выборки, хотя я не подозреваю, что в этом случае это будет иметь большое значение.

Мартен Буис
источник
2
+1, но стоит подчеркнуть, что если вас не интересует «среднее мнение», а что-то еще, то могут потребоваться более крупные выборки.
Тим
1
Спасибо за ответ. Тем не менее, и это было мое упущение, нет никакого контроля за проведением обследования. Только 25% будут заданы вопросы, но они не обязаны отвечать.
Колин
2
Это тоже нормально. Если бы я проводил опрос, было бы трудно заставить людей отвечать либо. Я мог бы попытаться нанять нескольких головорезов, чтобы «убедить» своих респондентов, но это имело бы некоторые этические и правовые последствия ... Тем не менее, отсутствие ответов является проблемой, но это проблема, с которой приходится сталкиваться большинству опросов.
Мартен Буис
7

По этимологии « обзор » ( sur-из «супер», как в «сверху» и -veyиз «вида») означает получение общего обзора , а не полной картины.

До тех пор, пока 25% были действительно случайными, а не то есть самостоятельно выбранными (opt-in), тогда это вполне соответствует определению термина. Если опрос не является обязательным, то ответы будут репрезентативными только для тех, кто чувствует необходимость в ответе. Например, представьте ресторан, в котором после обеда можно заполнить карточку обратной связи. Даже если большинство посетителей довольны, большая часть отзывов будет отрицательной, потому что счастливые клиенты не видят оснований давать отзывы.

dotancohen
источник
1
Не могли бы вы рассказать о влиянии «самостоятельного выбора»? Этот опрос не является обязательным, он является полностью необязательным, и нет никаких побудительных или карательных мер, если вы его заполняете или не заполняете. Я обновлю свой первый вопрос.
Колин
6
@Colin: Если опрос не является обязательным, то ответы будут репрезентативными только для тех, кто чувствует необходимость в ответе. Например, представьте ресторан, в котором после обеда можно заполнить карточку обратной связи. Даже если большинство посетителей довольны, большая часть отзывов будет отрицательной, потому что счастливые клиенты не видят оснований давать отзывы.
dotancohen
1
@ Dotancohen Я думаю, что ответ будет очень полезным, если этот комментарий будет включен в него.
Пере
@Pere: Спасибо, я волновался, что вставка комментария в ответ может отвлечь от этимологической точки зрения. Но вы правы, и я добавляю это.
dotancohen
4

Другая точка зрения исходит из теории дизайна эксперимента.

Статистическая мощность - это вероятность найти эффект, если он реальный ( источник )

На мощность влияют четыре фактора:

  1. Размер эффекта
  2. Стандартное отклонение характеристики
  3. Большой размер выборки
  4. Желаемый уровень значимости

Основываясь на этих элементах, вы можете написать формальное математическое уравнение, которое связывает мощность, размер выборки, размер эффекта, стандартное отклонение и уровень значимости ( источник )

Исходя из ряда предположений , вы можете охарактеризовать опрос как эксперимент и подключиться к дизайну структуры эксперимента ( здесь есть пара примеров). Существует целый ряд образованных догадок; Однако несовершенная модель может быть лучше, чем вообще никакой модели.

IcannotFixThis
источник
3

Я чувствую два вопроса. Один о размере выборки (25%, почему не большинство), а другой о методе выборки (действительно ли она случайная, выборочная выборка 25% по всей компании, выборочная выборка 25% в каждом отделе или использование какого-либо другого распределения).

1) Размер выборки не должен быть большинством. Требуемый размер выборки может составлять от 0 до 100% в зависимости от требуемой точности для данного доверительного или правдоподобного отношения.

100% -ная уверенность никогда не достигается (также не с подмножеством 50% или более). Достижение такой высокой точности также не является целью отбора проб и оценки.

Подробнее о размерах образцов: https://en.wikipedia.org/wiki/Sample_size_determination

Если вы получаете закон больших чисел, у вас также может быть интуитивное представление.

Распределение средних значений всех возможных подмножеств (и ваша выборка будет одним из них) станет меньше и приблизится к среднему значению исходного распределения, если размер подмножества увеличится. Если вы выберете одного человека, тогда есть некоторый разумный шанс найти исключение, но найти одно и то же исключение в одном и том же направлении дважды становится менее вероятным. И так далее, чем больше размер выборочного подмножества, тем меньше вероятность исключительного подмножества.

В конечном итоге распределение средних значений всех возможных подмножеств имеет дисперсию, равную дисперсии исходного набора, деленной на N размер подмножества.

Важная заметка! Ваша оценка будет зависеть не от размера популяции, из которой вы выбираете, а от распределения этой популяции.

В случае вашего отдела 500 размера. Отклонение от средних значений случайных подмножеств (размером 125) будет в 11 раз меньше исходного отклонения. Обратите внимание, что ошибка в измерении (отклонение от среднего значения случайно выбранных подмножеств) не зависит от размера отдела. Это может быть 500, 5000 или 50000, во всех случаях оценка не будет затронута, если они имеют одинаковое распределение (теперь крошечный отдел может иметь какое-то странное распределение, но оно начинает исчезать для больших групп).

2) Выборка не должна быть полностью случайной. Вы можете принять во внимание демографию.

В конечном итоге вы будете рассматривать каждый отдел отдельно в этом виде анализа и исправлять различия между отделами и то, как вы выбрали в этих отделах разного размера.

В этом исправлении есть два важных различия. Можно предположить, что распределение по группам является случайной величиной или нет. Если вы рассматриваете это как случайную переменную, тогда анализ становится более сильным (исключая некоторые степени свободы в модели), но это может быть ошибочным предположением, если различные группы не могут быть обменены как случайные объекты без какого-либо конкретного эффекта (который, кажется, в вашем случае, поскольку я полагаю, что департаменты имеют разные функции и могут иметь совершенно разные чувства, что не случайно по отношению к департаменту).

Секст Эмпирик
источник
1
Спасибо за ответ. Тем не менее, и это было мое упущение, нет никакого контроля за проведением обследования. Только 25% будут заданы вопросы, но они не обязаны отвечать.
Колин
1
Затем возникает дополнительный третий вопрос о методах отбора проб и о том, как собираются данные. Для таких проблем, как справиться с отсутствием ответа и другими качественными аспектами данных, нет единого ответа. В любом случае (с запросом 50% или 25%), если есть большая проблема с ответом, тогда любое обсуждение статистического анализа имеет второстепенное значение. Вы не улучшите это исследование намного с большим количеством (например, задавая> 50%) выборки, и лучше сосредоточиться на хорошей выборке.
Секст Эмпирик
2

Ваш вопрос о размере выборки для конечной популяции. Но первое, что вам нужно, это размер выборки, требуемый для бесконечной совокупности, который затем можно использовать для расчета размера выборки для конечной совокупности.

При опросе бесконечной популяции формула имеет вид: Nзнак равно(Z2пQ)/d2
N, размер образца
Z2уровень доверия, обычно 1,96
п, доля населения с характеристикой, если неизвестно использовать 0,5
Qзнак равно1-пдоля населения без характеристики
d2, уровень ошибки (или предел погрешности), обычно 3%, но можно использовать 1% или 5%.

Уровень ошибок становится наиболее важным фактором, поскольку чем ниже уровень ошибок, тем больше требуемый размер выборки и наоборот. Следовательно, размер выборки для бесконечной популяции с ошибкой 3%:(1,96×0,5×0,5)/0.032знак равно1,068, Кроме того, уровень ошибки означает, что в этом случае результаты имеют ошибку +/- 3%. Это означает, что если 48% опрошенных были мужчинами, то возможный диапазон составляет 48% +/- 3% или от 45% до 51%.

Следующим шагом является формула для размера выборки для конечной популяции: мзнак равноN/(1+((N-1)/N))
мразмер выборки для конечной популяции
N, размер выборки для бесконечной популяции (1068 сверху)
N, конечная численность населения

Используя пример Nзнак равно1,000требуемый размер выборки с ошибкой 3% 1068/(1+((1068-1)/1000))знак равно517или 51,7% населения.

Если вы использовали 25% населения, уровень ошибок составляет 5,4%. Этот уровень ошибки может быть хорошим на основе предыдущих опросов. В опросах всегда существует компромисс между уровнем ошибки, который вы готовы принять, и затратами на проведение исследования.

Ни один из этих факторов не влияет на частоту ответов (если используется простая случайная выборка). Чтобы выяснить, сколько людей нужно связаться, вы делите размер выборки на ожидаемую частоту ответов. Например, если предыдущий коэффициент ответов составлял 65%, вам необходимо отправить инструмент опроса на517/0,65знак равно+796 люди.

Все становится более сложным, если вы хотите разделить население по отделам (так называемая стратификация). По сути, вам нужно рассматривать каждый отдел как отдельную конечную совокупность, если вы хотите, чтобы данные были точными для каждого отдела, что может быть непрактично. Но вы могли бы сделать стратифицированную случайную выборку вместо простой случайной выборки, где 50% выборки выбирается случайным образом из отдела с 50% населения, а подходящий процент выбирается случайным образом из других отделов. Это будет означать, что размер вашей выборки немного увеличится, потому что вам нужно округлить все десятичные разряды (вы не можете опросить 0,1 человека). Тем не менее, результаты должны быть изучены на уровне населения (компании), а не на уровне отдела, потому что будет недостаточно ответов от каждого отдела, чтобы быть точным.

ЕКМ
источник
1

Говоря о действительном образце, базовое понятие обычно является представлением. Является ли выборка «адекватно» представленной популяцией? Чтобы получить репрезентативную выборку, необходимо убедиться, что размер выборки является адекватным (чтобы уменьшить дисперсию оценки), и что выборка содержит членов, принадлежащих к подмножествам совокупности, демонстрирующих различные типы поведения на рассмотрении.

Во-первых, доля пользователей, выбранных для опроса, имеет меньшее значение по сравнению с абсолютным числом выбранных пользователей. Требуемый размер выборки будет зависеть от требования точности или доверительного интервала в данном ответе. Вы можете прочитать эту статью для получения дополнительной информации.

Вы упоминаете, что компания состоит из нескольких отделов. Возможно ли, что департаменты по-разному реагируют на опрос? Если они это сделают (или, может быть, вы не знаете наверняка), было бы неплохо «рассортировать» ваш образец по департаментам. В простейшей форме это означает, что нужно выбирать равную долю людей из каждого отдела. Например: размер компании составляет 1000, а размер выборки - 100. Затем вы должны выбрать 50 из отдела размером 500, 10 из отдела размера 100 и т. Д. Это позволит избежать недопредставленности конкретного отдела в любой конкретный «случайный» образец.

Вы также упоминаете, что не каждый может ответить на опрос. Если вы знаете, что примерно половина респондентов ответит, то для того, чтобы получить 100 ответов, вам нужно будет отправить опрос 200 людям. Вы должны будете рассмотреть возможность того, что такие ответы могут быть предвзятыми. Люди с определенным ответом могут быть более или менее склонны отвечать.

Рагу
источник
1

Если это действительно случайный выбор всей базы сотрудников , как это статистически достоверная выборка, предполагающая, что все эти сотрудники ответили?

Это действительный образец, если он взят из совокупности, которую он должен описать. То есть, если вы выбираете только боссов, ничего не скажешь о других сотрудниках; это не произойдет в настройках, которые вы описали. Однако это может произойти из-за отсутствия ответа (подробнее об этом ниже).

Если это случайно на уровне каждого отдела, например, 25% каждого отдела, то как получается, что допустимая выборка с учетом одного отдела составляет более 50% от общей численности населения.

Это уже не вопрос достоверности выборки, а вопрос ошибки выборки. Очевидно, что наиболее точные оценки были бы получены из стратифицированной случайной выборки, в которую входит, по крайней мере, уровень отдела. В такой ситуации у вас будет действительная выборка для каждого отдела, но оценки для небольших отделов будут, как правило, менее точными, чем оценки для крупных отделов, благодаря более высокому абсолютному размеру выборки для последнего. Для всей организации более высокое представление выборки в более крупных отделах просто отражает реальность организации и никоим образом не снижает достоверность выборки.

Опрос не проводится. Не может быть никакой гарантии 100% ответа от 25% выбранных. Нет никаких стимулов или карательных мер, если опрос заполнен или не заполнен.

Вы не сможете заставить никого дать хороший ответ, но реализация плана напоминания об ответе - это минимум. Кроме того, вы должны объяснить значимость опроса для сотрудников и их влияние, которое они могут оказать на организацию благодаря опросу: например, когда публикуются результаты? Каковы потенциальные действия, предпринятые организацией на основе опроса? почему каждый ответ имеет значение?

Как только данные собраны, отсутствие ответа является проблемой, с которой необходимо разобраться. Работа с ним означает, что вы должны сначала проанализировать поведение без ответа, чтобы обнаружить возможные паттерны: ни один босс не ответил? Разве данный отдел не ответил вообще? Затем примите необходимую стратегию (пост-стратификация, взвешивание, вменение и т. Д.).

g3o2
источник
1

Я расширяю ответ @ICannotFixThis с примером того, как четыре фактора имеют значение:

  1. Размер эффекта
  2. Стандартное отклонение характеристики
  3. Большой размер выборки
  4. Желаемый уровень значимости

То, как эти факторы влияют на ваши результаты, будет зависеть от статистики, которую вы используете. Например, если вы хотите угадать среднее значение некоторой переменной, вы можете использовать T-критерий Стьюдента .

Давайте предположим, что вы хотите определить средний рост ваших сотрудников с помощью этого опроса. На самом деле вы не знаете стандартное отклонение роста всех сотрудников в вашей компании (без измерения всех), но вы могли бы провести некоторое исследование и угадать 3 дюйма (это примерно стандартное отклонение роста для мужчин в США).

Если вы опросили только 5 человек, то в 95% случаев средняя высота, которую вы наблюдаете в своем опросе, будет в пределах 3,72 дюйма от истинной средней высоты.

Теперь, как наши факторы влияют на это:

  1. Если вам нужно знать среднюю высоту очень точно (например, размер эффекта очень мал), вам понадобится большое количество выборок. Например, чтобы узнать истинную среднюю высоту в пределах 2,66 дюйма, вам необходимо опросить 100 человек.

  2. Если стандартное отклонение велико, то точность, которую вы можете получить, будет ограничена. Если бы стандартное отклонение составляло 6 дюймов вместо 3 дюймов, а у вас все еще было 5 ответов, вы бы знали только в пределах 7,44 дюймов вместо 3,72 дюймов истинной средней высоты.

  3. Пропуск этого пункта, так как он является центром всей дискуссии.

  4. Если вам действительно нужно быть уверенным, что у вас есть правильный ответ, вам нужно будет опросить больше людей. В нашем примере мы увидели, что с 5 ответами мы можем получить в 3,72 дюйма 95% времени. Если мы хотим быть уверены, что наш ответ был в правильном диапазоне 99% времени, тогда наш диапазон будет 6,17 дюйма, а не 3,72 дюйма.

аллюр
источник