Я боролся со следующей проблемой, надеюсь, она проста для статистиков (я программист, немного знакомый со статистикой).
Мне нужно обобщить ответы на опрос (для руководства). В опросе содержится более 100 вопросов, сгруппированных по разным областям (от 5 до 10 вопросов на область). Все ответы являются категоричными (по порядковой шкале они похожи «совсем нет», «редко» ... «ежедневно или чаще»).
Руководство хотело бы получить сводку по каждой области, и это моя проблема: как объединить категориальные ответы в рамках соответствующего вопроса? , Вопросов слишком много, чтобы составить график или даже решетчатый график для каждой области. Я предпочитаю визуальный подход, если это возможно, по сравнению, скажем, с таблицами с числами (увы, они не будут их читать).
Единственное, что я могу придумать, - это подсчитать количество ответов в каждой области, а затем построить гистограмму.
Есть ли что-то еще доступное для категориальных данных?
Я использую R, но не уверен, что это актуально, я чувствую, что это скорее вопрос общей статистики.
источник
Ответы:
Вам действительно нужно выяснить, на какой вопрос вы пытаетесь ответить или какой вопрос больше всего интересует руководство. Затем вы можете выбрать вопросы опроса, которые наиболее соответствуют вашей проблеме.
Не зная ничего о вашей проблеме или наборе данных, вот несколько общих решений:
источник
Есть хорошая статья о технике визуализации, которую вы могли бы использовать Michael Friendly:
(На самом деле, целая книга посвящена этому тому же автору.) Пакет vcd в R реализует многие из этих методов.
источник
Стандартные опции включают в себя:
Учитывая, что вы агрегируете по элементам и большим группам людей в организации, оба вышеуказанных варианта (т. Е. Среднее от 1 до 5 или среднее процентное значение выше точки) будут надежными на организационном уровне ( см. Здесь для дальнейшее обсуждение ). Таким образом, любой из вышеперечисленных вариантов в основном передает одну и ту же информацию.
В общем, я не буду беспокоиться о том, что предметы являются категоричными. К тому времени, когда вы создадите шкалы путем агрегации по элементам, а затем агрегирования по выборке респондентов, шкала станет близким приближением к непрерывной шкале.
Руководство может найти одну метрику легче интерпретировать. Когда я получаю баллы за качество преподавания (т.е. средний балл удовлетворенности учащихся, скажем, 100 учеников), это среднее значение по шкале от 1 до 5, и это нормально. Спустя годы после просмотра моих собственных баллов из года в год, а также просмотра некоторых норм для университета, я разработал систему координат того, что означают разные ценности. Однако руководство иногда предпочитает думать о проценте одобрения заявления или о проценте положительных ответов, даже если в некотором смысле это средний процент.
Основная задача состоит в том, чтобы дать какую-то ощутимую систему отсчета для оценок. Руководство захочет узнать, что на самом деле означают цифры . Например, если средний ответ по шкале равен 4,2, что это значит? Это хорошо? Это плохо? Это просто хорошо?
Если вы используете опрос в течение нескольких лет или в разных организациях, тогда вы можете начать разрабатывать некоторые нормы. Доступ к нормам является одной из причин, по которой организации часто обращаются к стороннему поставщику опросов или используют стандартный опрос.
Возможно, вы также захотите выполнить факторный анализ, чтобы проверить, что присвоение элементов шкалам является эмпирически оправданным.
С точки зрения визуального подхода, вы можете иметь простую линейную или гистограмму с типом шкалы на оси X и счетом на оси Y. Если у вас есть нормативные данные, вы также можете добавить это.
источник
Да. Я считаю, что кластеризация является очень эффективным подходом к сокращению данных для сокращения данных обследований как для понимания, так и для представления руководства.
Анализ латентного класса (трактовка шкал ответов как порядковый) или k-средних (трактовка их как непрерывных) можно рассматривать как форму сжатия информации . Классификация респондентов по их наиболее вероятному сегменту обычно дает категориальную переменную, которая имеет интуитивно понятные объяснения при представлении в терминах ответов.
Затем вы можете назвать сегменты и использовать эти переменные для анализа и представления сводного уровня.
Установите кластер для групп связанных элементов (например, ниже) или, возможно, все вместе.
Я часто использую LatentGold, но считаю, что FASTCLUS в SAS - это хороший способ.
Прежде чем сделать это, вы хотите, чтобы рассмотреть вопрос о корректировке ответов каждого отдельного человека для их использования шкалы (спорной, но прагматичной). Некоторые люди просто опираются на один конец шкалы, избегая отрицательного или положительного. Кластеризация необработанных ответов обычно имеет тенденцию разделять людей по такому поведению.
Стандартизация ответов каждого респондента к их собственному среднему значению и кластеризация на них часто выявляют переменные, которые движутся вместе очень интересными способами.
источник