Как обобщить категориальные данные?

13

Я боролся со следующей проблемой, надеюсь, она проста для статистиков (я программист, немного знакомый со статистикой).

Мне нужно обобщить ответы на опрос (для руководства). В опросе содержится более 100 вопросов, сгруппированных по разным областям (от 5 до 10 вопросов на область). Все ответы являются категоричными (по порядковой шкале они похожи «совсем нет», «редко» ... «ежедневно или чаще»).

Руководство хотело бы получить сводку по каждой области, и это моя проблема: как объединить категориальные ответы в рамках соответствующего вопроса? , Вопросов слишком много, чтобы составить график или даже решетчатый график для каждой области. Я предпочитаю визуальный подход, если это возможно, по сравнению, скажем, с таблицами с числами (увы, они не будут их читать).

Единственное, что я могу придумать, - это подсчитать количество ответов в каждой области, а затем построить гистограмму.

Есть ли что-то еще доступное для категориальных данных?

Я использую R, но не уверен, что это актуально, я чувствую, что это скорее вопрос общей статистики.

wishihadabettername
источник
Как насчет PCA / FA? Вы бы сжимали коррелированные переменные в факторы и работали оттуда ...
Роман Луштрик
это может быть слишком много, если руководство спросит «как вы получили агрегированные цифры?» им понадобится более простая техника, чтобы они могли (чувствовать, что они) ее понимают. Увы, реальный мир :-( Спасибо, хотя.
wishihadabettername

Ответы:

10

Вам действительно нужно выяснить, на какой вопрос вы пытаетесь ответить или какой вопрос больше всего интересует руководство. Затем вы можете выбрать вопросы опроса, которые наиболее соответствуют вашей проблеме.

Не зная ничего о вашей проблеме или наборе данных, вот несколько общих решений:

  • Визуально представьте ответы в виде кластеров. Мой любимый способ - либо использовать дендрограммы, либо просто строить графики на оси xy (Google «кластерный анализ r» и перейти к первому результату по statmethods.net)
  • Ранжируйте вопросы от наибольших до «ежедневных или более частых» ответов. Это пример, который может работать не совсем для вас, но, возможно, он вдохновит вас http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • Crosstabs: если, например, у вас есть вопрос "Как часто вы опаздываете на работу?" и «Как часто вы используете Facebook?», сопоставив два вопроса, вы можете узнать процент людей, которые редко делают оба или каждый из них делают это каждый день. (Google «r частотные перекрестные таблицы» или перейдите на вышеупомянутый statmethods.net )
  • Кореллограмм. У меня нет никакого опыта с этим, но я видел это также на веб-сайте statmethods.net. В основном вы находите, какие вопросы имеют наибольшую корреляцию, а затем создаете таблицу. Вы можете найти это полезным, хотя это выглядит "занятым".
Димитрий Л
источник
Я отмечу это как ответ; Есть несколько хороших предложений, поэтому я подумаю, как их применить.
wishihadabettername
9

Есть хорошая статья о технике визуализации, которую вы могли бы использовать Michael Friendly:

(На самом деле, целая книга посвящена этому тому же автору.) Пакет vcd в R реализует многие из этих методов.

АРС
источник
проголосовал за ссылку на газету и книгу, я их
прочитаю
8

Стандартные опции включают в себя:

  • получение среднего значения для элементов в масштабе (например, если масштаб от 1 до 5, среднее будет от 1 до 5)
  • преобразование каждого элемента в двоичную меру (например, если item> = 3, затем 1, иначе 0) и затем получение среднего значения этого двоичного ответа

Учитывая, что вы агрегируете по элементам и большим группам людей в организации, оба вышеуказанных варианта (т. Е. Среднее от 1 до 5 или среднее процентное значение выше точки) будут надежными на организационном уровне ( см. Здесь для дальнейшее обсуждение ). Таким образом, любой из вышеперечисленных вариантов в основном передает одну и ту же информацию.

В общем, я не буду беспокоиться о том, что предметы являются категоричными. К тому времени, когда вы создадите шкалы путем агрегации по элементам, а затем агрегирования по выборке респондентов, шкала станет близким приближением к непрерывной шкале.

Руководство может найти одну метрику легче интерпретировать. Когда я получаю баллы за качество преподавания (т.е. средний балл удовлетворенности учащихся, скажем, 100 учеников), это среднее значение по шкале от 1 до 5, и это нормально. Спустя годы после просмотра моих собственных баллов из года в год, а также просмотра некоторых норм для университета, я разработал систему координат того, что означают разные ценности. Однако руководство иногда предпочитает думать о проценте одобрения заявления или о проценте положительных ответов, даже если в некотором смысле это средний процент.

Основная задача состоит в том, чтобы дать какую-то ощутимую систему отсчета для оценок. Руководство захочет узнать, что на самом деле означают цифры . Например, если средний ответ по шкале равен 4,2, что это значит? Это хорошо? Это плохо? Это просто хорошо?

Если вы используете опрос в течение нескольких лет или в разных организациях, тогда вы можете начать разрабатывать некоторые нормы. Доступ к нормам является одной из причин, по которой организации часто обращаются к стороннему поставщику опросов или используют стандартный опрос.

Возможно, вы также захотите выполнить факторный анализ, чтобы проверить, что присвоение элементов шкалам является эмпирически оправданным.

С точки зрения визуального подхода, вы можете иметь простую линейную или гистограмму с типом шкалы на оси X и счетом на оси Y. Если у вас есть нормативные данные, вы также можете добавить это.

Джером англим
источник
1

Да. Я считаю, что кластеризация является очень эффективным подходом к сокращению данных для сокращения данных обследований как для понимания, так и для представления руководства.

Анализ латентного класса (трактовка шкал ответов как порядковый) или k-средних (трактовка их как непрерывных) можно рассматривать как форму сжатия информации . Классификация респондентов по их наиболее вероятному сегменту обычно дает категориальную переменную, которая имеет интуитивно понятные объяснения при представлении в терминах ответов.

Затем вы можете назвать сегменты и использовать эти переменные для анализа и представления сводного уровня.

Установите кластер для групп связанных элементов (например, ниже) или, возможно, все вместе.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Я часто использую LatentGold, но считаю, что FASTCLUS в SAS - это хороший способ.

Прежде чем сделать это, вы хотите, чтобы рассмотреть вопрос о корректировке ответов каждого отдельного человека для их использования шкалы (спорной, но прагматичной). Некоторые люди просто опираются на один конец шкалы, избегая отрицательного или положительного. Кластеризация необработанных ответов обычно имеет тенденцию разделять людей по такому поведению.

Стандартизация ответов каждого респондента к их собственному среднему значению и кластеризация на них часто выявляют переменные, которые движутся вместе очень интересными способами.

опытный образец
источник