Какую сводную статистику использовать с категориальными или качественными переменными?

18

Просто чтобы уточнить, когда я имею в виду сводную статистику, я имею в виду среднее значение, диапазоны среднего квартиля, дисперсию, стандартное отклонение.

Имеет ли смысл найти среднее значение, медиану, квартильный диапазон, дисперсию и стандартное отклонение при суммировании одномерного, категориального или качественного , с учетом как номинального, так и ординального случаев?

Если да, то отличается ли это от того, что вы суммировали непрерывную переменную и как?

chutsu
источник
2
Я почти не вижу разницы между категориальной и качественной переменной, кроме одной терминологии. В любом случае, было бы очень сложно вычислить что-либо вроде среднего значения или SD по номинальной переменной (например, цвет волос). Может быть, вы думаете о категориальных переменных с упорядоченными уровнями?
ЧЛ
Нет, если у категориальных данных есть порядок или ранжированные уровни, они, как говорят, являются Порядковыми согласно этому веб-сайту: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] , и они говорят: «Вы можете считать и порядок, но не мера, порядковые данные "
чуцу
Но я не прав?
Чуцу

Ответы:

8

В общем, ответ - нет. Тем не менее, можно утверждать, что вы можете взять медиану порядковых данных, но вы, конечно, будете иметь медиану, а не число. Медиана делит данные поровну: половина сверху, половина снизу. Порядковые данные зависят только от заказа.

Кроме того, в некоторых случаях порядковый номер может быть преобразован в приблизительные данные уровня интервала. Это верно, когда порядковые данные группируются (например, вопросы о доходах часто задаются таким образом). В этом случае вы можете найти точную медиану и, возможно, сможете аппроксимировать другие значения, особенно если указаны нижняя и верхняя границы: вы можете предположить некоторое распределение (например, равномерное) в каждой категории. Другой случай порядковых данных, которые могут быть сделаны интервалом, - это когда значениям присваиваются числовые эквиваленты. Например: Никогда (0%), иногда (10-30%), примерно в половине случаев (50%) и так далее.

Чтобы (еще раз) процитировать Дэвида Кокса:

Там нет рутинных статистических вопросов, только сомнительные статистические процедуры

Питер Флом - Восстановить Монику
источник
1
Вы предоставляете хорошую сопутствующую информацию, но я думаю, что в ответ на вопрос ЧЛ ОП пояснил, что он говорит о категориальных данных, которые не являются порядковыми. Таким образом, ваш ответ на самом деле не является ответом, но я не тот, кто дал бы отрицательный ответ. Но я думаю, что вы должны изменить его на комментарий.
Майкл Р. Черник
1
Нет, я не буду принижать ответ, так как думаю, что он добавил некоторую ценность моему ограниченному пониманию. Я должен был четко указать в своем описании, что я рассматриваю статистику как Порядкового, так и Номинального Сводного, поэтому вина моя.
Чуцу
5

Как уже упоминалось, средние значения, SD и точки петли не имеют значения для категориальных данных. Точки шарниров (например, медиана и квартили) могут иметь значение для порядковых данных. Ваш заголовок также спрашивает, какую сводную статистику следует использовать для описания категориальных данных. Стандартно классифицировать категориальные данные по количеству и процентам. (Вы также можете включить 95% доверительный интервал в процентах.) Например, если ваши данные были:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Вы можете суммировать их так:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)
Gung - Восстановить Монику
источник
3

Если у вас есть номинальные переменные, то нет функции упорядочения или расстояния. Итак, как вы можете определить какую-либо сводную статистику, которую вы упомянули? Я не думаю, что ты можешь. Для квартилей и дальности, по крайней мере, требуется порядок, а для средних и дисперсий требуются числовые данные. Я думаю, что гистограммы и круговые диаграммы являются типичными примерами правильных способов суммирования качественных переменных, которые не являются порядковыми.

Майкл Р. Черник
источник
3
@PeterFlom Я не хотел перечислять все возможные графические процедуры для обобщения качественных данных. Я действительно хочу подчеркнуть, что можно сравнивать пропорции и то, как пропорции распределяются по категориям. Для визуального распознавания различий в пропорциях я думаю, что гистограммы легче визуализировать, чем круговые диаграммы, но это всего лишь два популярных способа суммирования категориальных данных. Я не хочу сказать, что они лучшие, так как я не знаком со всеми доступными методами.
Майкл Р. Черник
7
Они, безусловно, популярны! Но я думаю, что наша обязанность, как экспертов в этой области, сделать круговые диаграммы менее популярными.
Питер Флом - Восстановить Монику
3
Кливленд показал, во-первых, что люди хуже воспринимают угловые измерения, чем линейное расстояние. Во-вторых, изменение цвета на круговой диаграмме изменило восприятие людьми размера срезов. В-третьих, вращение круговой диаграммы изменило представление людей о размере срезов. В-четвертых, у людей были проблемы с заказом ломтиков от самых больших до самых маленьких, если они не были очень разных размеров. Точки Кливленда избегают всего этого.
Питер Флом - Восстановить Монику
6
@Michael "Таблица почти всегда лучше, чем тупая круговая диаграмма; только несколько из них хуже, чем круговая диаграмма ... круговые диаграммы никогда не должны использоваться." - Tufte. «Данные, которые могут быть показаны круговыми диаграммами, всегда могут быть показаны точечной диаграммой ... ... в 1920-х годах на страницах JASA разгорелась битва об относительных достоинствах круговых диаграмм и разделенных гистограмм ... оба лагеря проиграли, потому что другие графики работают намного лучше, чем разделенные гистограммы или круговые диаграммы. "- Кливленд. Как вы знаете, Кливленд не является предписывающим: он настолько силен, насколько он в чем-либо справляется.
whuber
6
Кстати, @Michael, я согласен с вами и с аргументами, которые вы приводите в этой теме (которые я нахожу убедительными и хорошо изложенными), но как модератор я должен выразить серьезные возражения, высказанные членами сообщества в отношении «тона голоса» вы принимаете. Пожалуйста, следуйте этикету сайта: придерживайтесь темы и не нападайте на других. Даже не пишите вещи, которые могут звучать как атака, даже в шутку. Конечно, одно и то же предостережение распространяется на всех.
whuber
2

Режим все еще работает! Разве это не важная сводная статистика? (Какая самая распространенная категория?) Я думаю, что среднее предложение не имеет большого значения или не имеет значения в качестве статистики, но режим имеет.

Также подсчитать отличное было бы ценно. (Сколько у вас категорий?)

Вы можете создавать коэффициенты, например (наиболее распространенная категория) / (наименее распространенная категория) или (№ 1 наиболее распространенная категория) / (№ 2 наиболее распространенная категория). Также (самая распространенная категория) / (все остальные категории), как правило 80/20.

Вы также можете присваивать номера своим категориям и сходить с ума со всей обычной статистикой. AA = 1, Hisp = 2 и т. Д. Теперь вы можете вычислить среднее значение, медиану, режим, SD и т. Д.

Maddenker
источник
0

Я ценю другие ответы, но мне кажется, что некоторый топологический фон дал бы столь необходимую структуру ответов.

Определения

Начнем с определения доменов:

  • Категориальная переменная - это та, чья область содержит элементы, но между ними нет никакой известной связи (таким образом, у нас есть только категории). Примеры зависят от контекста, но я бы сказал, что в общем случае трудно сравнивать дни недели: с понедельника до воскресенья, если да, то как насчет следующего понедельника? Возможно, более простым, но менее используемым примером являются предметы одежды: без предоставления некоторого контекста, который имел бы смысл порядка, трудно сказать, идут ли брюки перед джемперами или наоборот.

  • Порядковая переменная - это переменная, которая имеет общий порядок, определенный для домена, то есть для каждых двух элементов домена мы можем сказать, что они либо идентичны, либо один больше другого. Лайкерт масштаб является хорошим примером определения порядкового переменным. «несколько согласен» определенно ближе к «полностью согласен», чем «не согласен».

  • Переменная- интервал - это единица, область которой определяет расстояния между элементами ( метрика ), что позволяет нам определять интервалы.

Примеры доменов

В качестве наиболее распространенного набора, который мы используем, натуральные и действительные числа имеют стандартный общий порядок и метрики. Вот почему мы должны быть осторожны, когда мы присваиваем номера нашим категориям. Если мы не будем внимательны к пренебрежению порядком и расстоянием, мы практически преобразуем наши категориальные данные в интервальные данные. Когда кто-то использует алгоритм машинного обучения, не зная, как он работает, он рискует сделать такие предположения неохотно, что может лишить законной силы собственные результаты. Например, большинство популярных алгоритмов глубокого обучения работают с действительными числами, используя их интервальные и непрерывные свойства. Другой пример, вспомним 5-балльные шкалы Лайкерта и то, как анализ, который мы применяем к ним, предполагает, что расстояние между полностью согласен и согласенто же самое, что . Трудно обосновать такие отношения.не согласен и не согласен или не согласен

Другой набор, с которым мы часто работаем, это строки . Есть ряд метрик сходства строк которые могут пригодиться при работе со строками. Однако это не всегда полезно. Например, для адресов улица Джон Смит-стрит и Джон Смит-роуд довольно близки с точки зрения сходства строк, но, очевидно, представляют две разные сущности, которые могут находиться на расстоянии нескольких миль друг от друга.

Сводные статистические данные

Хорошо, теперь давайте посмотрим, как подойдет некоторая сводная статистика. Поскольку статистика работает с числами, ее функции хорошо определены через интервалы. Но давайте посмотрим примеры того, можем ли мы как-то обобщить их для категориальных или порядковых данных:

  • режим - и при работе с категориальными и порядковыми данными, мы можем сказать, какой элемент наиболее часто используется. Итак, у нас есть это. Затем мы также можем получить все другие показатели, которые @Maddenker перечисляет в своем ответе. доверительный интервал @ gung также может быть полезным.
  • медиана - как говорит @ peter-flom, пока у вас есть заказ, вы можете получить медиану.
  • среднее значение , но также стандартное отклонение, процентили и т. д. - вы получаете их только с данными интервала, из-за необходимости в метрике расстояния.

Пример контекста данных

В заключение я хочу еще раз подчеркнуть, что порядок и метрики, которые вы определяете в своих данных, очень контекстуальны. Это должно быть очевидно на данный момент, но позвольте мне привести последний пример: при работе с географическими местоположениями у нас есть много разных способов приблизиться к ним:

  • если нас интересует расстояние между ними, мы можем работать с их геолокацией, которая в основном дает нам двумерное числовое пространство, то есть интервал.
  • если нас интересует их часть отношений, мы можем определить общий порядок (например, улица является частью города, два города равны, континент содержит страну)
  • если нас интересует, представляют ли две строки один и тот же адрес, мы могли бы работать с некоторым расстоянием между строками, которое допустило бы орфографические ошибки и поменялось местами слов, но обязательно различало разные термины и имена. Это не легкая вещь, но просто чтобы сделать случай.
  • Существует множество других вариантов использования, с которыми мы все сталкиваемся ежедневно, и в этом нет никакого смысла. В некоторых из них нет ничего более важного, чем рассматривать адреса как просто разные категории, в других это сводится к очень умному моделированию и предварительной обработке данных.
МАПТО
источник