Просто чтобы уточнить, когда я имею в виду сводную статистику, я имею в виду среднее значение, диапазоны среднего квартиля, дисперсию, стандартное отклонение.
Имеет ли смысл найти среднее значение, медиану, квартильный диапазон, дисперсию и стандартное отклонение при суммировании одномерного, категориального или качественного , с учетом как номинального, так и ординального случаев?
Если да, то отличается ли это от того, что вы суммировали непрерывную переменную и как?
Ответы:
В общем, ответ - нет. Тем не менее, можно утверждать, что вы можете взять медиану порядковых данных, но вы, конечно, будете иметь медиану, а не число. Медиана делит данные поровну: половина сверху, половина снизу. Порядковые данные зависят только от заказа.
Кроме того, в некоторых случаях порядковый номер может быть преобразован в приблизительные данные уровня интервала. Это верно, когда порядковые данные группируются (например, вопросы о доходах часто задаются таким образом). В этом случае вы можете найти точную медиану и, возможно, сможете аппроксимировать другие значения, особенно если указаны нижняя и верхняя границы: вы можете предположить некоторое распределение (например, равномерное) в каждой категории. Другой случай порядковых данных, которые могут быть сделаны интервалом, - это когда значениям присваиваются числовые эквиваленты. Например: Никогда (0%), иногда (10-30%), примерно в половине случаев (50%) и так далее.
Чтобы (еще раз) процитировать Дэвида Кокса:
источник
Как уже упоминалось, средние значения, SD и точки петли не имеют значения для категориальных данных. Точки шарниров (например, медиана и квартили) могут иметь значение для порядковых данных. Ваш заголовок также спрашивает, какую сводную статистику следует использовать для описания категориальных данных. Стандартно классифицировать категориальные данные по количеству и процентам. (Вы также можете включить 95% доверительный интервал в процентах.) Например, если ваши данные были:
Вы можете суммировать их так:
источник
Если у вас есть номинальные переменные, то нет функции упорядочения или расстояния. Итак, как вы можете определить какую-либо сводную статистику, которую вы упомянули? Я не думаю, что ты можешь. Для квартилей и дальности, по крайней мере, требуется порядок, а для средних и дисперсий требуются числовые данные. Я думаю, что гистограммы и круговые диаграммы являются типичными примерами правильных способов суммирования качественных переменных, которые не являются порядковыми.
источник
Режим все еще работает! Разве это не важная сводная статистика? (Какая самая распространенная категория?) Я думаю, что среднее предложение не имеет большого значения или не имеет значения в качестве статистики, но режим имеет.
Также подсчитать отличное было бы ценно. (Сколько у вас категорий?)
Вы можете создавать коэффициенты, например (наиболее распространенная категория) / (наименее распространенная категория) или (№ 1 наиболее распространенная категория) / (№ 2 наиболее распространенная категория). Также (самая распространенная категория) / (все остальные категории), как правило 80/20.
Вы также можете присваивать номера своим категориям и сходить с ума со всей обычной статистикой. AA = 1, Hisp = 2 и т. Д. Теперь вы можете вычислить среднее значение, медиану, режим, SD и т. Д.
источник
Я ценю другие ответы, но мне кажется, что некоторый топологический фон дал бы столь необходимую структуру ответов.
Определения
Начнем с определения доменов:
Категориальная переменная - это та, чья область содержит элементы, но между ними нет никакой известной связи (таким образом, у нас есть только категории). Примеры зависят от контекста, но я бы сказал, что в общем случае трудно сравнивать дни недели: с понедельника до воскресенья, если да, то как насчет следующего понедельника? Возможно, более простым, но менее используемым примером являются предметы одежды: без предоставления некоторого контекста, который имел бы смысл порядка, трудно сказать, идут ли брюки перед джемперами или наоборот.
Порядковая переменная - это переменная, которая имеет общий порядок, определенный для домена, то есть для каждых двух элементов домена мы можем сказать, что они либо идентичны, либо один больше другого. Лайкерт масштаб является хорошим примером определения порядкового переменным. «несколько согласен» определенно ближе к «полностью согласен», чем «не согласен».
Переменная- интервал - это единица, область которой определяет расстояния между элементами ( метрика ), что позволяет нам определять интервалы.
Примеры доменов
В качестве наиболее распространенного набора, который мы используем, натуральные и действительные числа имеют стандартный общий порядок и метрики. Вот почему мы должны быть осторожны, когда мы присваиваем номера нашим категориям. Если мы не будем внимательны к пренебрежению порядком и расстоянием, мы практически преобразуем наши категориальные данные в интервальные данные. Когда кто-то использует алгоритм машинного обучения, не зная, как он работает, он рискует сделать такие предположения неохотно, что может лишить законной силы собственные результаты. Например, большинство популярных алгоритмов глубокого обучения работают с действительными числами, используя их интервальные и непрерывные свойства. Другой пример, вспомним 5-балльные шкалы Лайкерта и то, как анализ, который мы применяем к ним, предполагает, что расстояние между полностью согласен и согласенто же самое, что . Трудно обосновать такие отношения.не согласен и не согласен или не согласен
Другой набор, с которым мы часто работаем, это строки . Есть ряд метрик сходства строк которые могут пригодиться при работе со строками. Однако это не всегда полезно. Например, для адресов улица Джон Смит-стрит и Джон Смит-роуд довольно близки с точки зрения сходства строк, но, очевидно, представляют две разные сущности, которые могут находиться на расстоянии нескольких миль друг от друга.
Сводные статистические данные
Хорошо, теперь давайте посмотрим, как подойдет некоторая сводная статистика. Поскольку статистика работает с числами, ее функции хорошо определены через интервалы. Но давайте посмотрим примеры того, можем ли мы как-то обобщить их для категориальных или порядковых данных:
Пример контекста данных
В заключение я хочу еще раз подчеркнуть, что порядок и метрики, которые вы определяете в своих данных, очень контекстуальны. Это должно быть очевидно на данный момент, но позвольте мне привести последний пример: при работе с географическими местоположениями у нас есть много разных способов приблизиться к ним:
источник