Отвечая на этот вопрос о дискретных и непрерывных данных, я уверенно утверждал, что редко имеет смысл рассматривать категориальные данные как непрерывные.
На первый взгляд это кажется само собой разумеющимся, но интуиция часто является плохим руководством для статистики, или, по крайней мере, моим. Так что теперь я задаюсь вопросом: это правда? Или существует установленный анализ, для которого действительно полезно преобразование из категориальных данных в некоторый континуум? Будет ли иметь значение, если данные были порядковыми?
Ответы:
Я предполагаю, что «категориальная» переменная фактически означает порядковую переменную; в противном случае не имеет смысла рассматривать его как непрерывную, если только это не двоичная переменная (с кодом 0/1), как указано @Rob. Затем я бы сказал, что проблема заключается не столько в том, как мы относимся к переменной, хотя до сих пор разработано много моделей для анализа категориальных данных - см., Например, Анализ упорядоченных категориальных данных: обзор и обзор последних разработки от Liu и Agresti--, чем основную шкалу измерения мы предполагаем. Мой ответ будет сосредоточен на этом втором пункте, хотя сначала я кратко расскажу о присвоении числовых баллов различным категориям или уровням.
Используя простую числовую перекодировку порядковой переменной, вы предполагаете, что переменная имеет интервальные свойства (в смысле классификации, данной Стивенсом, 1946). С точки зрения теории измерений (в психологии), это часто может быть слишком сильным предположением, но для базового исследования (то есть, когда один элемент используется для выражения своего мнения о повседневной деятельности с четкой формулировкой), любые монотонные оценки должны давать сопоставимые результаты. , Кокран (1954) уже указывал, что
(Большое спасибо @whuber за то, что он напомнил мне об этом в одном из своих комментариев, что побудило меня перечитать книгу Агрести, из которой взята эта цитата.)
На самом деле, некоторые тесты неявно обрабатывают такие переменные как интервальные шкалы: например, статистика для тестирования линейного тренда (в качестве альтернативы простой независимости) основана на корреляционном подходе ( , Агрести, 2002, стр. 87).M 2 = ( n - 1 ) r 2M2 M2= ( n - 1 ) r2
Что ж, вы также можете решить перекодировать вашу переменную в нерегулярном диапазоне или объединить некоторые из ее уровней, но в этом случае сильный дисбаланс между перекодированными категориями может исказить статистические тесты, например, вышеупомянутый тест тренда. @Jeromy уже предложила хорошую альтернативу для определения расстояния между категориями, а именно оптимальное масштабирование.
Теперь давайте обсудим второй момент, который я сделал, это базовая модель измерения. Я всегда сомневаюсь в добавлении тега «psychometrics», когда вижу такой вопрос, потому что построение и анализ шкал измерения подпадают под Psychometric Theory (Nunnally and Bernstein, 1994, для аккуратного обзора). Я не буду останавливаться на всех моделях, которые фактически возглавляются в соответствии с теорией отклика на предмет , и я любезно рекомендую заинтересованному читателю учебник И. Партчева « Визуальное руководство по теории отклика на предмет»., для мягкого введения в IRT, и ссылки (5-8), перечисленные в конце для возможных таксономий IRT. Вкратце, идея заключается в том, что вместо того, чтобы назначать произвольные расстояния между переменными категориями, вы принимаете скрытую шкалу и оцениваете их местоположение в этом континууме вместе со способностями или ответственностью отдельных лиц. Простой пример стоит больших математических обозначений, поэтому давайте рассмотрим следующий пункт ( взятый из опросника качества жизни EORTC QLQ-C30 ):
который закодирован по четырехбалльной шкале, от «совсем нет» до «очень». Необработанные баллы вычисляются путем присвоения баллов от 1 до 4. Затем баллы по элементам, принадлежащим к одной и той же шкале, можно сложить вместе, чтобы получить так называемый балл по шкале, который обозначает ранг базовой конструкции (здесь - компонент психического здоровья). ). Такие суммарные баллы по шкале очень практичны из-за легкости начисления баллов (для практикующего врача или медсестры), но они представляют собой не что иное, как дискретную (упорядоченную) шкалу.
Мы также можем считать, что вероятность одобрения данной категории ответов подчиняется некоторой логистической модели, как описано в учебнике И. Партчева, упомянутом выше. По сути, идея заключается в том, чтобы создать своего рода пороговую модель (которая приводит к эквивалентной формулировке в терминах моделей пропорциональных или совокупных шансов), и мы моделируем шансы на то, чтобы быть в одной категории ответа, а не на предыдущей, или шансы на оценку выше определенная категория, обусловленная расположением предметов по скрытой черте. Кроме того, мы можем навязать, что категории ответов равномерно распределены по скрытой шкале (это модель шкалы рейтингов) - так мы поступаем, присваивая регулярно расположенные числовые оценки - или нет (это модель частичного кредита) ,
Ясно, что мы не добавляем слишком много к Классической Теории Тестов, где порядковые переменные рассматриваются как числовые. Тем не менее, мы вводим вероятностную модель, в которой мы принимаем непрерывную шкалу (с интервальными свойствами) и где можно учесть конкретные ошибки измерения, и мы можем включить эти факторные оценки в любую регрессионную модель.
Рекомендации
источник
Если есть только две категории, то преобразование их в (0,1) имеет смысл. Фактически, это обычно делается, когда результирующая фиктивная переменная используется в регрессионных моделях.
Если существует более двух категорий, то я думаю, что это имеет смысл только в том случае, если данные являются порядковыми, и то только в очень конкретных обстоятельствах. Например, если я делаю регрессию и подгоняю непараметрическую нелинейную функцию к порядковой-числовой переменной, я думаю, что это нормально. Но если я использую линейную регрессию, то я делаю очень сильные предположения об относительной разнице между последовательными значениями порядковой переменной, и я обычно не хочу этого делать.
источник
Обычная практика - рассматривать упорядоченные категориальные переменные со многими категориями как непрерывные. Примеры этого:
И под «обработкой как непрерывной» я подразумеваю включение переменной в модель, которая предполагает непрерывную случайную переменную (например, как зависимую переменную в линейной регрессии). Я полагаю, вопрос в том, сколько точек шкалы требуется, чтобы это было разумным упрощающим допущением.
Несколько других мыслей:
Рекомендации
источник
Очень простой пример, который часто упускается из виду и который должен лежать в опыте многих читателей, касается оценок или оценок, присвоенных академической работе. Часто оценки для отдельных заданий по сути являются порядковыми измерениями, основанными на суждениях, даже если в качестве условного обозначения они обозначаются как (скажем) процентные отметки или отметки на шкале с максимум 5 (возможно, также с десятичными точками). То есть учитель может прочитать эссе, диссертацию, тезис или статью и решить, что он заслуживает 42%, или 4, или что-то еще. Даже если оценки основаны на детальной схеме оценки, шкала находится на некотором расстоянии от шкалы измерения интервала или отношения.
Но тогда многие учреждения считают, что если у вас достаточно этих оценок или оценок, то вполне разумно их усреднить (среднее значение за оценку и т. Д.) И даже проанализировать их более подробно. Таким образом, в некоторый момент порядковые измерения превращаются в итоговую шкалу, которая рассматривается как непрерывная.
Ценители иронии заметят, что статистические курсы во многих департаментах или школах часто учат тому, что это в лучшем случае сомнительно, а в худшем - неправильно, хотя все это реализуется как общеуниверситетская процедура.
источник
При анализе ранжирования по частоте, как с диаграммой Парето и соответствующими значениями (например, сколько категорий составляют 80% ошибок продукта)
источник
Я собираюсь привести аргумент, что трактовка действительно категориальной неординарной переменной как непрерывной иногда имеет смысл.
Если вы строите деревья решений на основе больших наборов данных, преобразование категориальных переменных в фиктивные переменные может оказаться дорогостоящим с точки зрения вычислительной мощности и памяти. Кроме того, некоторые модели (например,
randomForest
в R) не могут обрабатывать категориальные переменные со многими уровнями.В этих случаях древовидная модель должна быть в состоянии идентифицировать чрезвычайно важные категории, ДАЖЕ ЕСЛИ они закодированы как непрерывная переменная. Придуманный пример:
y - непрерывная переменная, a - непрерывная переменная, а b - категориальная переменная. Тем не менее, в
dat1
б рассматривается как непрерывный.Подгоняя дерево решений к этим двум наборам данных, мы находим, что
dat1
это немного хуже, чемdat2
:Если вы посмотрите на 2 модели, вы обнаружите, что они очень похожи, но model1 упускает важность b == 42:
Тем не менее, модель 1 работает примерно в 1/10 времени модели 2:
Конечно, вы можете настроить параметры задачи, чтобы найти ситуации, в которых они
dat2
значительно превосходятdat1
илиdat1
слегка превосходятdat2
.Я не выступаю за то, чтобы вообще относиться к категориальным переменным как к непрерывным, но я обнаружил, что такие ситуации значительно сокращают время, необходимое для подгонки к моим моделям, без снижения их предсказательной точности.
источник
Очень хорошее резюме этой темы можно найти здесь:
mijkerhemtulla.socsci.uva.nl PDF
«Когда можно рассматривать категориальные переменные как непрерывные? Сравнение надежных непрерывных и категориальных методов оценки SEM при неоптимальных условиях».
Мийке Ремтулла, Патриция Э. Броссо-Лиард и Виктория Савалей
Они исследуют методы для этого примерно на 60 страницах и дают представление о том, когда это полезно делать, какой подход использовать и каковы сильные и слабые стороны каждого подхода в соответствии с вашей конкретной ситуацией. Они не охватывают все из них (как я учусь, кажется, что их количество безгранично), но те, которые они охватывают, хорошо покрывают.
источник
Есть другой случай, когда это имеет смысл: когда данные отбираются из непрерывных данных (например, через аналого-цифровой преобразователь). Для более старых приборов АЦП часто бывают 10-разрядными, что дает номинальные порядковые данные категории 1024, но может в большинстве случаев рассматриваться как реальные (хотя будут некоторые артефакты для значений вблизи нижнего предела шкалы). Сегодня АЦП чаще всего 16 или 24-разрядные. К тому времени, когда вы говорите о 65536 или 16777216 «категориях», у вас действительно не возникнет проблем с обработкой данных как непрерывных.
источник