У Гельмана и Парка есть статья, в которой сравнивается практика создания трех категорий из непрерывной переменной, а не двух. Обычно лучше оставить переменную непрерывной по причинам, объясненным другими ниже.
Майкл Бишоп
Ответы:
10
Какая информация теряется: зависит от переменной. Обычно, дихотомизируя, вы утверждаете, что между одной переменной и другой существует прямая линия влияния. Например, рассмотрим непрерывную меру воздействия загрязнителя в исследовании рака. Если вы дихотомизируете его до «высокого» и «низкого», вы утверждаете, что это единственные два значения, которые имеют значение. Существует высокий риск развития рака, а также низкий. Но что, если риск неуклонно возрастает некоторое время, затем выравнивается, а затем снова повышается, прежде чем, наконец, достигнуть высоких значений? Все это потеряно.
Что вы получаете: это проще. Дихотомические переменные часто гораздо легче иметь статистически. Есть причины для этого - если непрерывная переменная в любом случае попадает в две четкие группировки , но я склонен избегать дихотомии, если только она не является естественной формой переменной. Часто также полезно, если ваше поле все равно дихотомизирует вещи, чтобы иметь дихотомизированную форму переменной. Например, многие считают, что количество клеток CD4 менее 400 является критическим порогом для ВИЧ. Таким образом, я часто имел бы переменную 0/1 для Above / Below 400, хотя я бы также сохранил переменную непрерывного подсчета CD4. Это помогает согласовать ваше обучение с другими.
Я немного не согласен с Питером. Хотя деление непрерывной переменной на категории часто гораздо более разумно, чем грубая дихотомия, я скорее против квантильной категоризации. Такие классификации очень трудно дать содержательные интерпретации. Я думаю, что ваш первый шаг должен состоять в том, чтобы увидеть, есть ли биологически или клинически хорошо поддерживаемая категоризация, которую можно использовать, и только после того, как эти опции исчерпаны, вы должны использовать квантили.
Привет, @epigrad. Я думаю, что квантильная регрессия имеет довольно простую интерпретацию; это очень похоже на обычную регрессию OLS, за исключением того, что вместо «среднее значение» используется «XXX процентиль».
Питер Флом - Восстановить Монику
@PeterFlom Извините, мне следовало быть более ясным. Я считаю, что их трудно составить как клинически / биологически значимую интерпретацию по сравнению с категориями, построенными на основе клинических / биологических данных. Это, по общему признанию, специфический для области уклон с моей стороны.
Fomite
О, хорошо, @epigrad, это имеет смысл. И я отредактирую свой ответ, чтобы включить этот случай.
Питер Флом - Восстановить Монику
1
Кажется, что EpiGrad и @PeterFlom по-разному интерпретируют «квантильную регрессию». EpiGrad говорит о разделении переменной X на группы, определенные квантилями, в то время как Питер Флом говорит о моделировании, скажем, 90-го квантиля ответа вместо его среднего.
Анико
@Aniko Это тоже возможно. Я предположил (вероятно, неправильно), что Питер имел в виду классификацию данных на квантили и использование их в регрессионной модели. Обычная (и утомительная) тенденция в моей области. Это может быть не так.
Fomite
9
Дихотимизация добавляет волшебное мышление к анализу данных. Это очень редко хорошая идея.
Вот статья Ройстона, Альтмана и Сауэрбреи о некоторых причинах плохой идеи.
Мои собственные мысли: если вы дихотомизируете зависимую переменную, скажем, вес при рождении в 2,5 кг (это делается постоянно), то вы лечите детей, которые родились в 2,49 кг, точно так же, как и дети, рожденные в 1,5 кг, и детей, рожденных в 2,51 кг так же, как те, кто 3,5 кг. Это не имеет смысла.
Лучшей альтернативой часто является квантильная регрессия. Я недавно написал об этом для NESUG. Эта статья здесь
Единственным исключением из вышеизложенного является случай, когда категории по существу мотивированы; Например, если вы работаете с поведением за рулем, будет разумно классифицировать в зависимости от возраста, установленного для вождения.
Красиво сказал Питер. Я не могу представить ситуацию, когда дихотомизация в анализе - хорошая идея.
Фрэнк Харрелл
5
Мне понравились и поддержали ответы @ Epigrad и @ Peter. Я просто хотел добавить, что переменная интервала биннинга в двоичную делает (потенциально) метрическую переменную просто порядковой. С бинарной переменной неправильно вычислять среднее или дисперсию (несмотря на то, что это делают некоторые люди), и, как я уже отмечал в другом месте , некоторые многомерные анализы становятся теоретически или логически неприменим. Например, я думаю, что некорректно использовать иерархическую кластеризацию центроидов / Уордов или факторный анализ с бинарными переменными.
Клиенты исследования часто вынуждают нас дихотомизировать переменные на выходе, потому что мышление в терминах нескольких классов, а не одной непрерывной характеристики проще, информация кажется менее туманной и (ложно) более громоздкой.
Однако существуют случаи, когда дихотомизация может быть оправдана. Например, когда есть сильная бимодальность или когда анализ (например, MAMBAC или другой) показывает наличие 2 скрытых классов.
Мне трудно понять ваш аргумент. И если клиент хочет, чтобы мы занимались плохой статистической практикой, мы должны подумать дважды. Примечание: трихотомия это не слово. Дихотомизация = дихо (два) + томусный (разрез), поэтому при использовании он будет тритомизировать / тритомизировать.
Фрэнк Харрелл
Проход по клиенту был плачем, а не аргументом. Что касается греческого, вы правы; Я удалил слово.
ttnphns
1
Благодарю. Я стараюсь, насколько это возможно, перевести статистические жалобы в корректирующие действия, хотя и интенсивный процесс обучения с клиентом.
Ответы:
Какая информация теряется: зависит от переменной. Обычно, дихотомизируя, вы утверждаете, что между одной переменной и другой существует прямая линия влияния. Например, рассмотрим непрерывную меру воздействия загрязнителя в исследовании рака. Если вы дихотомизируете его до «высокого» и «низкого», вы утверждаете, что это единственные два значения, которые имеют значение. Существует высокий риск развития рака, а также низкий. Но что, если риск неуклонно возрастает некоторое время, затем выравнивается, а затем снова повышается, прежде чем, наконец, достигнуть высоких значений? Все это потеряно.
Что вы получаете: это проще. Дихотомические переменные часто гораздо легче иметь статистически. Есть причины для этого - если непрерывная переменная в любом случае попадает в две четкие группировки , но я склонен избегать дихотомии, если только она не является естественной формой переменной. Часто также полезно, если ваше поле все равно дихотомизирует вещи, чтобы иметь дихотомизированную форму переменной. Например, многие считают, что количество клеток CD4 менее 400 является критическим порогом для ВИЧ. Таким образом, я часто имел бы переменную 0/1 для Above / Below 400, хотя я бы также сохранил переменную непрерывного подсчета CD4. Это помогает согласовать ваше обучение с другими.
Я немного не согласен с Питером. Хотя деление непрерывной переменной на категории часто гораздо более разумно, чем грубая дихотомия, я скорее против квантильной категоризации. Такие классификации очень трудно дать содержательные интерпретации. Я думаю, что ваш первый шаг должен состоять в том, чтобы увидеть, есть ли биологически или клинически хорошо поддерживаемая категоризация, которую можно использовать, и только после того, как эти опции исчерпаны, вы должны использовать квантили.
источник
Дихотимизация добавляет волшебное мышление к анализу данных. Это очень редко хорошая идея.
Вот статья Ройстона, Альтмана и Сауэрбреи о некоторых причинах плохой идеи.
Мои собственные мысли: если вы дихотомизируете зависимую переменную, скажем, вес при рождении в 2,5 кг (это делается постоянно), то вы лечите детей, которые родились в 2,49 кг, точно так же, как и дети, рожденные в 1,5 кг, и детей, рожденных в 2,51 кг так же, как те, кто 3,5 кг. Это не имеет смысла.
Лучшей альтернативой часто является квантильная регрессия. Я недавно написал об этом для NESUG. Эта статья здесь
Единственным исключением из вышеизложенного является случай, когда категории по существу мотивированы; Например, если вы работаете с поведением за рулем, будет разумно классифицировать в зависимости от возраста, установленного для вождения.
источник
Мне понравились и поддержали ответы @ Epigrad и @ Peter. Я просто хотел добавить, что переменная интервала биннинга в двоичную делает (потенциально) метрическую переменную просто порядковой. С бинарной переменной неправильно вычислять среднее или дисперсию (несмотря на то, что это делают некоторые люди), и, как я уже отмечал в другом месте , некоторые многомерные анализы становятся теоретически или логически неприменим. Например, я думаю, что некорректно использовать иерархическую кластеризацию центроидов / Уордов или факторный анализ с бинарными переменными.
Клиенты исследования часто вынуждают нас дихотомизировать переменные на выходе, потому что мышление в терминах нескольких классов, а не одной непрерывной характеристики проще, информация кажется менее туманной и (ложно) более громоздкой.
Однако существуют случаи, когда дихотомизация может быть оправдана. Например, когда есть сильная бимодальность или когда анализ (например, MAMBAC или другой) показывает наличие 2 скрытых классов.
источник