В чем выгода разделения непрерывной переменной-предиктора?

78

Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели.

Мне кажется, что при биннинге переменной мы теряем информацию.

  • Это просто для того, чтобы мы могли моделировать нелинейные эффекты?
  • Если бы мы сохраняли переменную непрерывной, и это не было действительно линейным отношением, нам нужно было бы придумать какую-то кривую, чтобы лучше всего соответствовать данным?
Том
источник
12
1) Нет. Вы правы в том, что биннинг теряет информацию. Этого следует избегать, если это возможно. 2) Как правило, функция кривой, которая согласуется с теорией данных, является предпочтительной.
О_Девиняк
8
Я не знаю о преимуществах, но есть ряд широко признанных опасностей
Glen_b
2
Иногда неохотный аргумент в пользу этого: он может упростить клиническую интерпретацию и представление результатов, например. артериальное давление часто является квадратичным предиктором, и врач может поддержать использование предельных значений для низкого, нормального и высокого АД и может быть заинтересован в сравнении этих широких групп.
user20650
4
@ user20650: Я не совсем уверен, что понял вас, но не лучше ли подобрать лучшую модель, которую вы можете, а затем использовать прогнозы этой модели, чтобы сказать что-то, что вы хотите сказать о широких группах? «Группа высокого кровяного давления» в моем исследовании не обязательно будет иметь такое же распределение давления, как и население в целом, поэтому их результаты не будут обобщать.
Scortchi - Восстановить Монику
7
Упрощенная клиническая интерпретация - мираж. Оценки эффектов от категорированных непрерывных переменных не имеют известной интерпретации.
Фрэнк Харрелл

Ответы:

64

Вы правы по обоим пунктам. Смотрите здесь страницу Фрэнка Харрелла для длинного списка проблем с биннингом непрерывных переменных. Если вы используете несколько корзин, вы выбрасываете много информации в предикторах; если вы используете много, вы склоняетесь к шевелению в том, что должно быть гладким, если не линейным, отношением, и использовать много степеней свободы. Как правило, для предикторов лучше использовать полиномы ( ) или сплайны (кусочно-полиномы, которые плавно объединяются). Биннинг действительно хорошая идея, когда вы ожидаете, что в моментах прерывания будет прерывистость - скажем, температура, в которой что-то кипит, или законный возраст для вождения - и когда отклик между ними ровный ...Икс+Икс2+...

Значение? Ну, это быстрый и простой способ учесть кривизну, не думая об этом, и модель вполне может подойти для того, для чего вы ее используете. Это имеет тенденцию работать хорошо, когда у вас много данных по сравнению с количеством предикторов, каждый предиктор разделен на множество категорий; в этом случае в пределах каждой полосы предикторов диапазон отклика невелик, а средний отклик точно определен.

[Изменить в ответ на комментарии:

Иногда существуют стандартные отсечки, используемые в поле для непрерывной переменной: например, в медицине измерения артериального давления могут быть классифицированы как низкие, средние или высокие. Может быть много веских причин для использования таких отсечений, когда вы представляете или применяете модель. В частности, правила принятия решений часто основаны на меньшем количестве информации, чем входит в модель, и, возможно, должны быть просты в применении. Но из этого не следует, что эти обрезания подходят для бинарного предсказания, когда вы подходите к модели.

Предположим, что некоторый ответ постоянно меняется в зависимости от артериального давления. Если вы определяете группу высокого кровяного давления в качестве предиктора в своем исследовании, оцениваемый вами эффект представляет собой среднюю реакцию по конкретному артериальному давлению людей в этой группе. Это неоценка среднего ответа людей с высоким кровяным давлением в общей популяции или людей в группе высокого кровяного давления в другом исследовании, если только вы не примете конкретные меры, чтобы сделать это так. Если распределение артериального давления среди населения в целом известно, как я себе это представляю, вам лучше рассчитать среднюю реакцию людей с высоким артериальным давлением в общей популяции на основе прогнозов из модели с артериальным давлением как непрерывная переменная. Сырое биннинг делает вашу модель только приблизительно обобщаемой.

В общем, если у вас есть вопросы о поведении ответа между отсечками, сначала выберите лучшую модель, а затем используйте ее, чтобы ответить на них.]

[Что касается презентации; Я думаю, что это красная сельдь

(1) Простота изложения не оправдывает плохих модельных решений. (И в тех случаях, когда биннинг является хорошим модельным решением, он не нуждается в дополнительном обосновании.) Конечно, это самоочевидно. Никто никогда не рекомендует брать важные взаимодействия из модели, потому что это трудно представить.

(2) Какую бы модель вы ни выбрали, вы все равно можете представить ее результаты в виде категорий, если считаете, что это поможет интерпретации. Хотя ...

(3) Вы должны быть осторожны, чтобы убедиться, что это не поможет неверно истолковать, по причинам, указанным выше.

(4) На самом деле нетрудно представить нелинейные ответы. Очевидно, что личное мнение и аудитория различаются; но я никогда не видел, чтобы график зависимости значений отклика от значений предиктора озадачивал кого-то только потому, что он изогнут. Взаимодействия, логиты, случайные эффекты, мультиколлинеарность, ... - все это гораздо сложнее объяснить.]

[Дополнительным моментом, поднятым @Roland, является точность измерения предикторов; он предлагает, я думаю, что категоризация может быть уместной, когда они не особенно точны. Здравый смысл может указывать на то, что вы не улучшаете вопросы, если их формулировать еще менее точно, и здравый смысл был бы прав: MacCallum и др. (2002), «О практике дихотомизации количественных переменных», Психологические методы , 7 , 1, стр. 17–19.]

Scortchi - Восстановить Монику
источник
6
Отличные комментарии по распространяющейся проблеме. Здесь важно пропагандировать тщательно количественное мышление. Уже слишком много внимания уделяется преодолению пороговых значений, например, выше уровня бедствия, ниже уровня комфорта.
Ник Кокс
14
Я бы попросил любого показать валидацию любых использованных врачами срезов.
Фрэнк Харрелл
Стоит отметить, что этот метод объединения имеет некоторые преимущества в других областях - он особенно популярен в сочетании с большими нейронными сетями для прогнозирования мультимодальных распределений, таких как ориентация транспортного средства. См. Например, arxiv.org/abs/1612.00496 .
Н. Мака.
11

Часть этого ответа, которую я узнал с тех пор, как задал вопрос, заключается в том, что не биннинг и биннинг стремятся ответить на два несколько разных вопроса: что такое постепенное изменение данных? и в чем разница между самым низким и самым высоким? ,

Не биннинг говорит: «Это количественная оценка тенденции, наблюдаемой в данных», а биннинг говорит: «У меня недостаточно информации, чтобы сказать, насколько это меняется с каждым шагом, но я могу сказать, что вершина отличается от нижней» ,

Том
источник
5

Как врач, я думаю, что ответ зависит от того, что вы хотите сделать. Если вы хотите сделать наилучшее соответствие или сделать лучшую настройку, вы можете использовать непрерывные и квадратные переменные.

Если вы хотите описать и сообщить о сложных ассоциациях для не ориентированной на статистику аудитории, лучше использовать классифицированные переменные, принимая, что вы можете дать несколько слегка смещенные результаты в последнем десятичном выражении. Я предпочитаю использовать как минимум три категории, чтобы показать нелинейные ассоциации. Альтернативой является создание графиков и прогнозируемых результатов в определенных точках. Тогда вам может понадобиться создать семейство графов для каждого непрерывного ковариата, который может быть интересен. Если вы боитесь получить слишком большую предвзятость, я думаю, что вы можете протестировать обе модели и посмотреть, является ли разница важной или нет. Вы должны быть практичными и реалистичными.

Я думаю, что мы можем понять, что во многих клинических ситуациях наши расчеты не основаны на точных данных, и когда я, например, назначаю лекарство взрослому, я в любом случае не делаю это с точными мг / кг (притча о выборе между операцией и лечением) это просто ерунда).

Roland
источник
1
Почему именно аналогия бессмыслица? Потому что категоризация непрерывных переменных никогда не приводит к значительно худшим моделям? Или потому что использование значительно худшей модели никогда не имеет практических последствий?
Scortchi - Восстановить Монику
9
Это просто не тот случай @Roland. Оценки, полученные из отсечек, являются простыми, потому что люди не понимают, что оценивают оценки. Это потому, что они не оценивают научную величину, то есть величину, которая имеет значение вне образца или эксперимента. Например, отношение высокий: низкий коэффициент или средняя разница увеличатся, если вы добавите в набор данных пациентов со сверхвысокими или сверхнизкими значениями. Кроме того, использование отсечек подразумевает, что биология прерывистая, что не так.
Фрэнк Харрелл
@ Scortchi Переход от медицинского к хирургическому лечению, потому что его легче объяснить (правда?), Это все равно, что заменить возраст ростом в качестве объяснительной переменной.
Роланд
Я согласен избегать дихотомических переменных. Клиническая медицина - это не наука о камне, где важен последний десятичный знак. В моделях, с которыми я работаю, результаты меняются только с последним десятичным знаком, если я использую категории возраста по сравнению с возрастом в качестве непрерывных и возводимых в квадрат переменных, но значительно повышает понимание и коммуникабельность ассоциаций.
Роланд
4

Как упоминалось в предыдущих постерах, как правило, лучше избегать дихотомии непрерывной переменной. Однако, в ответ на ваш вопрос, есть случаи, когда дихотомия непрерывной переменной дает преимущества.

Например, если данная переменная содержит пропущенные значения для значительной части населения, но известно, что она имеет высокую степень прогнозирования, а сами пропущенные значения имеют прогностическую ценность. Например, в модели кредитного скоринга рассмотрим переменную, скажем, средний-оборотный-кредит-баланс (который предоставлен, не является технически непрерывным, но в этом случае отражает нормальное распределение, достаточно близкое для того, чтобы его можно было рассматривать как таковое), которое содержит пропущенные значения для примерно 20% пула заявителей на заданном целевом рынке. В этом случае пропущенные значения для этой переменной представляют отдельный класс - те, у кого нет открытой линии с возобновляемым кредитом; эти клиенты будут демонстрировать совершенно иное поведение по сравнению, например, с теми, у кого есть доступные возобновляемые кредитные линии, но которые регулярно не имеют баланса.

Еще одно преимущество дихотомизации: ее можно использовать для смягчения последствий значительных выбросов, которые искажают коэффициенты, но представляют реалистичные случаи, которые необходимо обработать. Если выбросы не сильно отличаются по результату от других значений в ближайших процентилях, но искажают параметры, достаточные для обеспечения предельной точности, тогда может быть полезно сгруппировать их со значениями, отображающими аналогичные эффекты.

Иногда распределение естественно поддается набору классов, и в этом случае дихотомизация фактически даст вам более высокую степень точности, чем непрерывная функция.

Кроме того, как уже упоминалось ранее, в зависимости от аудитории, простота представления может перевесить потери на точность. Чтобы снова использовать кредитный скоринг в качестве примера, на практике высокая степень регулирования дает практическое обоснование для дискретизации время от времени. Хотя более высокая степень точности может помочь кредитору сократить потери, практики также должны учитывать, что регуляторы должны легко понимать модели (которые могут запросить тысячи страниц документации по модели) и потребители, которым в случае отказа в кредите юридически предоставляется право на объяснение почему.

Все зависит от проблемы и данных, но, безусловно, есть случаи, когда дихотомизация имеет свои преимущества.

cjthompson
источник
Дихотомизация состоит из двух корзин - вы имеете в виду дискретизацию?
Scortchi - Восстановить Монику
2
В обоих ваших первых двух примерах дискретизация пытается обмануть свой путь в партию, привязавшись к добросовестному гостю. Не обманывайтесь. (1) Если вы хотите моделировать отсутствие открытой возобновляемой кредитной линии в качестве отдельного класса, просто используйте фиктивную переменную, чтобы указать это условие, и назначьте любое постоянное значение для среднего оборотного кредитного баланса. (2) Если вы хотите обрабатывать определенные экстремальные предикторы одинаково, как «большие» или «маленькие», обрежьте их; нет необходимости копаться с остальными ценностями. Третий случай не оспаривается - не стесняйтесь добавлять примеры.
Scortchi - Восстановить Монику
3

Если переменная оказывает влияние на определенный порог, создайте новую переменную путем биннинга, это хорошая вещь. Я всегда сохраняю обе переменные, исходную и биннинг, и проверяю, какая переменная является лучшим предиктором.

Нгуен
источник
3

Я убежденный поклонник совета Фрэнка Харрелла о том, что аналитики должны сопротивляться преждевременной дискретизации непрерывных данных. И у меня есть несколько ответов по CV и SO, которые демонстрируют, как визуализировать взаимодействия между непрерывными переменными, так как я думаю, что это еще более ценная линия исследования. Тем не менее, у меня также есть реальный опыт в медицинском мире барьеров для соблюдения этого совета. Часто есть привлекательные подразделения, которые как клиницисты, так и не клиницисты ожидают от "расколов". Обычный «верхний предел нормы» является одной из таких «естественных» точек разделения. По сути, сначала нужно изучить статистическую основу отношения, а затем сообщить о сути результатов в терминах, которые ваша аудитория ожидает и может легко понять. Несмотря на мою "аллергию" к барплетам, они чрезвычайно распространены в научном и медицинском дискурсе. Таким образом, у аудитории, вероятно, будет готовый когнитивный паттерн для их обработки, и он сможет интегрировать результаты в свою базу знаний.

Кроме того, графическое отображение смоделированных взаимодействий между нелинейными формами переменных предикторов требует представления контурных графиков или каркасных отображений, которые у большей части аудитории будут иметь некоторые трудности при усвоении. Я обнаружил, что медицинская и общественная публика более восприимчива к презентациям, которые дали дискретные и сегментированные результаты. Поэтому я полагаю, что вывод заключается в том, что расщепление выполняется правильно после завершения статистического анализа; и делается на этапе презентации.

Dwin
источник
1

Биннинг непрерывных переменных часто сопровождается неприятным ощущением причинения ущерба из-за потери информации. Однако вы можете не только ограничить потерю информации, но и получить информацию и получить больше преимуществ.

Если вы используете биннинг и получаете категорированные переменные, вы можете применять алгоритмы обучения, которые не применимы к непрерывным переменным. Ваш набор данных может лучше соответствовать одному из этих алгоритмов, так что вот ваше первое преимущество.

Идея оценки потерь, связанных с биннингом, основана на статье «Обучение PAC с нерелевантными атрибутами». Предположим, что наша концепция является двоичной, поэтому мы можем разделить выборки на положительные и отрицательные. Для каждой пары отрицательных и положительных образцов различие в концепции может быть объяснено различием в одной из особенностей (или иначе, это не объяснимо данными особенностями). Набор различий признаков - это набор возможного объяснения разницы понятий, отсюда и данные, используемые для определения понятия. Если мы сделали биннинг и все еще получили тот же набор объяснений для пар, мы не потеряли никакой необходимой информации (в отношении алгоритмов обучения, которые работают при таких сравнениях). Если наша классификация будет очень строгой, у нас, вероятно, будет меньше возможных объяснений, но мы сможем точно измерить, сколько и где мы проиграем. Это позволит нам обменять количество бинов на множество объяснений.

До сих пор мы видели, что мы не можем проиграть из-за категоризации, но если мы рассмотрим возможность применения такого шага, мы хотели бы получить выгоду. Действительно, мы можем извлечь выгоду из классификации

Многие алгоритмы обучения, которым будет предложено классифицировать выборку со значениями, не видимыми в наборе поездов, будут считать это значение «неизвестным». Следовательно, мы получим корзину с «неизвестным», которая включает ВСЕ значения, не замеченные во время поезда (или даже не видимые достаточно). Для таких алгоритмов разница между неизвестными парами значений не будет использоваться для улучшения классификации. Сравните ваши пары после биннинга с парами с неизвестными и посмотрите, полезен ли ваш биннинг и вы действительно выиграли.

Вы можете оценить, насколько часто будут неизвестные значения, проверив распределение значений каждого объекта. Особенность, в которой значения появляются только несколько раз, является значительной частью их распределения, являются хорошими кандидатами для биннинга. Обратите внимание, что во многих сценариях у вас будет много функций с неизвестным увеличением вероятности того, что образец будет содержать неизвестное значение. Алгоритмы, которые обрабатывают все или многие функции, в таких ситуациях подвержены ошибкам.

A. Dhagat и L. Hellerstein, «Обучение PAC с не относящимися к делу атрибутами», в «Proceedings of IEEE Symp. на фундаменте компьютерных наук », 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

Dal
источник