Почему следует избегать биннинга любой ценой?

10

Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка .

Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что сплайны должны быть предпочтительными.

Тем не менее, в настоящее время я работаю с Spotify API, который имеет ряд постоянных мер доверия для некоторых из своих функций.

Глядя на одну особенность, «инструментальность», ссылки указывают:

Предсказывает, не содержит ли трек вокал. В этом контексте звуки «ох» и «ааа» рассматриваются как инструментальные. Рэп или треки устных слов явно «вокальные». Чем ближе значение инструментальности к 1,0, тем больше вероятность, что трек не содержит вокального контента. Значения выше 0,5 предназначены для представления инструментальных треков , но достоверность выше, когда значение приближается к 1,0.

Учитывая очень искаженное распределение моих данных (около 90% выборок чуть выше 0, я счел целесообразным преобразовать эту функцию в две категориальные функции: «инструментальная» (все выборки со значением выше 0,5) и «non_instrumental» «(для всех образцов со значением ниже 0,5).

Это неправильно? И какова была бы альтернатива, когда почти все мои (непрерывные) данные вращаются вокруг одного значения? Из того, что я понимаю о сплайнах, они также не будут работать с проблемами классификации (что я делаю).

Readler
источник
10
Описанная вами настройка не означает, что биннинг - это хорошая идея. Вы сами сказали, что есть информация о том, как близко значение 1.0 . ИМХО, вам бы хорошо иметь непрерывную функцию, которая связана с вероятностью быть инструментальной. Возможно, вы можете расширить свой вопрос.
Фрэнк Харрелл
Мой вопрос в основном заключается в том, когда можно использовать биннинг, если это вообще возможно. В моем случае я использовал его на основе предметной области (инструментальной / не инструментальной), поскольку я считаю, что это более предикативно, чем говорить, насколько близка дорожка к инструментальной (поскольку дорожка либо является, либо не является инструментальной). Однако вы высказались против этой логики в пункте 8 вашего поста. Мне, как новичку, просто трудно понять, почему так должно быть.
Readler
1
Я написал длинный пост об этом в контексте прогнозного моделирования: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Мэтью Друри,
Очень информативно и тщательно, спасибо. Тем не менее, я не вижу связи с моим вопросом (хотя я все еще получил некоторые новые идеи, так что все хорошо!). Ваша статья говорит о биннинге переменного предсказателя в задачах регрессии и почему , что это плохая идея (что ваша статью убедительно возражало против) и почему использование сплайнов помогает для моделирования регрессии. Я спрашивал о том, почему плохо дискретизировать значения непрерывного признака (входные данные) в задаче классификации (чьи предикторные переменные по своей сути являются «мусорными ведрами», то есть классами).
Readler
2
Если почти все ваши функции находятся в одной точке, то это, скорее всего, не поможет вашей модели, независимо от того, что вы делаете.
накопление

Ответы:

15

Слегка преувеличение сказать, что биннинга следует избегать любой ценой , но это, безусловно, тот случай, когда биннинг представляет выбор бинов, который вносит некоторый произвол в анализ. В современных статистических методах обычно нет необходимости участвовать в биннинге, поскольку все, что может быть сделано с дискретизированными «биннированными» данными, как правило, может быть сделано с базовыми непрерывными значениями.

Наиболее распространенное использование «биннинга» в статистике - это построение гистограмм. Гистограммы аналогичны общему классу оценщиков плотности ядра (KDE), поскольку они включают агрегирование пошаговых функций на выбранных бинах, тогда как KDE включает агрегацию более гладких ядер. Шаговая функция, используемая в гистограмме, не является гладкой функцией, и, как правило, можно выбрать лучшие функции ядра, которые являются менее произвольными в соответствии с методом KDE, что также дает более точные оценки базовой плотности данных. Я часто говорю студентам, что гистограмма - это просто «KDE бедняка». Лично я никогда не использовал бы его, потому что получить KDE без биннинга данных очень легко, и это дает превосходные результаты без произвольного биннинга.

Другое распространенное использование «объединения» происходит, когда аналитик хочет дискретизировать непрерывные данные в ячейки, чтобы использовать аналитические методы, которые используют дискретные значения. Похоже, это то, что предлагается в разделе, который вы цитируете, относительно предсказания вокальных звуков. В таких случаях в результате биннинга возникает некоторый произвол, а также потеря информации. Опять же, лучше избегать этого, если это возможно, пытаясь сформировать модель непосредственно на базовых непрерывных значениях, а не формировать модель на дискретизированных «объединенных» значениях.

Как правило, для статистиков желательно избегать аналитических методов, которые вводят произвольные предположения, особенно в тех случаях, когда доступны альтернативные методы, чтобы легко избежать этих предположений. Поэтому я согласен с мнением, что биннинг, как правило, не нужен. Этого, безусловно, не следует избегать любой ценой, поскольку затраты важны, но, как правило, этого следует избегать, когда существуют простые альтернативные методы, позволяющие избежать его без каких-либо серьезных неудобств.

Бен - Восстановить Монику
источник
Понимаю. Однако, ответьте на следующий вопрос: глядя на распределение приведенного выше примера ( смотрите по иронии судьбы гистограмму), я просто не вижу полезных в непрерывной переменной, где почти все выборки вращаются вокруг одного значения (здесь 0), которое было то, что первоначально привело меня к созданию этой функции. Вы упомянули альтернативы - не могли бы вы уточнить или указать мне правильное направление, где я мог бы узнать больше?
Readler
Попробуйте прочитать о KDE, а также подумайте о некоторых альтернативных способах построения одномерных данных .
Бен - Восстановить Монику
В этой гистограмме я вижу значения повсюду (но, в основном, близко к нулю). Не должно быть неудобств при использовании подгонки сплайнов, и это, безусловно, даст больше информации. Постройте подогнанный сплайн! и, если по какой-то причине вы должны соблюдать осторожность , этот сюжет может помочь вам в том, как. Может случиться так, что для вашего конкретного случая лучше использовать другую точку отсечения, чем 0,5.
kjetil b halvorsen
2
Гистограмма не может быть правильно истолкована как KDE. Каким будет ядро?
whuber
1
Что касается вашего третьего абзаца, у меня возник подобный вопрос, когда я пытался вычислить прирост информации с некоторыми числовыми данными. Вы можете посмотреть на этот вопрос и объяснить, что делать в этой ситуации? stats.stackexchange.com/questions/384684/…
astel
4

Обычно я бы категорически возражал против категоризации непрерывных переменных по причинам, хорошо выраженным другими известными людьми, Фрэнком Харреллом. В этом случае, возможно, было бы полезно спросить себя о процессе, который принес результаты. Похоже, что большинство баллов фактически равно нулю, возможно, с добавлением некоторого шума. Некоторые из них снова близки к единству с шумом. Очень немногие лежат между ними. В этом случае, как представляется, существует больше оснований для категоризации, поскольку можно утверждать, что по модулю шума это двоичная переменная. Если он подходит как непрерывная переменная, коэффициенты будут иметь значение с точки зрения изменения в предикторной переменной, но в этом случае в большей части ее диапазона переменная очень малонаселенна, так что это кажется непривлекательным.

mdewey
источник
4
Мой короткий ответ на вопрос о том, когда биннинг можно использовать: «Когда точки разрыва уже известны перед просмотром данных (это конечные точки бина), и если известно, что взаимосвязь между x и y внутри каждого бина, который имеет ненулевая длина плоская.
Фрэнк Харрелл
2

Представьте, что у вас есть часы, которые показывают только часы. Только я имею в виду, что у него есть только стрелка часа, которая раз в час делает 1/12 прыжка до другого часа, она не движется плавно. Такие часы не будут очень полезны, так как вы не будете знать, если это пять минут второго, половина третьего или десять к трем. Это проблема с бин- данными, они теряют детали и вносят «скачкообразные» изменения.

Тим
источник
1
(+1) Да, и добавьте к этому дополнительную проблему, заключающуюся в том, что часовщик не может выбирать часовые приращения, но может произвольно решить, что его часы будут с шагом 19 минут, и у вас есть дополнительная проблема, помимо потери информации. ,
Бен - Восстановить Монику
2

Для некоторых приложений, в том числе того, который вы рассматриваете, биннинг может быть строго необходим. Очевидно, что для выполнения задачи категоризации в какой-то момент вы должны удалить категориальные данные из вашей модели, и если ваши входные данные также не являются категоричными, вам потребуется выполнить бининг. Рассмотрим пример:

Сложный ИИ играет в покер. Вероятность того, что его рука превосходит руки других игроков, оценивается как 70%. Настала его очередь делать ставки, однако было сказано, что следует избегать биннинга любой ценой и, следовательно, никогда не делать ставки; он складывается по умолчанию.

Однако то, что вы слышали, вполне может быть правдой, поскольку преждевременное объединение промежуточных значений отдает информацию, которая могла бы быть сохранена. Если конечная цель вашего проекта состоит в том, чтобы определить, понравится ли вам «песня», о которой идет речь, что может быть обусловлено двумя факторами: «инструментальность» и «рок-н-ролл», вам, вероятно, будет лучше сохранить их в качестве непрерывных переменных, пока вы нужно вытащить «симпатию» как категориальную переменную.

LяКезнак равно{0росКяTUdе*3+яNsTрUмеNTaLNеss*2<31росКяTUdе*3+яNsTрUмеNTaLNеss*23

или любые коэффициенты, которые вы считаете наиболее подходящими, или любую другую модель, подходящую для вашего тренировочного набора.

Если вместо этого вы решите, является ли что-то «инструментальным» (истина или ложь) и «скалами» (истина или ложь), то у вас есть четыре категории, изложенные перед тем, как перейти к следующему дню:

  1. инструментальные, скалы
  2. не инструментальные, камни
  3. инструментальный, без камней
  4. не инструментальный, без камней

Но тогда вам остается только решить, какую из этих 4 категорий вам «нравится». Вы уступили гибкость в вашем окончательном решении.

Решение о том, нужно или нет, зависит от вашей цели. Удачи.

guenthmonstr
источник
2

р

р{б1бN}бязнак равно[Lя,Uя]LяUяя

Lзнак равноL0весL0U0знак равноL0+весвес(весмяN,весмaИкс)

п(р)знак равноΣвесзнак равновесмяNвесмaИксΣLзнак равноL0L0+весп(р|L,вес)п(L,вес)п(L,вес)~2(U0-L0)весмaИкс+весмяN×(весмaИкс-весмяN)

весмaИкс,весмяN,L0п(р)п(р|весмaИкс,весмяN,L0)п(р)п(р|весмaИкс,весмяN,L0)знак равноп(р)

В контексте вопроса ОП я был бы удовлетворен, если бы произвольный порог 0,5 был установлен на различные значения между вероятными минимальными и максимальными значениями, и чтобы увидеть, что основные результаты его анализа в значительной степени не зависят от выбора.

Питер Леопольд
источник