Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка .
Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что сплайны должны быть предпочтительными.
Тем не менее, в настоящее время я работаю с Spotify API, который имеет ряд постоянных мер доверия для некоторых из своих функций.
Глядя на одну особенность, «инструментальность», ссылки указывают:
Предсказывает, не содержит ли трек вокал. В этом контексте звуки «ох» и «ааа» рассматриваются как инструментальные. Рэп или треки устных слов явно «вокальные». Чем ближе значение инструментальности к 1,0, тем больше вероятность, что трек не содержит вокального контента. Значения выше 0,5 предназначены для представления инструментальных треков , но достоверность выше, когда значение приближается к 1,0.
Учитывая очень искаженное распределение моих данных (около 90% выборок чуть выше 0, я счел целесообразным преобразовать эту функцию в две категориальные функции: «инструментальная» (все выборки со значением выше 0,5) и «non_instrumental» «(для всех образцов со значением ниже 0,5).
Это неправильно? И какова была бы альтернатива, когда почти все мои (непрерывные) данные вращаются вокруг одного значения? Из того, что я понимаю о сплайнах, они также не будут работать с проблемами классификации (что я делаю).
Ответы:
Слегка преувеличение сказать, что биннинга следует избегать любой ценой , но это, безусловно, тот случай, когда биннинг представляет выбор бинов, который вносит некоторый произвол в анализ. В современных статистических методах обычно нет необходимости участвовать в биннинге, поскольку все, что может быть сделано с дискретизированными «биннированными» данными, как правило, может быть сделано с базовыми непрерывными значениями.
Наиболее распространенное использование «биннинга» в статистике - это построение гистограмм. Гистограммы аналогичны общему классу оценщиков плотности ядра (KDE), поскольку они включают агрегирование пошаговых функций на выбранных бинах, тогда как KDE включает агрегацию более гладких ядер. Шаговая функция, используемая в гистограмме, не является гладкой функцией, и, как правило, можно выбрать лучшие функции ядра, которые являются менее произвольными в соответствии с методом KDE, что также дает более точные оценки базовой плотности данных. Я часто говорю студентам, что гистограмма - это просто «KDE бедняка». Лично я никогда не использовал бы его, потому что получить KDE без биннинга данных очень легко, и это дает превосходные результаты без произвольного биннинга.
Другое распространенное использование «объединения» происходит, когда аналитик хочет дискретизировать непрерывные данные в ячейки, чтобы использовать аналитические методы, которые используют дискретные значения. Похоже, это то, что предлагается в разделе, который вы цитируете, относительно предсказания вокальных звуков. В таких случаях в результате биннинга возникает некоторый произвол, а также потеря информации. Опять же, лучше избегать этого, если это возможно, пытаясь сформировать модель непосредственно на базовых непрерывных значениях, а не формировать модель на дискретизированных «объединенных» значениях.
Как правило, для статистиков желательно избегать аналитических методов, которые вводят произвольные предположения, особенно в тех случаях, когда доступны альтернативные методы, чтобы легко избежать этих предположений. Поэтому я согласен с мнением, что биннинг, как правило, не нужен. Этого, безусловно, не следует избегать любой ценой, поскольку затраты важны, но, как правило, этого следует избегать, когда существуют простые альтернативные методы, позволяющие избежать его без каких-либо серьезных неудобств.
источник
Обычно я бы категорически возражал против категоризации непрерывных переменных по причинам, хорошо выраженным другими известными людьми, Фрэнком Харреллом. В этом случае, возможно, было бы полезно спросить себя о процессе, который принес результаты. Похоже, что большинство баллов фактически равно нулю, возможно, с добавлением некоторого шума. Некоторые из них снова близки к единству с шумом. Очень немногие лежат между ними. В этом случае, как представляется, существует больше оснований для категоризации, поскольку можно утверждать, что по модулю шума это двоичная переменная. Если он подходит как непрерывная переменная, коэффициенты будут иметь значение с точки зрения изменения в предикторной переменной, но в этом случае в большей части ее диапазона переменная очень малонаселенна, так что это кажется непривлекательным.
источник
Представьте, что у вас есть часы, которые показывают только часы. Только я имею в виду, что у него есть только стрелка часа, которая раз в час делает 1/12 прыжка до другого часа, она не движется плавно. Такие часы не будут очень полезны, так как вы не будете знать, если это пять минут второго, половина третьего или десять к трем. Это проблема с бин- данными, они теряют детали и вносят «скачкообразные» изменения.
источник
Для некоторых приложений, в том числе того, который вы рассматриваете, биннинг может быть строго необходим. Очевидно, что для выполнения задачи категоризации в какой-то момент вы должны удалить категориальные данные из вашей модели, и если ваши входные данные также не являются категоричными, вам потребуется выполнить бининг. Рассмотрим пример:
Однако то, что вы слышали, вполне может быть правдой, поскольку преждевременное объединение промежуточных значений отдает информацию, которая могла бы быть сохранена. Если конечная цель вашего проекта состоит в том, чтобы определить, понравится ли вам «песня», о которой идет речь, что может быть обусловлено двумя факторами: «инструментальность» и «рок-н-ролл», вам, вероятно, будет лучше сохранить их в качестве непрерывных переменных, пока вы нужно вытащить «симпатию» как категориальную переменную.
или любые коэффициенты, которые вы считаете наиболее подходящими, или любую другую модель, подходящую для вашего тренировочного набора.
Если вместо этого вы решите, является ли что-то «инструментальным» (истина или ложь) и «скалами» (истина или ложь), то у вас есть четыре категории, изложенные перед тем, как перейти к следующему дню:
Но тогда вам остается только решить, какую из этих 4 категорий вам «нравится». Вы уступили гибкость в вашем окончательном решении.
Решение о том, нужно или нет, зависит от вашей цели. Удачи.
источник
В контексте вопроса ОП я был бы удовлетворен, если бы произвольный порог 0,5 был установлен на различные значения между вероятными минимальными и максимальными значениями, и чтобы увидеть, что основные результаты его анализа в значительной степени не зависят от выбора.
источник