Вопросы с тегом «binning»

Биннинг означает группировку непрерывной переменной по дискретным категориям. В частности, он используется в отношении гистограмм, но может также использоваться в более общем смысле в смысле увеличения.

111
Оценка приблизительного распределения данных на основе гистограммы

Предположим, я хочу посмотреть, являются ли мои данные экспоненциальными на основе гистограммы (то есть смещены вправо). В зависимости от того, как я сгруппирую или скопирую данные, я могу получить совершенно разные гистограммы. Один из наборов гистограмм, по-видимому, будет экспоненциальным....

78
В чем выгода разделения непрерывной переменной-предиктора?

Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели. Мне кажется, что при биннинге переменной мы теряем информацию. Это просто для того, чтобы мы могли моделировать нелинейные эффекты? Если бы мы...

22
Преимущества использования QQ-графиков над гистограммами

В этом комментарии Ник Кокс написал: Объединение в классы - древний метод. Хотя гистограммы могут быть полезны, современное статистическое программное обеспечение позволяет легко и целесообразно адаптировать распределения к необработанным данным. Биннинг просто отбрасывает детали, которые имеют...

22
Когда мы должны дискретизировать / bin непрерывные независимые переменные / функции, а когда нет?

Когда мы должны дискретизировать / bin независимые переменные / функции, а когда нет? Мои попытки ответить на вопрос: В общем, мы не должны bin, потому что binning потеряет информацию. Биннинг на самом деле увеличивает степень свободы модели, поэтому после биннинга возможна чрезмерная подгонка....

18
Влияние границ бина на основе данных на критерий пригодности хи-квадрат?

Оставляя в стороне очевидную проблему малой мощности хи-квадрата в подобных обстоятельствах, представьте себе, что вы проводите проверку качества хи-квадрата для некоторой плотности с неопределенными параметрами путем объединения данных. Для конкретности, скажем, экспоненциальное распределение с...

14
Лучший способ поставить две гистограммы в одном масштабе?

Допустим, у меня есть два распределения, которые я хочу сравнить в деталях, то есть таким образом, чтобы форма, масштаб и сдвиг были легко видны. Хороший способ сделать это - построить гистограмму для каждого распределения, поместить их в один и тот же масштаб Х и сложить одну под другой. При этом,...

11
Как «разумно» собрать коллекцию отсортированных данных?

Я пытаюсь разумно отсортировать коллекцию. У меня есть коллекция из частей данных. Но я знаю , что это припадки данных в неравных размеров бункеров. Я не знаю, как правильно выбирать конечные точки для правильного размещения данных. например:Nnnмmm Скажем, у меня в коллекции 12 предметов, и я знаю,...

11
Оптимальное биннинг по отношению к заданной переменной отклика

Я ищу оптимальный метод биннинга (дискретизации) непрерывной переменной по отношению к заданной ответной (целевой) двоичной переменной и с максимальным количеством интервалов в качестве параметра. пример: у меня есть набор наблюдений за людьми с переменными "высота" (цифра непрерывная) и...

11
Интерпретация теоремы Байеса применительно к положительным результатам маммографии

Я пытаюсь обернуть голову вокруг результата теоремы Байеса, примененного к классическому примеру маммографии, с идеальным поворотом маммограммы. Это, Заболеваемость раком:.01.01.01 Вероятность положительной маммографии у пациента с раком:111 Вероятность положительной маммографии, учитывая, что...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Количество бинов при вычислении взаимной информации

Я хочу количественно определить отношения между двумя переменными, A и B, используя взаимную информацию. Способ вычислить его - связать наблюдения (см. Пример кода Python ниже). Однако какие факторы определяют, какое количество лотков является разумным? Мне нужно, чтобы вычисления были быстрыми,...

10
Почему следует избегать биннинга любой ценой?

Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка . Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что...

9
Формула Доана для группировки гистограмм

Я реализую различные алгоритмы, чтобы оценить лучшее количество бинов для использования для гистограмм. Большинство из тех, что я реализую, описаны на странице «Гистограмма» в Википедии в разделе « Количество бинов и ширина » *. Я застрял в проблеме с формулой Доана: 1 + log(n) + log(1 +...