Когда мы должны дискретизировать / bin независимые переменные / функции, а когда нет?
Мои попытки ответить на вопрос:
- В общем, мы не должны bin, потому что binning потеряет информацию.
- Биннинг на самом деле увеличивает степень свободы модели, поэтому после биннинга возможна чрезмерная подгонка. Если у нас модель «высокого смещения», биннинг может быть неплохим, но если у нас модель «высокого отклонения», нам следует избегать биннинга.
- Это зависит от того, какую модель мы используем. Если это линейный режим, а данные имеют много «выбросов», то вероятность биннинга лучше. Если у нас есть модель дерева, то выбросы и биннинг будут иметь слишком большое значение.
Я прав? и что еще?
Я думал, что этот вопрос нужно задавать много раз, но я не могу найти его в резюме, только эти сообщения
Ответы:
Похоже, вы также ищете ответ с точки зрения прогнозирования, поэтому я собрал краткую демонстрацию двух подходов в R
Ниже я дал код для функции, которая автоматически сравнивает два метода для любой заданной функции истинного сигнала
Эта функция создаст зашумленные обучающие и тестовые наборы данных из данного сигнала, а затем подгонит ряд линейных регрессий к обучающим данным двух типов.
cuts
Модель включает в себя Binned предикторов, образованных сегментировании диапазона данных на равные по размеру половиной открытых интервалы, а затем создать двоичные предикторы указывающих на какой интервал каждой точка обучения принадлежит.splines
Модель включает в себя естественный кубический сплайн расширение базиса, с узлами , равномерно распределенных по всему диапазону предиктора.Аргументы
signal
: Одна переменная функция, представляющая истину, которая будет оценена.N
: Количество образцов, включаемых в данные обучения и тестирования.noise
: Уровень случайного гауссовского шума, добавляемый к сигналу тренировки и тестирования.range
: Диапазон данных обучения и тестированияx
, данные, которые генерируются равномерно в этом диапазоне.max_paramters
: Максимальное количество параметров для оценки в модели. Это и максимальное количество сегментов вcuts
модели, и максимальное количество узлов вsplines
модели.Обратите внимание, что количество параметров, оцениваемых в
splines
модели, совпадает с количеством узлов, поэтому две модели сравниваются.Возвращаемый объект из функции имеет несколько компонентов
signal_plot
: График функции сигнала.data_plot
: Точечный график данных обучения и тестирования.errors_comparison_plot
: График, показывающий эволюцию суммы квадратов частоты ошибок для обеих моделей в диапазоне числа оцененных параметров.Я продемонстрирую с двумя функциями сигнала. Первая - это синусоида с нарастающим линейным трендом
Вот как развиваются показатели ошибок
Второй пример - сумасшедшая функция, которую я использую только для такого рода вещей.
А для развлечения вот скучная линейная функция
Ты это видишь:
Поэтому сплайны всегда предпочтительнее с точки зрения прогнозирования.
Код
Вот код, который я использовал для сравнения. Я обернул все это в функцию, чтобы вы могли опробовать ее с вашими собственными сигнальными функциями. Вам нужно будет импортировать библиотеки
ggplot2
иsplines
R.источник
Агрегирование имеет существенное значение (знает ли об этом исследователь или нет).
Нужно объединять данные, включая независимые переменные, на основе самих данных, когда нужно :
Кровоизлияние статистическая сила.
Предвзятости меры ассоциации.
Я полагаю, что литература началась с Гельке и Биля (1934 г. - определенно стоит почитать и предлагает некоторые достаточно простые компьютерные симуляции, которые можно запустить для себя) и продолжилась, особенно в литературе, посвященной проблеме модифицируемой ареальной единицы (Openshaw). , 1983; Дадли, 1991; Ли и Кемп, 2000).
Если у человека нет априорной теории шкалы агрегации (сколько единиц агрегирования) и функции категоризации агрегации (какие отдельные наблюдения будут заканчиваться в каких единицах агрегации), нельзя агрегировать. Например, в эпидемиологии мы заботимся о здоровье людей и о здоровье населения . Последние представляют собой не просто случайные наборы первых, но определяются, например, геополитическими границами, социальными обстоятельствами, такими как расово-этническая категоризация, категории карцерального статуса и категории истории и т. Д. (См., Например, Krieger, 2012).
Ссылки
Дадли, Г. (1991). Масштаб, агрегация и модифицируемая ареальная проблема единиц . [платный] Оперативный географ, 9 (3): 28–33.
Gehlke, CE и Biehl, K. (1934). Определенное влияние группировки на величину коэффициента корреляции в материале переписного тракта . [платный] Журнал Американской статистической ассоциации , 29 (185): 169–170.
Кригер, Н. (2012). Кто и что такое «население»? исторические дебаты, текущие противоречия и последствия для понимания «здоровья населения» и устранения несправедливости в отношении здоровья . Milbank Quarterly , 90 (4): 634–681.
Lee, HTK and Kemp, Z. (2000). Иерархические рассуждения и оперативная аналитическая обработка пространственных и временных данных . В материалах 9-го Международного симпозиума по обработке пространственных данных , Пекин, КНР. Международный географический союз.
Openshaw S. (1983). Модифицируемая ареальная единичная задача. Концепции и методы в современной географии . Geo Books, Норвич, Великобритания.
источник