Лучшие практики при обработке данных о дальности как непрерывных

Я смотрю на то, связано ли изобилие с размером. Размер (конечно) непрерывен, однако, численность записывается в таком масштабе, что

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc...

А через Q ... 17 уровней. Я думал, что одним из возможных подходов было бы назначить каждой букве число: либо минимум, максимум, либо медиана (то есть A = 5, B = 18, C = 38, D = 75,5 ...).

Каковы потенциальные ловушки - и как таковой, было бы лучше рассматривать эти данные как категоричные?

Я прочитал этот вопрос, который дает некоторые мысли - но один из ключей этого набора данных заключается в том, что категории не являются четными, - поэтому, рассматривая его как категоричный, можно предположить, что разница между А и В такая же, как разница между B и C ... (что можно исправить с помощью логарифма - спасибо Anonymouse)

В конечном счете, я хотел бы посмотреть, можно ли использовать размер в качестве предиктора для численности после учета других факторов окружающей среды. Прогноз также будет в диапазоне: учитывая размер X и факторы A, B и C, мы прогнозируем, что изобилие Y будет падать между Min и Max (что, я полагаю, может охватывать одну или несколько точек шкалы: больше чем Min D и меньше чем Макс Ф ... хотя чем точнее, тем лучше).

categorical-data variance model continuous-data Trees4theForest
источник

Ответы:

Категориальное решение

$A\lt B\lt \cdots \lt J\lt \ldots$

В качестве иллюстрации рассмотрим 30 пар (размер, категория численности), сгенерированных как

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

с численностью, разделенной на интервалы [0,10], [11,25], ..., [10001,25000].

Scatterplot категории численности в зависимости от размера

Упорядоченная логистическая регрессия дает распределение вероятностей для каждой категории; распределение зависит от размера. Из такой подробной информации вы можете получить оценочные значения и интервалы вокруг них. Вот график из 10 PDF-файлов, оцененных по этим данным (оценка для категории 10 была невозможна из-за отсутствия там данных):

Плотности вероятностей по категориям

Непрерывное решение

Почему бы не выбрать числовое значение для представления каждой категории и просмотреть неопределенность относительно истинного содержания в категории как часть условия ошибки?

$f$ $a$ $f(a)$ $a$

$f$ $\alpha_i$ $i$ $\beta_i$ $i$ $f(\beta_i)$ $\alpha_i$ $\alpha_{i+1}$ $f(a)$

$\varepsilon$ $a+\varepsilon$ $a$ $f(\beta_i)$ $f(\beta_i) - f(a)$

error = f (a + ε) - f (a) - (f (a + ε) - f (β_{i})) .

$\text{error} = f(a + \varepsilon) - f(a) - \left(f(a + \varepsilon) - f(\beta_i)\right).$

$f(a + \varepsilon) - f(a)$ $f$ $\varepsilon$ $\varepsilon$ $\varepsilon$ $i - f(\beta_i) \lt 0$ $i+1 - f(\beta_i) \ge 0$ $f$ $\beta_i$ $f(\beta_i)$ $i$ $i+1$ $\beta_i \approx f^{-1}(i+1/2)$

$f$

$4 \log(10) \approx 9.21$

Результаты регрессии

На этом графике показаны некатегоризованные значения содержания, а также соответствие, основанное на категорированных значениях (с использованием геометрических средних конечных точек категории, как рекомендуется) и соответствие, основанное на самих значениях. Посадки удивительно близки, что указывает на то, что этот метод замены категорий подходящим образом выбранными числовыми значениями хорошо работает в этом примере .

$\beta_i$ $f$ $1$ $0$ $25000$

Whuber
источник

+1 отличный ответ! Мне особенно нравится, как описаны 2 разных варианта вместе с их обоснованиями. Я также собираюсь взять журнал изобилия, а не размера, должен быть акцент, который был моей мыслью также. Один вопрос, в части 1, вы утверждаете, что «вы можете получить оценочные значения и интервалы вокруг них». Как это сделать?

gung - Восстановить Монику

Хороший вопрос, @gung. Грубый способ, который может быть эффективным, состоит в том, чтобы рассматривать категории как данные с интервалом, а упорядоченные результаты логита обеспечивают (дискретное) распределение по этим интервалам для любого заданного значения «размера». Результатом является интервальное распределение, которое будет иметь среднее значение интервала и доверительные интервалы.

whuber

@whuber, стоит упомянуть варианты программного обеспечения. Я предполагаю, что вы использовали Stata (если я достаточно хорошо подготовлен к графам Stata и извлекаю их из графиков R и SAS), где используется эта модель ologit. В R, вы можете сделать это с polrв MASSпакете.

StasK

Вы правы, @Stask. Спасибо за ссылку на решение R. (Все графы являются графиками по умолчанию в Stata 11; были настроены только легенды и стили линий в последнем, потому что иначе красно-зеленое различие могло бы быть

неочевидным

@StasK rms::lrmи пакет ordinal ( clm) также являются хорошими вариантами.

ЧЛ

Подумайте об использовании логарифма размера.

ВЫЙТИ - Anony-Mousse
источник

Ха - Этот ответ вызвал частичное лицо ладони. Правда, это решает проблему масштаба - но все еще под рукой: классифицировать или нет, и к какому количеству привязать «значение». Если эти вопросы не имеют отношения, я тоже могу это услышать.

Trees4theForest

Ну, вы ставили различные проблемы в один. Похоже, что ваши данные имеют больше смысла в логарифмическом масштабе. Хотите ли вы делать биннинг или нет - это отдельный вопрос, и у меня есть только один ответ для вас: это зависит от ваших данных и от того, чего вы хотите достичь. Тогда возникает еще один скрытый вопрос: как мне вычислить разницу между интервалами - вычислить разницу их средних? или минимальное расстояние (тогда от A до B будет 0, от B до C будет 0, но от A до C нет). и т. д.

ВЫЙТИ - Anony-Mousse

Хорошие моменты, я обновил свой вопрос с дополнительной информацией для достижения целей. Что касается разницы в интервалах, я думаю, что это мой вопрос - каковы будут относительные преимущества / недостатки вычисления интервала на основе разности средних, минимального расстояния, максимального расстояния, расстояния между минутами, расстояния между максимумами и т. Д. Любой совет о том, какие вещи мне нужно рассмотреть, чтобы принять это решение (или, если это вообще нужно учитывать), было бы здорово.

Trees4theForest

Есть много других вариантов. Например, чтобы устранить все эффекты масштаба, вместо этого вы можете попытаться предсказать позицию рейтинга. Помимо этого, речь идет об ошибках измерения. Взяв логарифм, вы обычно так же взвешиваете ошибки. Таким образом, когда истинное значение равно 10000, а прогнозируемое значение равно 10100, это намного меньше, чем когда прогнозируемое значение равно 1, а истинное значение равно 101. Кроме того, выполняя биннинг и вычисляя мыслеист между бинами, вы даже весите мало ошибки с 0.

Выйти - Anony-Mousse