Я смотрю на то, связано ли изобилие с размером. Размер (конечно) непрерывен, однако, численность записывается в таком масштабе, что
A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc...
А через Q ... 17 уровней. Я думал, что одним из возможных подходов было бы назначить каждой букве число: либо минимум, максимум, либо медиана (то есть A = 5, B = 18, C = 38, D = 75,5 ...).
Каковы потенциальные ловушки - и как таковой, было бы лучше рассматривать эти данные как категоричные?
Я прочитал этот вопрос, который дает некоторые мысли - но один из ключей этого набора данных заключается в том, что категории не являются четными, - поэтому, рассматривая его как категоричный, можно предположить, что разница между А и В такая же, как разница между B и C ... (что можно исправить с помощью логарифма - спасибо Anonymouse)
В конечном счете, я хотел бы посмотреть, можно ли использовать размер в качестве предиктора для численности после учета других факторов окружающей среды. Прогноз также будет в диапазоне: учитывая размер X и факторы A, B и C, мы прогнозируем, что изобилие Y будет падать между Min и Max (что, я полагаю, может охватывать одну или несколько точек шкалы: больше чем Min D и меньше чем Макс Ф ... хотя чем точнее, тем лучше).
источник
ologit
. В R, вы можете сделать это сpolr
вMASS
пакете.rms::lrm
и пакет ordinal (clm
) также являются хорошими вариантами.Подумайте об использовании логарифма размера.
источник