Мне кажется, что для выбора правильных статистических инструментов я должен сначала определить, является ли мой набор данных дискретным или непрерывным.
Не могли бы вы научить меня, как я могу проверить, являются ли данные дискретными или непрерывными с помощью R?
r
continuous-data
discrete-data
evdstat
источник
источник
Ответы:
Единственная причина, по которой я могу сразу подумать, требовать этого решения, - это принять решение о включении переменной как непрерывной или категориальной в регрессию.
Во-первых, иногда у вас нет выбора: символьные переменные или факторы (где кто-то, предоставивший data.frame принял решение за вас), явно категоричны.
x1
x
Я бы сказал, что переменную, имеющую только 5% уникальных значений, можно смело назвать дискретной (но, как уже упоминалось: это субъективно). Однако: это не делает его хорошим кандидатом для включения его в качестве категориальной переменной в вашей модели: если у вас есть 1000000 наблюдений и 5% уникальных значений, это все равно оставляет 50000 «категорий»: если вы включите это как категориальное, вы ' Я собираюсь потратить много степеней свободы.
Я думаю, что этот вызов еще более субъективен и сильно зависит от размера выборки и метода выбора. Без большего контекста трудно дать руководящие указания здесь.
x
0
1
2
источник