Как проверить, являются ли мои данные дискретными или непрерывными?

11

Мне кажется, что для выбора правильных статистических инструментов я должен сначала определить, является ли мой набор данных дискретным или непрерывным.

Не могли бы вы научить меня, как я могу проверить, являются ли данные дискретными или непрерывными с помощью R?

evdstat
источник
Вы имеете в виду, нужно ли добавлять определенные переменные как непрерывные или как категориальные (дискретные) предикторы в модели регрессионного типа?
Ник Сэбб
Как данные были собраны и как были записаны переменные, вероятно, даст вам некоторые подсказки об этом; Кроме того, вероятно, это будет зависеть от того, хотите ли вы моделировать свои данные как непрерывные или дискретные (см., например, вопрос, связанный с элементами Лайкерта и анализом дискретных шкал). Несвязанный момент: было бы хорошо, если бы вы могли зарегистрировать свою учетную запись раз и навсегда и, возможно, рассмотреть вопрос о принятии ответов или пересмотре ваших предыдущих вопросов.
ЧЛ
выполните qqnorm, и если точки расположены по всей диагонали, данные будут непрерывными (если они расположены в горизонтальных линиях, то они дискретны)
user222362

Ответы:

14

Единственная причина, по которой я могу сразу подумать, требовать этого решения, - это принять решение о включении переменной как непрерывной или категориальной в регрессию.

Во-первых, иногда у вас нет выбора: символьные переменные или факторы (где кто-то, предоставивший data.frame принял решение за вас), явно категоричны.

x1-1,52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Я бы сказал, что переменную, имеющую только 5% уникальных значений, можно смело назвать дискретной (но, как уже упоминалось: это субъективно). Однако: это не делает его хорошим кандидатом для включения его в качестве категориальной переменной в вашей модели: если у вас есть 1000000 наблюдений и 5% уникальных значений, это все равно оставляет 50000 «категорий»: если вы включите это как категориальное, вы ' Я собираюсь потратить много степеней свободы.

Я думаю, что этот вызов еще более субъективен и сильно зависит от размера выборки и метода выбора. Без большего контекста трудно дать руководящие указания здесь.

x012

Е[Y]знак равноβ0+β11Икс1+β12Икс2
ИксяИкс==я
Е[Y]знак равноβ0+β1Икс
Е[Y]знак равноβ0+β1Икс1+2β1Икс2

χ2

Ник Саббе
источник
3
+1 Хороший пример того, как улучшить странный вопрос с отличным ответом.
1
На самом деле любой непрерывный процесс может быть дискретизирован, поэтому гистограммы просто показывают, как это делается на практике. Возможно, я перепутал данные подсчета (данные целочисленных значений) с категориями ... хотя мое первое предположение было о дискретных и непрерывных распределениях, а не только точках данных (и сумасшедших исследователях, которые назначают реальные значения категориям), так что ... все равно удалил мои , так как не думаю, что это решает проблему (+1)
Дмитрий Челов
1
кажется, что @Dmitrij удалил свой ответ, не могли бы вы еще раз отредактировать свой ответ, чтобы отразить это? Это отличный ответ (+1), так что ссылка на несуществующий контент немного торчит.
mpiktas