Каков наилучший способ показать отношения между:
- непрерывная и дискретная переменная,
- две дискретные переменные?
До сих пор я использовал точечные диаграммы, чтобы посмотреть на связь между непрерывными переменными. Однако в случае дискретных переменных точки данных накапливаются через определенные промежутки времени. Таким образом, линия наилучшего соответствия может быть предвзятой.
Ответы:
Ниже: оригинальный график может вводить в заблуждение, потому что дискретный характер переменных делает точки пересечения:
Один из способов обойти это - ввести некоторую прозрачность в символ данных:
Другой способ - мягко сместить местоположение символа, чтобы создать мазок. Эта техника называется "дрожание":
Оба решения по-прежнему позволят вам подобрать прямую линию для оценки линейности.
R код для вашей справки:
источник
Я бы использовал boxplots для отображения взаимосвязи между дискретной и непрерывной переменной. Вы можете сделать свои блокпосты вертикальными или горизонтальными с помощью стандартного статистического программного обеспечения, так что его легко визуализировать как IV или DV. Это является возможным использовать диаграмму рассеяния с дискретным и непрерывной переменной, просто присвоить номер дискретной переменной (например, 1 и 2), и джиттера эти значения (примечание верхний участок на право здесь ).
Что касается вашего комментария, что линия наилучшего соответствия может быть предвзятой, это зависит от того, что у вас есть. Например, если у вас есть дискретная переменная с двумя уровнями в качестве вашего IV, и непрерывная переменная в качестве вашего DV, вы можете провести линию через два средних значения, и это не будет смещено. (Обычно мы думаем, что эта ситуация подходит для t-теста, но на самом деле это форма регрессии, т. Е. Простой случай, см. Мой ответ здесь. .) С другой стороны, если у вас есть дискретный переменная с двумя уровнями в качестве вашего DV, стандартная (OLS) регрессия была бы неуместна ( потребовалась бы логистическая регрессия), и линия наилучшего соответствия была бы смещена, но вы могли бы уместить (и построить) линию низкого уровня как часть вашей начальной разведка данных.
Для визуализации отношений между двумя дискретными переменными я бы использовал мозаичный график . Вы можете также использовать решета участок , в ассоциировании участок , или динамичный сюжет давления с некоторым программированием.
источник
При рассмотрении взаимосвязи между двоичной исходной переменной и непрерывным предиктором я бы использовал сглаживание лёсса (с отключенным определением выбросов, например, в R)
lowess(x, y, iter=0)
.В следующем выпуске
Hmisc
пакета R вы можете легко создать одинlattice
графический объект, который помещает такие кривые в многопанельный дисплей для нескольких предикторов, напримеристочник
Если вы не удовлетворены простыми точечными диаграммами, вы можете добавить частоты точек данных к каждому значению дискретной переменной. Как это сделать, зависит только от статистической программы, которую вы используете. Вот пример для Stata. Вы также можете применить это к точечной диаграмме двух категориальных переменных. В противном случае может быть хорошо работать с рамочным графиком или наложенными гистограммами, но это действительно зависит от того, как вы хотите представить эти переменные.
источник
Я нашел документ, применимый к ассоциации между двумя двоичными переменными, на http://www.boekboek.com/xb130929113026 - здесь, в этой статье показано и доказано, что сила ассоциации между двумя двоичными переменными может быть выражена в виде доли идеальная ассоциация. Таким образом, становится возможным и предпочтительнее заявить: ассоциация между переменной A и переменной B составляет, например, 50% вместо современного указания: OR = 9 (не легко интерпретировать) или реальный риск = 2 (в настоящее время относительный риск считается слишком, чтобы быть мерой ассоциации, хотя на самом деле это функция ассоциации, распространенности или заболеваемости и позитивности).
источник