Как обсудить диаграмму рассеяния с несколькими появляющимися линиями?

Мы измерили две переменные, и диаграмма рассеяния, кажется, предлагает несколько «линейных» моделей. Есть ли способ попытаться отогнать эти модели? Выявление других независимых переменных оказалось трудным.

Диаграмма рассеяния двух переменных

Обе переменные сильно смещены влево (в сторону небольших чисел), это ожидаемое распределение в нашей области. Интенсивность точки представляет собой количество точек данных (на масштаб) при этом . $\log_{10}$ $<x,y>$

В качестве альтернативы, есть ли способ сгруппировать точки?

В нашей области утверждается, что эти две переменные линейно коррелируют. Мы пытаемся понять / объяснить, почему это не так в наших данных.

(обратите внимание, у нас есть 17 миллионов точек данных)

обновление: спасибо за все ответы, вот некоторые запрошенные разъяснения:

Обе переменные являются только целыми числами, что объясняет некоторые шаблоны в диаграмме рассеяния журнала.
К счастью, по определению минимальное значение обеих переменных равно 1.
7M точек на («объяснено» левой асимметрией данных) $<3,1>$

Вот запрошенные участки:

график рассеяния: Scatterplot в журнале регистрации

(пробелы вызваны целочисленными значениями)

log-log полярный: полярные координаты $\theta = y$

Гистограмма соотношения:

$1/3$

linear-model scatterplot Дэви Лэндман
источник

(r, θ)

$(r,\theta)$

X

$X$

Y

$Y$

θ

$\theta$

θ

$\theta$

Существуют ли соотношения для получения Y и X? Включены ли переменные, которые принимают только дискретные значения? Как это выглядит как лог-сюжет?

Glen_b

@whuber & Glen_b Я добавил графики с этими преобразованиями.

Дэви Лэндман

r

$r$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@whuber Я обновил сюжет, поставил тэту на y, вы имеете в виду эти строки?

Дэви Лэндман

Ответы:

$Y$ $X$ $Y/X$

$X/k$ $kX$ $k$

$Y = 0$ $\log(Y + \text{constant})$

Пункт терминологии: асимметрия в статистике описывается со ссылкой на хвост, который более вытянут. Вы можете считать эту терминологию обратной. Здесь обе переменные смещены к высоким значениям или положительно или смещены вправо.

$Y = 1$ $Y = 0$

Как и прежде, я бы не советовал моделировать разные полосы по-разному без научной причины различать их или рассматривать отдельно. Вы должны просто усреднить то, что у вас есть. (Могут быть известны методы с такими данными для подавления дискретности. Если люди в вашей области регулярно измеряют миллионы точек для каждого графика, трудно поверить, что этого раньше не было.)

Корреляция, безусловно, должна быть положительной. Помимо формального теста на значимость, который здесь был бы совершенно бесполезным, поскольку незначительные корреляции будут квалифицироваться как значимые для данного размера выборки, вопрос о том, будет ли он объявлен сильным, зависит от ожиданий и стандартов в вашей области. Количественное сравнение вашей корреляции с результатами других - это путь.

Подробно: асимметрия все еще описывается неверно в соответствии со статистическим соглашением. Эти переменные перекошены вправо; этот жаргон подходит, если смотреть на гистограмму с горизонтальной осью величины и отмечать, что асимметрия названа для более длинного хвоста, а не для концентрации с большим количеством значений.

Ник Кокс
источник

Я добавил график log-log и попытался быть более точным в отношении асимметрии.

Дэви Лэндман

\begin{aligned} Y_{i} & = α_{1} + β_{1} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align}$

m^{t h}

$m^{th}$

\begin{aligned} Y_{i} & = α_{m} + β_{m} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align}$

M

$M$

m^{t h}

$m^{th}$

p_{m}

$p_m$

\sum_{m} p_{m} = 1

$\sum_m p_m =1$

$\epsilon$ $N(0,\sigma^2)$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} p_{m} \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ϕ

$\phi$

3 M + 1

$3M+1$

\sum_{m} p_{m} = 1, p_{m} \geq 0

$\sum_m p_m=1,\; p_m\ge0$

α

$\alpha$

β

$\beta$

p_{m}

$p_m$

\frac{1}{M}

$\frac{1}{M}$

α

$\alpha$

β

$\beta$

$Z_i$ $p_m$ $p_m$ $Z_i$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} (\frac{e x p (δ_{m} + γ_{m} Z_{i})}{\sum_{m^{'}} e x p (δ_{m^{'}} + γ_{m^{'}} Z_{i})}) \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

$5M+1$ $5M-1$ $\delta, \gamma$

$M$

Билл
источник

M

$M$

Я наблюдал подобное поведение в некоторых моих наборах данных. В моем случае несколько разных линий были из-за ошибки квантования в одном из моих алгоритмов обработки.

То есть, мы смотрим на точечные графики обработанных данных, и алгоритм обработки имеет некоторые эффекты квантования, которые вызывают зависимости в данных, которые выглядят точно так же, как вы видели выше.

Исправление эффектов квантования привело к тому, что наш вывод выглядел гораздо более плавным и менее сгруппированным.

Что касается вашего комментария "линейной корреляции". То, что вы представили, недостаточно, чтобы определить, являются ли эти данные линейно коррелированными или нет. То есть в некоторых областях коэффициент корреляции> 0,7 считается сильной линейной корреляцией. Учитывая, что большинство ваших данных находится вблизи источника, вполне возможно, что ваши данные линейно коррелированы относительно того, что скажет «общепринятая мудрость». Корреляция очень мало говорит о наборе данных.

Джон
источник