Проверьте, соответствуют ли переменные тому же распределению

Давайте выясним, хороший ли это тест или нет. Это намного больше, чем просто заявить, что это плохо, или показать в одном случае, что это не работает. В некоторых случаях большинство тестов работают плохо, поэтому часто мы сталкиваемся с определением обстоятельств, при которых любой предлагаемый тест может быть хорошим выбором.

Описание теста

Как и любой тест гипотезы, он состоит из (а) нулевой и альтернативной гипотезы и (б) тестовой статистики (коэффициента корреляции), предназначенной для различения гипотез.

Нулевая гипотеза состоит в том, что две переменные происходят из одного и того же распределения. Чтобы быть точным, назовем переменные $X$ и $Y$ и предположим, что мы наблюдали $n_x$ экземпляров $X$ , называемых $x_i = (x_1, x_2, \ldots, x_{n_x})$ , и $n_y$ экземпляров $Y$ , называемых $y_i$ . Нулевая гипотеза состоит в том, что все экземпляры $X$ и $Y$ независимы и одинаково распределены (iid).

Возьмем в качестве альтернативной гипотезы, что (а) все экземпляры идентифицированы согласно некоторому базовому распределению и (b) все экземпляры идентифицированы согласно некоторому базовому распределению но (c) отличается от . (Таким образом, мы не будем искать корреляции между , корреляции между , корреляции между и или различия в распределении между 's или $X$ $F_X$ $Y$ $F_Y$ $F_X$ $F_Y$ $x_i$ $y_i$ $x_i$ $y_j$ $x$ $y$ отдельно: это считается не правдоподобным.)

Предлагаемая тестовая статистика предполагает, что (назовите это общее значение ), и вычисляет коэффициент корреляции (где, как обычно, обозначает наименьший данных). Назовите это . $n_x = n_y$ $n$ $(x_{[i]}, y_{[i]})$ $[i]$ $i^\text{th}$ $t(x,y)$

Тесты перестановок

В этой ситуации - независимо от того, какая статистика предлагается - мы всегда можем провести тест перестановки. Согласно нулевой гипотезе, вероятность данных равна вероятности любой перестановки значения данных. Другими словами, назначение половины данных а другой половины $t$ $\left((x_1, x_2, \ldots, x_n), (y_1, y_2, \ldots, y_n)\right)$ $2n$ $X$ $Y$ это чисто случайное совпадение. Это простое, прямое следствие н.о.р. предположений и нулевая гипотеза , что . $F_X=F_Y$

Следовательно, выборочное распределение , обусловленное наблюдениями и , является распределением всех значений достигнутых для всех перестановки данных. Мы заинтересованы в этом, потому что для любого заданного предполагаемого размера теста , такого как (что соответствует % достоверности), мы построим двустороннюю критическую область из выборочного распределения : оно состоит из наиболее экстремального $t(x,y)$ $x_i$ $y_i$ $t$ $(2n)!$ $\alpha$ $\alpha = .05$ $95$ $t$ % из возможных значений (на высокой стороне, таквысокаякорреляции согласуется с аналогичным распределением и низкой корреляцией нет). Вот как мы определяем, насколько большим должен быть коэффициент корреляции, чтобы решить, что данные поступают из разных распределений. $100\alpha$ $t$

Имитация нулевого распределения выборки

Потому что (или, если хотите, $(2n)!$ , который подсчитывает количество способов разбиенияданныхна две части размера), становится большим даже при малых, практически невозможно точно рассчитать распределение выборки, поэтому мы производим выборку с использованием моделирования. (Например, когда, $\binom{2n}{n}/2$ $2n$ $n$ $n$ $n=16$ и) Часто достаточно около тысячи образцов (и, безусловно, будет достаточно для исследований, которые мы собираемся провести). $\binom{2n}{n}/2 = 300\ 540\ 195$ $(2n)! \approx 2.63\times 10^{35}$

Нам нужно выяснить две вещи: во-первых, как выглядит распределение выборки при нулевой гипотезе. Во-вторых, насколько хорошо этот тест различает разные распределения?

Есть сложность: распределение выборки зависит от характера данных. Все, что мы можем сделать, - это смотреть на реалистичные данные, созданные для того, чтобы имитировать то, чем мы заинтересованы в изучении, и надеяться, что то, что мы узнаем из моделирования, будет применяться к нашей собственной ситуации.

Реализация

Чтобы проиллюстрировать, я выполнил эту работу в R. Это естественно падает на три части.

Функция для вычисления статистики теста . Поскольку я хочу быть немного более общим, моя версия обрабатывает наборы данных разных размеров ( ) путем линейной интерполяции между значениями в (отсортированном) большем наборе данных для создания совпадений с (отсортированным) меньшим набором данных. Поскольку это уже сделано функцией , я просто беру ее результаты: $t(x,y)$ $n_x \ne n_y$ Rqqplot
```
test.statistic <- function(x, y) {
  transform <- function(z) -log(1-z^2)/2
  fit <- qqplot(x,y, plot.it=FALSE)
  transform(cor(fit$x, fit$y))
}
```
Небольшой поворот - ненужный, но полезный для визуализации - повторно выражает коэффициент корреляции таким образом, чтобы распределение нулевой статистики было приблизительно симметричным. Вот что transformделает.
Моделирование распределения выборки. Для ввода эта функция принимает количество итераций n.iterвместе с двумя наборами данных в массивах xи y. Выводит массив n.iterзначений тестовой статистики. Его внутренняя работа должна быть прозрачной даже для не Rпользователя:
```
permutation.test <- function(n.iter, x, y) {
  z <- c(x,y)
  n.x <- length(x)
  n.y <- length(y)
  n <- length(z)
  k <- min(n.x, n.y)
  divide <- function() {
    i <- sample.int(n, size=k)
    test.statistic(z[i], z[-i])
  }
  replicate(n.iter, divide())
}
```
Хотя это все, что нам нужно для проведения теста, для его изучения мы захотим повторить тест много раз. Итак, мы проводим тест один раз и заключаем этот код в третий функциональный уровень, обычно называемый fздесь, который мы можем вызывать повторно. Чтобы сделать его достаточно общим для широкого исследования, для ввода он принимает размеры наборов данных для имитации ( n.xи n.y), количество итераций для каждого теста перестановки ( n.iter), ссылку на функцию testдля вычисления статистики теста (вы увидите на мгновение, почему мы не хотим жестко программировать это), и две функции для генерации случайных значений iid, одна для ( ) и одна для ( ). Опция $X$ dist.x $Y$ dist.yplot.it полезно, чтобы увидеть, что происходит.
```
f <- function(n.x, n.y, n.iter, test=test.statistic, dist.x=runif, dist.y=runif, 
    plot.it=FALSE) {
  x <- dist.x(n.x)
  y <- dist.y(n.y)
  if(plot.it) qqplot(x,y)

  t0 <- test(x,y)
  sim <- permutation.test(n.iter, x, y)
  p <- mean(sim > t0) + mean(sim==t0)/2
  if(plot.it) {
    hist(sim, xlim=c(min(t0, min(sim)), max(t0, max(sim))), 
         main="Permutation distribution")
    abline(v=t0, col="Red", lwd=2)
  }
  return(p)
}
```
Результатом является моделируемое «p-значение»: доля симуляций, дающая статистику, которая выглядит более экстремально, чем та, которая фактически рассчитывается для данных.

Части (2) и (3) являются чрезвычайно общими: вы можете провести исследование, подобное этому, для другого теста, просто заменив его test.statisticдругим вычислением. Мы делаем это ниже.

Первые результаты

По умолчанию наш код сравнивает данные, взятые из двух равномерных распределений. Я позволю этому сделать это (для , которые являются довольно небольшими наборами данных и поэтому представляют собой сравнительно сложный тестовый случай), а затем повторяю это для сравнения с равномерно-нормальным и экспоненциально-равномерным сравнением. (Равномерные распределения нелегко отличить от нормальных распределений, если только у вас не больше значений, но экспоненциальные распределения - имеющие высокую асимметрию и длинный правый хвост - обычно легко отличить от равномерных распределений.) $n.x = n.y = 16$ $16$

set.seed(17)             # Makes the results reproducible
n.per.rep <- 1000        # Number of iterations to compute each p-value
n.reps <- 1000           # Number of times to call `f`
n.x <- 16; n.y <- 16     # Dataset sizes

par(mfcol=c(2,3))        # Lay results out in three columns
null <- replicate(n.reps, f(n.x, n.y, n.per.rep))
hist(null, breaks=20)
plot(null)

normal <- replicate(n.reps, f(n.x, n.y, n.per.rep, dist.y=rnorm))
hist(normal, breaks=20)
plot(normal)

exponential <- replicate(n.reps, f(n.x, n.y, n.per.rep, dist.y=function(n) rgamma(n, 1)))
hist(exponential, breaks=20)
plot(exponential)

Correlation test results

$X$ $Y$ $X$ $Y$

$16$ $x_i$ $16$ $y_i$ f $0.05$ $11$ $16$ независимые значения от каждого. Это довольно низкая мощность. Но, возможно, это неизбежно, так что давайте продолжим.

Правые графики аналогичным образом проверяют равномерное распределение против экспоненциального. Этот результат странный. Этот тест чаще всего приводит к выводу, что унифицированные данные и экспоненциальные данные выглядят одинаково. Кажется, «думают», что равномерные и экспоненциальные переменные более похожи, чем две однородные переменные! Что тут происходит?

Проблема заключается в том, что данные из экспоненциального распределения будут иметь несколько чрезвычайно высоких значений. Когда вы создадите диаграмму рассеяния для равномерно распределенных значений, тогда будет несколько точек далеко справа вверху от всех остальных. Это соответствует очень высокому коэффициенту корреляции. Таким образом, всякий раз , когда любое из распределений генерирует несколько экстремальных значений, коэффициент корреляции является ужасным выбором для измерения того, насколько различны распределения. Это приводит к еще одной еще более серьезной проблеме: по мере увеличения размеров набора данных шансы получить несколько экстремальных наблюдений возрастают. Таким образом, мы можем ожидать, что этот тест будет выполняться хуже и хуже с увеличением объема данных. Как ужасно ...

Лучший тест

$y=x$

Вот Rреализация:

test.statistic <- function(x, y) {
  ks.test(x,y)$statistic
}

Это верно: оно встроено в программное обеспечение, поэтому нам остается только вызвать его. Но ждать! Если руководство внимательно читать, вы узнаете , что (а) тестовые поставки р-значение , а (б) , что р-значение (грубо) неправильные , когда оба xи yявляются наборы данных. Он предназначен для использования, когда вы уверены, что точно знаете , из какого источника xпоступили данные, и хотите узнать, правда ли это. Таким образом, тест не позволяет должным образом учесть неопределенность в отношении распределения данных y.

Нет проблем! Тестовая структура перестановок все еще так же действительна. Сделав предыдущее изменение в test.statistic, все, что нам нужно сделать, это повторно запустить предыдущее исследование, без изменений. Вот результаты.

K-S test study

$p=0.20$

$70$ $0.05$ $11$

$30$ $\alpha=5$ $50$ $\alpha=10$ $0.10$

Выводы

Таким образом, проблемы с корреляционным тестом не связаны с некоторыми сложностями в этой настройке. Корреляционный тест не только очень плохо работает, но и плох по сравнению с широко известным и доступным тестом. (Я предполагаю, что это недопустимо, что означает, что он всегда будет работать в среднем хуже, чем версия теста KS с перестановкой, подразумевая, что нет никаких оснований его использовать).

Whuber
источник

Очень хорошее объяснение, и мне нравится видеть, как другие делают некоторые симуляции. Мне все еще трудно понять, почему корреляция, кажется, немного предсказывает (или мы даже не можем так много сказать?). Кроме того, единственная расплывчатая (но важная часть для понимания того, почему работает KS) - это линия «x = y» («она вычисляет наибольшее вертикальное отклонение от линии y = x на их графике QQ». (Когда данные поступают из того же распределение, сюжет QQ имеет тенденцию следовать этой линии. "). Спасибо за усилия, хотя, я многому научился

PascalVKooten

1

$1$

KS проверяет, пришли ли два набора данных из одной и той же функции распределения, т.е. их CDF одинаковы. Однако мне кажется, что OP может искать тест, который скажет, что Exp (0.1) - это то же самое, что Exp (100), а Normal (0, 5) - то же самое, что Normal (10, .2 ). KS вообще этого не делает, и вообще-то, наверное, вообще невозможно (и я не знаю, когда вы этого захотите). Но некоторая проверка того, насколько деформируемо одно в другое, может сработать в простых случаях (например, центрирование и стандартизация будут обрабатывать нормали прилично, но не экспоненциально).

Дугал

@ Дугал Я перечитал твой комментарий. Правильно ли говорить, что когда мы говорим, что «распределения одинаковы», мы имеем в виду, что CDF одинаковы?