Что делать, если значения двух образцов существенно различаются, но разница кажется слишком маленькой, чтобы иметь значение

13

У меня есть два образца ( в обоих случаях). Средство отличается примерно вдвое от объединенного стандартного. девиация Результирующее значение T составляет приблизительно 10. Хотя приятно знать, что я убедительно показал, что средние значения не одинаковы, мне кажется, это обусловлено большим n. Глядя на гистограммы данных, я, конечно, не чувствую, что, например, небольшое значение p действительно представляет данные, и, честно говоря, не очень удобно их цитировать. Я, наверное, задаю не тот вопрос. Я думаю: хорошо, средства разные, но действительно ли это имеет значение, поскольку дистрибутивы существенно перекрываются?n70T

Это где Байесовское тестирование полезно? Если так, то где хорошее место, чтобы начать, немного поиска в Google не принесло ничего полезного, но я не могу, задавая правильный вопрос. Если это неправильно, у кого-нибудь есть предложения? Или это просто предмет для обсуждения, а не количественный анализ?

котелок
источник
Я просто хочу добавить ко всем другим ответам, что ваше первое утверждение неверно: вы НЕ убедительно показали, что средства разные . P-значение t-теста говорит вам, является ли вероятность наблюдения ваших данных или более экстремальных значений вероятностью / маловероятностью, учитывая нулевую гипотезу (которая для t-теста равна , то есть H 0 : {«Средства равны»}), что не означает, что средства на самом деле разные . Кроме того, я предполагаю, что вы также выполнили F-тест, чтобы проверить равенство дисперсий перед выполнением t-теста с объединенной дисперсией, верно? μA=μBH0
Нестор
Ваш вопрос очень хороший, поскольку он выявляет важное различие и показывает, что вы на самом деле думаете о своих данных, а не ищете какие-то звезды в статистической продукции и объявляете себя готовым. Как указано в нескольких ответах, статистическая значимость отличается от значимой . И когда вы думаете об этом, они не могут быть: как статистическая процедура узнает, что статистически значимая средняя разница 0,01 означает что-то в поле A, но бессмысленно мало в поле B?
Уэйн
Справедливости ради, на языке не было места, но когда значение p похоже на те, что я получаю, я не слишком суетлив в словах. Я сделал F-тест (и QQ-график). Как говорится, достаточно близко для джаза.
Боулер
1
FWIW, если ваши средства находятся на расстоянии 2 SD друг от друга, это кажется мне довольно большой разницей. Конечно, это будет зависеть от вашей области, но это различие, которое люди легко заметят невооруженным глазом (например, средние высоты мужчин и женщин США в возрасте 20-29 лет различаются примерно на 1,5 SD). ИМО, если распределение не на самом деле, вам не нужно проводить анализ данных; как минимум, w / 6, p будет <.05, если распределения не перекрываются. Np
gung - Восстановить Монику
Я согласен, что разница велика, хотя, как оказалось, совершенно неуважительна.
Боулер

Ответы:

12

Пусть обозначает среднее значение для первой популяции, а μ 2 обозначает среднее значение для второй популяции. Похоже, что вы использовали t- тест из двух выборок, чтобы проверить, является ли μ 1 = μ 2 . Значительный результат подразумевает, что μ 1μ 2 , но разница, по-видимому, слишком мала, чтобы иметь значение для вашего приложения.μ1μ2tμ1=μ2μ1μ2

Вы столкнулись с тем, что статистически значимым часто может быть что-то иное, чем значимое для приложения . В то время как разница может быть статистически значимой он все еще может не быть значимым .

Байесовское тестирование не решит эту проблему - вы все равно просто заключите, что разница существует.

Однако может быть выход. Например, для односторонней гипотезы вы можете решить, что если на Δ единиц больше, чем μ 2, то это будет значительная разница, которая достаточно велика, чтобы иметь значение для вашего приложения.μ1Δμ2

В этом случае вы будете проверять, будет ли вместо μ 1 - μ 2 = 0 . В этом случае t- статистика (при условии равных дисперсий) будет T = ˉ x 1 - ˉ x 2 - Δμ1μ2Δμ1μ2=0t гдеsp- общая оценка стандартного отклонения. Согласно нулевой гипотезе, эта статистикаt-распределяется сn1+n2-2степенями свободы.

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Простой способ выполнить этот тест - вычесть из ваших наблюдений из первой популяции, а затем провести регулярный односторонний t- тест с двумя выборками.Δt

MånsT
источник
8

Уместно сравнить несколько подходов, но не с целью выбора того, который отвечает нашим желаниям / убеждениям.

Мой ответ на ваш вопрос: возможно, что два дистрибутива накладываются друг на друга, в то время как они имеют разные средства, что, по-видимому, является вашим случаем (но нам нужно увидеть ваши данные и контекст, чтобы дать более точный ответ).

Я собираюсь проиллюстрировать это, используя пару подходов для сравнения обычных средств .

t

70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

σ

введите описание изображения здесь

μ

Для определения вероятности профиля и вероятности см. 1 и 2 .

μnx¯Rp(μ)=exp[n(x¯μ)2]

Для смоделированных данных их можно рассчитать в R следующим образом

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

μ1μ2

μ

(μ,σ)

π(μ,σ)1σ2

μ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Опять же, доверительные интервалы для средств не перекрываются ни на одном разумном уровне.

В заключение вы можете увидеть, как все эти подходы указывают на существенную разницу средств (что является основным интересом), несмотря на перекрытие распределений.

P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Надеюсь, это поможет.

Сообщество
источник
2
(+1) Спасибо за действительно полезный ответ о методах Байса. Также ссылка P (X <Y) отвечает на другую проблему, о которой я размышлял в том же анализе.
Боулер
7

Отвечая на правильный вопрос

хорошо, средства разные, но действительно ли это имеет значение, поскольку дистрибутивы имеют значительное совпадение?

Любой тест, который спрашивает, отличаются ли групповые средства, при правильной работе скажет, отличаются ли средства. Это не скажет вам, что распределение самих данных отличается, так как это другой вопрос. Этот вопрос, безусловно, зависит от того, различаются ли средства, но также и от многих других вещей, которые могут (не полностью) обобщаться как дисперсия, перекос и эксцесс.

Вы правильно заметили, что уверенность в том, где находятся эти средства, зависит от объема данных, которые вы должны оценить, поэтому наличие большего количества данных позволит вам определить средние различия в почти перекрывающихся распределениях. Но вам интересно,

например, небольшое значение р действительно представляет данные

На самом деле это не так, по крайней мере, не напрямую. И это по замыслу. Это является представителем (приблизительно говоря) уверенности, которую вы можете иметь, что конкретная пара выборочных статистических данных (а не сами данные) отличается.

Если вы хотите представить сами данные более формально, чем просто показывать гистограммы и моменты их тестирования, тогда, возможно, пара графиков плотности может оказаться полезной. Скорее, это действительно зависит от аргумента, который вы используете для теста.

Байесовская версия

Во всех этих отношениях байесовские разностные «тесты» и Т-тесты будут вести себя одинаково, потому что они пытаются сделать то же самое. Единственные преимущества, которые я могу придумать для использования байесовского подхода, заключаются в следующем: а) то, что будет легко провести тест, допускающий, возможно, различные отклонения для каждой группы, и б) что он будет сосредоточен на оценке вероятного размера разницы в средних. вместо того, чтобы найти значение р для некоторого теста на разницу. Тем не менее, эти преимущества довольно незначительны: например, в б) вы всегда можете сообщить доверительный интервал для разницы.

Кавычки выше над «тестами» являются преднамеренными. Конечно, можно проводить тестирование байесовской гипотезы, и люди делают. Тем не менее, я хотел бы предположить, что сравнительное преимущество этого подхода заключается в том, чтобы сосредоточить внимание на построении правдоподобной модели данных и передаче ее важных аспектов с соответствующими уровнями неопределенности.

conjugateprior
источник
3

Прежде всего, это не проблема, чтобы закрепить частое тестирование. Проблема заключается в нулевой гипотезе, что средства точно равны. Поэтому, если популяции различаются по среднему значению на любое небольшое количество, а размер выборки достаточно велик, вероятность отклонить эту нулевую гипотезу очень высока. Поэтому значение p для вашего теста оказалось очень маленьким. Виновником является выбор нулевой гипотезы. Выберите d> 0 и примите нулевую гипотезу о том, что средние значения отличаются менее чем на d менее чем на d. Вы выбираете d так, чтобы реальная разница была достаточно большой, чтобы ее можно было отклонить. Ваша проблема исчезнет. Байесовское тестирование не решит вашу проблему, если вы настаиваете на нулевой гипотезе точного равенства средств.

Майкл Р. Черник
источник
Я писал свой ответ одновременно с двумя другими.
Майкл Р. Черник