Тест на значительную разницу в отношениях нормально распределенных случайных величин

9

Относится к анализу соотношений переменных и как параметризовать отношение двух нормально распределенных переменных или обратное к одной? ,

Предположим, у меня есть несколько выборок из четырех различных непрерывных случайных распределений, все из которых мы можем считать примерно нормальными. В моем случае они соответствуют некоторым показателям производительности двух разных файловых систем (скажем, ext4 и XFS), как с шифрованием, так и без него. Показателем может быть, например, количество файлов, создаваемых в секунду, или среднее время задержки для какой-либо файловой операции. Можно предположить, что все выборки из этих распределений всегда будут строго положительными. Давайте назовем эти дистрибутивы где и . естуре{хес,ехт4}енстуртIоп{гргурто,постуртPerffstype,encryptionfstype{xfs,ext4}encryption{crypto,nocrypto}

Теперь моя гипотеза состоит в том, что шифрование замедляет одну из файловых систем в большей степени, чем другую. Есть ли простой тест для гипотезы ?E[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]

Сами Лиедес
источник
Некоторый текст, кажется, был удален из середины этого вопроса. Как вы думаете, вы могли бы восстановить его?
whuber
Я думаю, что «Таким образом» было оставлено там по ошибке, по крайней мере, я не могу думать, что я хотел бы добавить к этому. Вероятно, это было то, что я наконец перешел ко второму абзацу.
Сами Лиедес
Вы могли бы приспособить обобщенную линейную модель для нормального распределения с функцией связи журнала.
OneStop
1
«Количество файлов» и «средняя задержка» не могут быть нормально распределены (ни один не может быть отрицательным для начала). Оба, вероятно, будут несколько правильными. Количество файлов является дискретным отсчетом.
Glen_b

Ответы:

12

Одна из альтернатив ответу StasK - использовать тест перестановки. Первым шагом является определение тестовой статистики , возможно:T

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

где - это, возможно, примерное среднее значений наблюдений и т. д. (Это соответствует вашему определению гипотезы как отношения ожидания, а не альтернативная возможность ожидания соотношения - какой альтернативой может быть то, что вы действительно хотите.) Второй шаг - это случайная перестановка меток в данных много раз, скажем, , и вычислите для каждой перестановки. Последний шаг - сравнить ваш оригинальный с наблюдаемым ; перестановка оцененного р-значение будет доля . Перфехт4,стуртоехт4,хеся=1,...,10000ТяТТятяTPerf^ext4,cryptoPerfext4,cryptoext4, xfsi=1,,10000TiTTiTiT

Тест на перестановку освобождает вас от асимптотики, но, конечно, в зависимости от размера вашей выборки (и, конечно же, и от данных), дельта-метод, который я иногда использую, также может работать очень хорошо.

jbowman
источник
Это тоже хорошее предложение!
StasK
Обратите внимание, что отношение двух центрированных нормальных переменных является переменной Коши.
Сиань
1
@ Сиань: это ясно, что мы можем предположить, что они независимы здесь? Как вы знаете, это было бы необходимо для сохранения этого результата (и иметь шанс быть полезным).
кардинал
@cardinal: да, действительно, они должны быть независимыми!
Сиань
1
Как очень снобистский технический момент - перестановка работает немного лучше, когда ваша тестовая статистика имеет ключевое значение / не содержит неизвестных параметров / стабилизирована по дисперсии ... по крайней мере, при нулевом значении. С пропорциями, вы можете сделать преобразование дуги греха. Со строго положительными непрерывными величинами я бы, наверное, начал с бревен. Но это действительно глазурь на торте.
StasK
4

Вы можете вычислить (асимптотическую) стандартную ошибку отношения, используя дельта-метод . Если у вас есть две случайные величины и такие что в распределении (что было бы в случае, если у вас есть независимые данные, но это также будет иметь место в более общем случае кластерные данные, когда вы запускали свои тесты на разных компьютерах), то для отношения с аналогом имеем Y XY r= ˉ Y / ˉ X ro=μY/μX

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μXXYσXYCV2[r]=CV2[ ˉ X ]+CV2[ ˉ Y ]zH0:
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
Если и независимы, как это может быть разумно предположить в вашем случае, то это выражение несколько упрощается, если отбрасывать , поэтому мы получаем, что квадратные коэффициенты вариаций суммируются: Он имеет дополнительное преимущество в том, что размеры выборки могут быть разными. Кроме того, если ваши RHS и LHS независимы, вы можете сформировать статистику -test дляXYσXY
CV2[r]=CV2[X¯]+CV2[Y¯]
zH0: нет никакой разницы, беря разность отношений и деля ее на соответствующую стандартную ошибку, полученную из этих CV.

Я надеюсь, что вы можете взять его оттуда и выполнить оставшуюся часть расчетов конверта, чтобы получить окончательную формулу.

Обратите внимание, что результат является асимптотическим, а отношение является смещенной оценкой в небольших выборках. Смещение имеет порядок и исчезает асимптотически по сравнению с изменчивостью выборки, которая имеет порядок .r 0 O ( 1 / n ) O ( 1 / rr0O(1/n)O(1/n)

Stask
источник
Спасибо за отличный и поучительный ответ! Я думаю, что выберу тест перестановки jbowban для моих исследований, потому что я думаю, что я лучше понимаю его и его ограничения, но дельта-метод определенно выглядит как то, что мне нужно изучить и выяснить.
Сами Лиедес
@stask это можно сделать здесь? stats.stackexchange.com/questions/398436/…
Ксавье Бурре Сикот
Ксавье, я думаю, что @ usεr11852 дал хороший ответ. Я не буду добавлять к этому.
StasK
@StasK - при каких условиях действительны условия, указанные вами в вашем ответе? Гарантируется ли сходимость статистики отношений предыдущим предположением и методом Дельты?
Ксавье Бурре Сикотт
Это асимптотика ... ничто не гарантировано, а границы ошибок трудно или невозможно получить. Весь дельта-метод (или любой другой результат слабой сходимости) гласит: при увеличении размера выборки разница между фактическим конечным распределением выборки и асимптотическим распределением будет уменьшаться. Это может означать, что при увеличении размера выборки с 1000 до 10000 вертикальная разница между cdf уменьшится с 0,2 до 0,1, а последняя по-прежнему неприемлема для практических целей. Или это может означать, что разница идет от 0,01 до 0,001.
StasK
0

Соотношение нормальных вариаций распределяется по Коши. Зная это, вы можете просто выполнить тест Байеса.

Это была довольно спонтанная идея. Теперь я не уверен насчет механизма генерации данных. Устанавливаете ли вы разные файловые системы на одном компьютере, а затем проводите тестирование для двух случаев, чтобы мы могли принять иерархическую структуру данных?

Кроме того, я не уверен, что соотношение выглядит на самом деле имеет смысл.

А потом вы написали соотношение ожидаемых значений, тогда как я подумал об ожидаемом значении коэффициентов. Я думаю, мне нужно больше информации о генерации данных, прежде чем двигаться дальше.

joint_p
источник
1
Отношение нормалей только Коши, если (а) они независимы и (б) имеют одинаковую дисперсию.
кардинал
У Сианя была та же мысль, я думаю ...
joint_p
1
Не ясно (по крайней мере, мне), что любая такая структура независимости существует или что они будут иметь нулевое среднее значение. Возможно, если вы сможете расширить свой ответ, это поможет прояснить предложенный вами подход. :)
кардинал
1
@cardinal - я думал, что это было отношение независимых норм с нулевым средним значением, коши с нулевым медианой и параметром шкалы, равным отношению нормальных стандартных отклонений. Если они имеют ненулевое среднее значение, то это не коши.
вероятностная
@prob: (+1) Ты прав! Спасибо, что поймали это. Я опустил «стандарт» и «нулевое среднее» в своем первом комментарии (последнему удалось сделать его вторым).
кардинал
0

В случаях, когда вы не можете выполнить перестановки, например, когда размер выборки создает миллионы возможностей, другим решением будет повторная выборка Монте-Карло.

ext4xfsnocryptocryptoext4xfsnocryptocrypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

x=ext4xfs

n=samplesize

H0nocryptocryptoTobserved=0

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

TresamplingH0nocryptocryptoTobserved(p<0.05)Tresampling

user1979481
источник