Относится к анализу соотношений переменных и как параметризовать отношение двух нормально распределенных переменных или обратное к одной? ,
Предположим, у меня есть несколько выборок из четырех различных непрерывных случайных распределений, все из которых мы можем считать примерно нормальными. В моем случае они соответствуют некоторым показателям производительности двух разных файловых систем (скажем, ext4 и XFS), как с шифрованием, так и без него. Показателем может быть, например, количество файлов, создаваемых в секунду, или среднее время задержки для какой-либо файловой операции. Можно предположить, что все выборки из этих распределений всегда будут строго положительными. Давайте назовем эти дистрибутивы где и . естуре∈{хес,ехт4}енстуртIоп∈{гргурто,постурт
Теперь моя гипотеза состоит в том, что шифрование замедляет одну из файловых систем в большей степени, чем другую. Есть ли простой тест для гипотезы ?
Ответы:
Одна из альтернатив ответу StasK - использовать тест перестановки. Первым шагом является определение тестовой статистики , возможно:T
где - это, возможно, примерное среднее значений наблюдений и т. д. (Это соответствует вашему определению гипотезы как отношения ожидания, а не альтернативная возможность ожидания соотношения - какой альтернативой может быть то, что вы действительно хотите.) Второй шаг - это случайная перестановка меток в данных много раз, скажем, , и вычислите для каждой перестановки. Последний шаг - сравнить ваш оригинальный с наблюдаемым ; перестановка оцененного р-значение будет доля . Перфехт4,стуртоехт4,хеся=1,...,10000ТяТТятя≤Tпэ р фˆе х т 4 , с т ур т о Perfе х т 4 , с т ур т о э х т 4 , х ф s я = 1 , … , 10000 Tя T Tя Tя≤ T
Тест на перестановку освобождает вас от асимптотики, но, конечно, в зависимости от размера вашей выборки (и, конечно же, и от данных), дельта-метод, который я иногда использую, также может работать очень хорошо.
источник
Вы можете вычислить (асимптотическую) стандартную ошибку отношения, используя дельта-метод . Если у вас есть две случайные величины и такие что в распределении (что было бы в случае, если у вас есть независимые данные, но это также будет иметь место в более общем случае кластерные данные, когда вы запускали свои тесты на разных компьютерах), то для отношения с аналогом имеем Y √X Y r= ˉ Y / ˉ X ro=μY/μX √
Я надеюсь, что вы можете взять его оттуда и выполнить оставшуюся часть расчетов конверта, чтобы получить окончательную формулу.
Обратите внимание, что результат является асимптотическим, а отношение является смещенной оценкой в небольших выборках. Смещение имеет порядок и исчезает асимптотически по сравнению с изменчивостью выборки, которая имеет порядок .r 0 O ( 1 / n ) O ( 1 / √r r0 O(1/n) O(1/n−−√)
источник
Соотношение нормальных вариаций распределяется по Коши. Зная это, вы можете просто выполнить тест Байеса.
Это была довольно спонтанная идея. Теперь я не уверен насчет механизма генерации данных. Устанавливаете ли вы разные файловые системы на одном компьютере, а затем проводите тестирование для двух случаев, чтобы мы могли принять иерархическую структуру данных?
Кроме того, я не уверен, что соотношение выглядит на самом деле имеет смысл.
А потом вы написали соотношение ожидаемых значений, тогда как я подумал об ожидаемом значении коэффициентов. Я думаю, мне нужно больше информации о генерации данных, прежде чем двигаться дальше.
источник
В случаях, когда вы не можете выполнить перестановки, например, когда размер выборки создает миллионы возможностей, другим решением будет повторная выборка Монте-Карло.
источник