У меня есть набор данных с десятками тысяч наблюдений за данными о медицинских расходах. Эти данные сильно искажены вправо и имеют много нулей. Это выглядит так для двух групп людей (в данном случае две возрастные группы с> 3000 человек в каждой):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Если я выполню t-тест Уэлча на этих данных, я получу результат обратно:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Я знаю, что не правильно использовать t-тест на этих данных, так как это очень ненормально. Однако, если я использую тест перестановки для разности средних значений, я получаю почти одинаковое значение p все время (и оно становится ближе с большим количеством итераций).
Использование пакета perm в R и permTS с точным Монте-Карло
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
Почему статистика теста на перестановку выходит так близко к значению t.test? Если я беру журналы данных, то получаю p-значение t.test 0,28 и то же самое из теста перестановки. Я думал, что значения t-теста будут больше мусора, чем то, что я получаю здесь. Это относится ко многим другим наборам данных, которые мне нравятся, и мне интересно, почему t-тест работает, когда он не должен.
Меня беспокоит то, что индивидуальные затраты не учитываются. Существует много подгрупп людей с очень разным распределением затрат (женщины по сравнению с мужчинами, хронические состояния и т. Д.), Которые, по-видимому, нарушают требование iid для центральной теоремы о пределе, или мне не следует беспокоиться об этом?
Ответы:
Ни t-критерий, ни критерий перестановки не имеют достаточной силы для определения разницы в средних между двумя такими чрезвычайно искаженными распределениями. Таким образом, они оба дают анодные p-значения, не указывающие на значение вообще. Проблема не в том, что они, кажется, согласны; это потому, что им трудно обнаружить какие-либо различия, они просто не могут не согласиться!
Для некоторой интуиции подумайте, что произойдет, если в одном наборе данных произойдет изменение одного значения. Предположим, например, что во втором наборе данных не было максимум 721 700. Среднее значение упало бы примерно на 721700/3000, что составляет около 240. Тем не менее, разница в средних значениях составляет всего 4964-4536 = 438, даже не вдвое больше. Это говорит о том (хотя это и не доказывает), что при любом сравнении этих средств разница не будет существенной.
Однако мы можем проверить, что t-критерий не применим. Давайте сгенерируем несколько наборов данных с такими же статистическими характеристиками, как эти. Для этого я создал смеси, в которых
В этих симуляциях оказывается, что максимальные значения также находятся недалеко от сообщенных максимумов.
Давайте повторим первый набор данных 10000 раз и отследим его среднее значение. (Результаты будут почти такими же, когда мы сделаем это для второго набора данных.) Гистограмма этих средних оценивает выборочное распределение среднего. T-критерий действителен, когда это распределение приблизительно нормальное; степень, в которой он отклоняется от нормальности, показывает степень, в которой распределение студента будет ошибочным. Итак, для справки, я также нарисовал (красным цветом) PDF нормального распределения, соответствующего этим результатам.
Мы не видим деталей, потому что есть некоторые колоссальные выбросы. (Это проявление чувствительности упомянутых мною средств.) 123 из них - 1,23% - выше 10000. Давайте сосредоточимся на остальном, чтобы мы могли видеть детали и потому, что эти выбросы могут быть результатом предполагаемой логнормальности распределения, что необязательно имеет место для исходного набора данных.
Вот
R
код, который произвел эти цифры.источник
Когда n большое (например, 300, даже намного меньше 3000), t-критерий по существу такой же, как и z-критерий. Таким образом, t-критерий становится не чем иным, как применением центральной предельной теоремы, которая говорит, что MEAN для каждой из ваших двух групп распределена почти точно нормально (даже если наблюдения, лежащие в основе этих двух средств, очень далеки от того, чтобы быть нормально раздаваться!). Это также причина того, что ваша типичная t-таблица не показывает значения n больше 1000 (например, эта t-таблица) . Таким образом, я не удивлен, увидев, что вы получаете такие хорошие результаты.
Редактировать: Я, кажется, недооценил конечность асимметрии и ее важность. Хотя моя точка зрения выше имеет смысл в менее экстремальных обстоятельствах, ответ Уубер на этот вопрос в целом гораздо лучше.
источник
Я знаю, что этот ответ слишком поздно. Тем не менее, я получил докторскую степень в области медицинских услуг, поэтому я много работаю с медицинскими данными, включая данные о затратах.
Я не знаю, какие данные имел ОП. Если бы это были данные поперечного сечения, то, скорее всего, это был оправданный IID. Независимость означает, что каждая единица, то есть каждый человек, является независимой. Это очень вероятно оправдано. Что касается идентичного распределения, то данные могут быть смоделированы как все поступающие, скажем, из гамма-распределения в обобщенной линейной модели с лог-связью. Это то, что люди обычно делают на практике. Или, если вы хотите получить фантазию, возможно, существуют модели препятствий (популярные в эконометрике), которые имеют дело с избыточными нулями. Которые, кстати, довольно распространены в расходах на здравоохранение. ОП технически верна, что данные не обязательно распределяются одинаково, например, среднее значение и дисперсия будут меняться с возрастом, но это допустимое предположение в моделях множественной регрессии.
Если бы каждый человек находился в наборе данных более одного года, тогда данные не были бы IID. Для этого есть более сложные модели. Относительно простым из них, вероятно, будут обобщенные уравнения оценки, гамма-распределение и логарифмическая связь, предполагающие взаимозаменяемые рабочие корреляции. Или, если эти данные взяты из общедоступных данных обследований, вероятность того, что они будут отобраны, НЕ равны - многие из этих обследований опрашивают нескольких людей в каждом домохозяйстве, а также стратифицируют население и переделывают выборки в некоторые группы (например, расовые меньшинства). Пользователь должен будет исправить это.
Я не использую t-тесты, особенно для наблюдательных данных. Слишком много искажающих факторов, поэтому вы можете настроить их в (обобщенной) линейной модели. Поэтому я не могу комментировать вопросы, связанные конкретно с t-тестами.
источник