Критерий Колмогорова – Смирнова: статистика p-значения и ks-критерия уменьшается с увеличением размера выборки

11

Почему p-значения и статистика ks-теста уменьшаются с увеличением размера выборки? Возьмите этот код Python в качестве примера:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Результаты:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Интуитивно я понимаю, что с ростом n тест «увереннее», эти два распределения различны. Но если размер выборки очень велик, какой смысл в таких тестах на подобие, как этот, и, скажем, в тесте Андерсона Дарлинга или в t-тесте, потому что в таких случаях, когда n очень велико, распределения всегда будут определяться как "значительно" отличается! Теперь мне интересно, что на самом деле точки р-значения. Это сильно зависит от размера выборки ... если p> 0,05 и вы хотите, чтобы он был ниже, просто получите больше данных; и если р <0,05, и вы хотите, чтобы оно было выше, просто удалите некоторые данные.

Кроме того, если бы эти два распределения были идентичны, статистика ks-теста была бы равна 0, а значение p равно 1. Но в моем примере при увеличении n статистика ks-теста предполагает, что распределения становятся все более и более похожими со временем (уменьшается) , но в соответствии с p-значением они становятся все больше и больше со временем (также уменьшается).

Оливер Анжелил
источник
См. Тестирование нормальности "по существу бесполезно"? , Обратите внимание, что то, что вы говорите, не совсем верно: если распределения на самом деле идентичны, распределение значения p остается равномерным даже при увеличении размера выборки.
Scortchi - Восстановить Монику
2
У меня была проблема, которая может быть связана с этим: stats.stackexchange.com/questions/301628/… Это заставило меня скептически отнестись к этому тесту.
Александар Йованович
Это правда, имея достаточно данных, вы можете показать, что сколь угодно малые, но ненулевые, величины эффекта статистически значимы. Ключевым моментом здесь является признание различия между статистической значимостью и практической значимостью. Чтобы ввести Гомера Симпсона в заблуждение, «вы можете использовать p-значения, чтобы доказать все, что даже отдаленно верно».
Ядерный Ван

Ответы:

4

Статистика теста уменьшается, потому что ваши распределения очень похожи, а на больших выборках меньше шума. Если вам нужно сравнить два теоретических распределения, которые вы использовали, вы должны получить «истинную» статистику KS. По мере добавления дополнительных данных ваша приблизительная статистика KS должна приближаться к этому истинному значению. Однако, даже если ваша статистика KS уменьшается, ваша уверенность возрастает, так как они на самом деле представляют собой два разных распределения (т. Е. P-значение уменьшается), потому что вы больше доверяете своим оценкам отдельных распределений.

adam.r
источник
3

С практической точки зрения: получить больше данных не так просто (я хочу, чтобы это было). Удаление данных только для того, чтобы получить желаемое значение , является академическим мошенничеством, и если вас поймают, у вас будут проблемы.p

Тем не менее, вы правы, что значение само по себе имеет ограниченную ценность. В лучшем случае это только начало вашего анализа и, конечно, не конец. Для более см заявления ASA на -значении . pp

Мартен Буис
источник
Спасибо за ссылку, но я все еще не уверен, почему статистика ks-теста уменьшается с увеличением n.
Оливер Анжелил