Как интерпретировать p-значение критерия Колмогорова-Смирнова (питон)?
30
У меня есть два примера, которые я хочу проверить (используя python), если они взяты из одного и того же дистрибутива. Для этого я использую статистическую функцию ks_2samp из scipy.stats. Он возвращает 2 значения, и я нахожу трудности, как их интерпретировать. Помоги пожалуйста!
Как указал Стейн, тест ks возвращает D-статистику и p-значение, соответствующее D-статистике. D-статистика - это абсолютное максимальное расстояние (супремум) между CDF двух выборок. Чем ближе это число к 0, тем более вероятно, что две выборки были взяты из одного и того же распределения. Посетите страницу Википедии для теста ks. Это дает хорошее объяснение: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Значение p, возвращаемое тестом ks, имеет такую же интерпретацию, как и другие значения p. Вы отвергаете нулевую гипотезу о том, что две выборки были взяты из одного и того же распределения, если значение p меньше вашего уровня значимости. Вы можете найти таблицы онлайн для преобразования статистики D в значение p, если вы заинтересованы в этой процедуре.
Спасибо за ваш ответ. На самом деле, я знаю значение двух значений D и P-value, но не вижу связи между ними. Как я могу определить уровень значимости? Можете ли вы дать мне ссылку для преобразования статистики D в значение p?
@CrossValidatedTrading: Ваша ссылка на таблицу D-stat-to-p-value теперь 404.
james.garriss
@CrossValidatedTrading Должна ли быть связь между p-значениями и D-значениями из 2-стороннего теста KS? В некоторых случаях я видел пропорциональную зависимость, где D-статистика увеличивается с ростом значения p. Кажется, что все будет наоборот: две кривые с большей разницей (большей D-статистикой) будут более существенно отличаться (низкое значение p) ...
Томас Мэтью,
если значение р> 0,05, то ваши две выборки должны быть идентичными и сбалансированными.
user798719
5
При поиске в Google для ks_2samp первым хитом является этот сайт. На нем вы можете увидеть спецификацию функции:
Thisis a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.Parameters:
a, b : sequence of 1-D ndarrays
two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different
Returns:
D : float, KS statistic
p-value : float, two-tailed p-value
При поиске в Google для ks_2samp первым хитом является этот сайт. На нем вы можете увидеть спецификацию функции:
источник