Как интерпретировать p-значение критерия Колмогорова-Смирнова (питон)?

30

У меня есть два примера, которые я хочу проверить (используя python), если они взяты из одного и того же дистрибутива. Для этого я использую статистическую функцию ks_2samp из scipy.stats. Он возвращает 2 значения, и я нахожу трудности, как их интерпретировать. Помоги пожалуйста!

мэри
источник

Ответы:

23

Как указал Стейн, тест ks возвращает D-статистику и p-значение, соответствующее D-статистике. D-статистика - это абсолютное максимальное расстояние (супремум) между CDF двух выборок. Чем ближе это число к 0, тем более вероятно, что две выборки были взяты из одного и того же распределения. Посетите страницу Википедии для теста ks. Это дает хорошее объяснение: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Значение p, возвращаемое тестом ks, имеет такую ​​же интерпретацию, как и другие значения p. Вы отвергаете нулевую гипотезу о том, что две выборки были взяты из одного и того же распределения, если значение p меньше вашего уровня значимости. Вы можете найти таблицы онлайн для преобразования статистики D в значение p, если вы заинтересованы в этой процедуре.

CrossValidatedTrading
источник
Спасибо за ваш ответ. На самом деле, я знаю значение двух значений D и P-value, но не вижу связи между ними. Как я могу определить уровень значимости? Можете ли вы дать мне ссылку для преобразования статистики D в значение p?
мэри
Конечно, таблица для преобразования D stat в p-значение: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading
@CrossValidatedTrading: Ваша ссылка на таблицу D-stat-to-p-value теперь 404.
james.garriss
@CrossValidatedTrading Должна ли быть связь между p-значениями и D-значениями из 2-стороннего теста KS? В некоторых случаях я видел пропорциональную зависимость, где D-статистика увеличивается с ростом значения p. Кажется, что все будет наоборот: две кривые с большей разницей (большей D-статистикой) будут более существенно отличаться (низкое значение p) ...
Томас Мэтью,
если значение р> 0,05, то ваши две выборки должны быть идентичными и сбалансированными.
user798719
5

При поиске в Google для ks_2samp первым хитом является этот сайт. На нем вы можете увидеть спецификацию функции:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value
Стейн
источник
Параметры a и b - это моя последовательность данных, или я должен рассчитать CDF для использования ks_2samp?
мэри
@meri: на странице, на которую я ссылаюсь, есть пример.
Стейн