Как интерпретировать p-значение критерия Колмогорова-Смирнова (питон)?

Как указал Стейн, тест ks возвращает D-статистику и p-значение, соответствующее D-статистике. D-статистика - это абсолютное максимальное расстояние (супремум) между CDF двух выборок. Чем ближе это число к 0, тем более вероятно, что две выборки были взяты из одного и того же распределения. Посетите страницу Википедии для теста ks. Это дает хорошее объяснение: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Значение p, возвращаемое тестом ks, имеет такую же интерпретацию, как и другие значения p. Вы отвергаете нулевую гипотезу о том, что две выборки были взяты из одного и того же распределения, если значение p меньше вашего уровня значимости. Вы можете найти таблицы онлайн для преобразования статистики D в значение p, если вы заинтересованы в этой процедуре.

CrossValidatedTrading
источник

Спасибо за ваш ответ. На самом деле, я знаю значение двух значений D и P-value, но не вижу связи между ними. Как я могу определить уровень значимости? Можете ли вы дать мне ссылку для преобразования статистики D в значение p?

мэри

Конечно, таблица для преобразования D stat в p-значение: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf

CrossValidatedTrading

@CrossValidatedTrading: Ваша ссылка на таблицу D-stat-to-p-value теперь 404.

james.garriss

@CrossValidatedTrading Должна ли быть связь между p-значениями и D-значениями из 2-стороннего теста KS? В некоторых случаях я видел пропорциональную зависимость, где D-статистика увеличивается с ростом значения p. Кажется, что все будет наоборот: две кривые с большей разницей (большей D-статистикой) будут более существенно отличаться (низкое значение p) ...

Томас Мэтью,

если значение р> 0,05, то ваши две выборки должны быть идентичными и сбалансированными.

user798719

При поиске в Google для ks_2samp первым хитом является этот сайт. На нем вы можете увидеть спецификацию функции:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

Стейн
источник

Параметры a и b - это моя последовательность данных, или я должен рассчитать CDF для использования ks_2samp?

мэри

@meri: на странице, на которую я ссылаюсь, есть пример.

Стейн

Как интерпретировать p-значение критерия Колмогорова-Смирнова (питон)?

Ответы: