Я сравниваю распределение по размеру деревьев на шести парах участков, где один участок подвергался обработке, а другой - контролю. Используя тест Колмогорова-Смирнова на каждой паре графиков, я обнаружил, что находится в диапазоне от 0,0003707 до 0,75 . Существуют ли какие-либо подходящие методы для работы со всеми репликами вместе, например, расширение KS-теста для нескольких образцов, или есть соответствующий последующий тест? Или я должен просто заключить что-то вроде: «Распределение по размерам значительно отличается ( р < 0,05 ) в 2 парах графиков и незначительно ( р = 0,59 ) в одной паре графиков».
nonparametric
kolmogorov-smirnov
N Брауэр
источник
источник
Ответы:
источник
Существует R-пакет kSamples , который, помимо прочего, дает непараметрический критерий Андерсона-Дарлинга для k-выборки. Нулевая гипотеза состоит в том, что все k выборок пришли из одного и того же распределения, которое не нужно указывать. Может быть, вы можете использовать это.
Небольшой пример сравнения нормальных и гамма-распределенных выборок, масштабированных таким образом, чтобы они имели одинаковое среднее значение и дисперсию:
источник
Пара подходов:
Используйте попарные p-значения, но скорректируйте их для множественных сравнений, используя что-то вроде корректировок Bon Feroni или False Discovery Rate (первое, вероятно, будет немного более консервативным). Тогда вы можете быть уверены, что все, что по-прежнему существенно отличается, возможно, не из-за многократного тестирования.
Вы можете создать общий тест на вкус KS, найдя наибольшее расстояние между любым из распределений, то есть построить все эмпирические cdf и найти наибольшее расстояние от самой нижней линии до самой верхней линии, или, может быть, среднее расстояние или какое-то другое значимое измерения. Затем вы можете выяснить, насколько это важно, выполнив тест перестановки: сгруппируйте все данные в 1 большую корзину, затем случайным образом разбейте их на группы с теми же размерами выборки, что и ваши исходные группы, пересчитайте статистику для переставленных данных и повторите процесс много раз (999 или около того). Затем посмотрите, как ваши исходные данные сравниваются с переставленными наборами данных. Если исходные статистические данные попадают в середину переставленных статистических данных, значительных различий не обнаружено, но если они находятся на границе, или за пределами любого из переставленных, тогда происходит что-то существенное (но это не говорит вам, что отличается). Вероятно, вам следует попробовать это с смоделированными данными, когда вы знаете, что есть разница, которая достаточно велика, чтобы быть интересной, просто чтобы проверить мощь этого теста, чтобы найти интересные различия.
источник