Я работал с некоторыми данными о времени цикла процесса и масштабированием с использованием стандартного z-показателя для сравнения частей полного цикла.
Должен ли я использовать какое-то другое преобразование, поскольку данные сильно искажены / не нормальны? («выбросы» никогда не могут занять отрицательное время и часто занимают намного больше времени, чем «средний»)
Использование z-счета все еще кажется "работающим" ...
###############
# R code
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))
Ответы:
Если X сильно искажен, статистика Z не будет нормально распределена (или t, если стандартное отклонение должно быть оценено. Таким образом, процентили Z не будут стандартно нормальными. Так что в этом смысле это не работает.
источник
Код R будет работать, но z-оценка будет примерно такой же значимой, как и предложение «Виноград слегка звонит авторучке». Это правильное предложение, но не несет в себе ничего значащего.
Судя по вашему R-коду, кажется, что вы думаете, что ваши данные распределены Вейбуллом. В этом случае я бы просто использовал статистику Вейбулла и ничего не масштабировал, если только вам это не нужно. Несмотря на то, что z-показатели учитываются в каждом классе вводной статистики, это не означает, что вы должны использовать их постоянно, особенно если у вас нет симметричных данных.
источник
Если население не распределено нормально. В этом случае распределение бара (X) {выборочное среднее} приближается к нормальному распределению согласно центральной предельной теореме; для большого размера выборки. Хотя теоретически мы говорим, что используем Student's-t, но для более высоких значений n (размер выборки или степень свободы) распределение t и распределение Z почти равны.
источник
ВАШИ ДАННЫЕ НЕ ДОЛЖНЫ БЫТЬ НОРМАЛЬНЫМИ ДЛЯ Z-TEST. (TOWNEND, 2002) ОДНАКО ВАРИАНТЫ ДОЛЖНЫ БЫТЬ ПРИБЛИЖЕННЫМИ РАВНЫМИ. ЧТОБЫ ПРОВЕРИТЬ, ЧТО ВЫПОЛНЯЕТЕ F-ТЕСТ ДЛЯ ДВУХ ВАШИХ ДАННЫХ, И ЕСЛИ ВАШИ ВАРИАНТЫ ПРИМЕРНО РАВНЫ, РЕЗУЛЬТАТ Z ТЕСТА ПОЛЕЗЕН. Если нет, преобразовать данные.
источник