Могу ли я использовать Z-показатель с искаженными и ненормальными данными? [закрыто]

12

Закрыто . Этот вопрос нуждается в деталях или ясности . В настоящее время он не принимает ответы.

Хотите улучшить этот вопрос? Добавьте детали и проясните проблему, отредактировав этот пост .

Закрыто 5 лет назад .

Я работал с некоторыми данными о времени цикла процесса и масштабированием с использованием стандартного z-показателя для сравнения частей полного цикла.

Должен ли я использовать какое-то другое преобразование, поскольку данные сильно искажены / не нормальны? («выбросы» никогда не могут занять отрицательное время и часто занимают намного больше времени, чем «средний»)

Использование z-счета все еще кажется "работающим" ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

normality-assumption standardization weibull TMOD
источник

5

Что именно вы спрашиваете? Конечно, вы все еще можете вычислить , но для чего вы пытаетесь его использовать? Количество стандартных отклонений от среднего значения (то есть, что такое оценка) может не быть особенно полезной статистикой в некоторых ситуациях.

z

$z$

z

$z$

Макро

5

Если X сильно искажен, статистика Z не будет нормально распределена (или t, если стандартное отклонение должно быть оценено. Таким образом, процентили Z не будут стандартно нормальными. Так что в этом смысле это не работает.

Майкл Р. Черник
источник

Насколько я понимаю, X сильно искажен означает, что размер выборки был недостаточно большим (центральная предельная теорема). Однако я не уверен, должно ли само население быть нормальным, чтобы статистика Z работала. Является ли?

Анджей Гис

1

ОП говорит о распределении населения, а не о распределении среднего. Таким образом, размер выборки и центральная предельная теорема не применяются.

Майкл Р. Черник

2

Код R будет работать, но z-оценка будет примерно такой же значимой, как и предложение «Виноград слегка звонит авторучке». Это правильное предложение, но не несет в себе ничего значащего.

Судя по вашему R-коду, кажется, что вы думаете, что ваши данные распределены Вейбуллом. В этом случае я бы просто использовал статистику Вейбулла и ничего не масштабировал, если только вам это не нужно. Несмотря на то, что z-показатели учитываются в каждом классе вводной статистики, это не означает, что вы должны использовать их постоянно, особенно если у вас нет симметричных данных.

Брэндон Шерман
источник

1

Если население не распределено нормально. В этом случае распределение бара (X) {выборочное среднее} приближается к нормальному распределению согласно центральной предельной теореме; для большого размера выборки. Хотя теоретически мы говорим, что используем Student's-t, но для более высоких значений n (размер выборки или степень свободы) распределение t и распределение Z почти равны.

Арпан Гальдер
источник

-4

ВАШИ ДАННЫЕ НЕ ДОЛЖНЫ БЫТЬ НОРМАЛЬНЫМИ ДЛЯ Z-TEST. (TOWNEND, 2002) ОДНАКО ВАРИАНТЫ ДОЛЖНЫ БЫТЬ ПРИБЛИЖЕННЫМИ РАВНЫМИ. ЧТОБЫ ПРОВЕРИТЬ, ЧТО ВЫПОЛНЯЕТЕ F-ТЕСТ ДЛЯ ДВУХ ВАШИХ ДАННЫХ, И ЕСЛИ ВАШИ ВАРИАНТЫ ПРИМЕРНО РАВНЫ, РЕЗУЛЬТАТ Z ТЕСТА ПОЛЕЗЕН. Если нет, преобразовать данные.

user24546
источник

9

Вопрос в том, что преобразование переменной не является тестом, поэтому я не думаю, что ваш ответ применим. Кроме того, это, вероятно, более информативно, если вы дадите полную ссылку, а не просто ссылку на название года, и некоторые люди будут возражать против крика.

Maarten Buis

Я согласен с @MaartenBuis, но в отличие от него, я буду понижать это.

Эрик

Могу ли я использовать Z-показатель с искаженными и ненормальными данными? [закрыто]

Ответы: