Как я могу интерпретировать график процента усечения относительно среднего значения?

12

Для части домашнего задания меня попросили вычислить усеченное среднее для набора данных, удалив самое маленькое и самое большое наблюдение, и интерпретировать результат. Среднее значение было ниже, чем среднее значение.

Моя интерпретация заключалась в том, что это произошло потому, что базовое распределение было положительно искажено, поэтому левый хвост был более плотным, чем правый хвост. В результате этой асимметрии удаление верхнего значения приводит к тому, что среднее значение опускает среднее значение больше, чем удаление низкого - подталкивает его вверх, потому что, если говорить неформально, существуют более низкие данные, «ожидающие занять свое место». (Это разумно?)

Тогда я начал задаваться вопросом, как процент обрезки влияет на это, поэтому я вычислил усеченное среднее для различных k = 1 / n , 2 / n , , ( nИкс¯тр(К). Я получил интересную параболическую форму: Кзнак равно1/N,2/N,...,(N2-1)/NГрафик процента усечения относительно усеченного среднего;  образует вогнутую кривую, которая выглядит примерно параболической

КNзнак равно11

Есть ли у этого типа графика имя или оно обычно используется? Какую информацию мы можем почерпнуть из этого графика? Есть ли стандартная интерпретация?


Для справки: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

wchargin
источник

Ответы:

11

@gung и @kjetil b. Халворсен оба правы.

Я нашел такие графики в

Розенбергер Ю.Л. и М. Гасько. 1983. Сравнение оценок местоположения: усеченные средние, медианы и триме. В Понимание Надежного и исследовательского анализа данных , ред. DC Hoaglin, F. Mosteller и JW Tukey, 297–338. Нью-Йорк: Уайли.

и

Дэвисон, AC и Д.В. Хинкли. 1997. Методы начальной загрузки и их применение. Кембридж: издательство Кембриджского университета.

и привести дополнительные примеры в

Кокс, Нью-Джерси 2013. Обрезка по вкусу. Stata Journal 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [бесплатный доступ к pdf]

в котором обсуждались многие аспекты обрезанных средств.

Насколько я знаю, график не имеет четкого имени. Отдельное название для каждого возможного сюжета на самом деле было бы маленьким кошмаром: графическая терминология - это уже ужасный беспорядок. Я бы назвал это графиком усеченного среднего по сравнению с усеченным числом, дробью или процентом (таким образом, изменяя формулировку ОП).

Для дальнейших небольших комментариев о «против», см. Мой ответ в Гетероскедастичность в регрессии

РЕДАКТИРОВАТЬ: Более подробную информацию о против (только языковые mavens), смотрите здесь .

Ник Кокс
источник
10

Я никогда не слышал об этом графике, но я думаю, что он довольно аккуратный; возможно, кто-то делал это раньше. Что вы можете сделать с этим, так это увидеть, как среднее значение сдвигается и / или стабилизируется, если вы рассматриваете различные пропорции ваших данных как отклонения. Причина, по которой вы получаете параболическую форму, заключается в том, что ваше (исходное) распределение в целом корректно перекошено, но степень перекоса в центре распределения не одинакова. Для сравнения рассмотрим графики плотности ядра ниже.

введите описание изображения здесь

Слева ваши данные, как они урезаны один за другим. Справа находятся эти данные: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)квантили стандартного логнормального распределения, взятые из равноотстоящих процентилей и умноженные на 20, чтобы сделать диапазон значений одинаковым.

Ваши данные начинаются с перекосом вправо, но к строке 5 они перекошены влево, поэтому обрезка большего количества данных начинает возвращать среднее значение. Данные справа поддерживают такой же перекос, поскольку обрезка продолжается.

Ниже представлен график для нормальных и логических данных ( z = 1:11без перекоса - абсолютно симметрично).

введите описание изображения здесь введите описание изображения здесь

Gung - Восстановить Монику
источник
4

Я не думаю, что у такого рода графиков есть имя, но то, что вы делаете, разумно, и ваша интерпретация, я думаю, верна. Я думаю, что вы делаете, связано с функцией влияния Hampel, см. Https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, особенно раздел об эмпирической функции влияния. И ваш график, безусловно, может быть связан с некоторой степенью асимметрии данных, поскольку, если бы ваши данные были абсолютно симметричными, график был бы плоским. Вы должны исследовать это!

            EDIT     

Одним из расширений этого графика является также демонстрация эффекта использования различной обрезки слева и справа. Поскольку это не реализовано в обычной meanфункции с аргументом trimв R, я написал свою собственную усеченную функцию среднего. Чтобы получить более плавный график, я использую линейную интерполяцию, когда фракция обрезки подразумевает удаление нецелого числа точек. Это дает функцию:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Затем я моделирую некоторые данные и показываю результат в виде контурного графика:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

давая этот результат:

контурный график, показывающий эффект обрезки

Къетил б Халворсен
источник