Сравнение наборов временных рядов

10

У меня есть три набора данных временных рядов, которые я хочу сравнить. Они были взяты на 3 отдельных периода около 12 дней. Они представляют собой среднее, максимальное и минимальное количество голов, взятых в библиотеке колледжа в течение финальных недель. Мне пришлось сделать среднее, максимальное и минимальное, потому что почасовые подсчеты не были непрерывными (см. Регулярные пробелы в данных во временных рядах ).

Теперь набор данных выглядит следующим образом. Существует одна точка данных (средняя, ​​максимальная или минимальная) за вечер на 12 вечеров. Есть 3 семестра, за которые были взяты данные, только за 12-дневные периоды беспокойства. Например, весна 2010, осень 2010 и май 2011 имеют набор из 12 пунктов. Вот пример диаграммы:

введите описание изображения здесь

Я наложил семестры, потому что я хочу видеть, как образцы меняются от семестра к семестру. Тем не менее, как мне сказали в связанной ветке , не очень хорошая идея шлепать семестры хвостом к голове, поскольку между ними нет данных.

Тогда возникает вопрос: какую математическую технику я могу использовать для сравнения схемы посещаемости в каждом семестре? Есть ли что-то особенное для временных рядов, которые я должен сделать, или я могу просто взять разницу в процентах? Моя цель - сказать, что использование библиотек в эти дни растет или уменьшается; Я просто не уверен, какую технику (ы) я должен использовать, чтобы показать это.

induvidyul
источник

Ответы:

8

ANOVA с фиксированными эффектами (или его эквивалент линейной регрессии) предоставляет мощное семейство методов для анализа этих данных. Чтобы проиллюстрировать это, вот набор данных, согласующийся с графиками среднего HC за вечер (один график на цвет):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA countпротив dayи colorпроизводит эту таблицу:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

Значение modelр, равное 0,0000, показывает, что подгонка очень значительна. Значение dayр 0,0000 также очень важно: вы можете обнаруживать ежедневные изменения. Тем не менее, значение color(семестр) p, равное 0.2001, не следует считать значимым: вы не можете обнаружить систематическое различие между тремя семестрами, даже после учета ежедневных изменений.

HSD- тест Тьюки («достоверная значимая разница») выявляет следующие значимые изменения (среди прочих) в ежедневных средних значениях (независимо от семестра) на уровне 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Это подтверждает то, что глаз видит на графиках.

Поскольку графики прыгают совсем немного, нет способа обнаружить повседневные корреляции (последовательные корреляции), что является целым моментом анализа временных рядов. Другими словами, не беспокойтесь о методах временных рядов: здесь недостаточно данных, чтобы обеспечить более глубокое понимание.

Нужно всегда удивляться, насколько можно верить результатам любого статистического анализа. Различные методы диагностики гетероскедастичности (такие как тест Бреуша-Пагана ) не показывают ничего плохого. Остатки выглядят не совсем нормально - они сгруппированы в некоторые группы - поэтому все значения p должны быть взяты с крошкой соли. Тем не менее они, по-видимому, обеспечивают разумное руководство и помогают количественно оценить смысл данных, которые мы можем получить, глядя на графики.

Вы можете провести параллельный анализ дневных минимумов или дневных максимумов. Обязательно начните с аналогичного графика в качестве руководства и проверьте статистический вывод.

Whuber
источник
+1, для демонстрации простых, но мощных приемов. Мне очень интересно, как вам удалось извлечь значения из графика? Какой-то софт или наказание за плохо себя ведущий ученик? :)
mpiktas
1
@mp Я оцифровал точки в верхней части скриншота изображения, извлек их координаты с помощью программного обеспечения ГИС, преобразовал координаты с помощью электронной таблицы, а затем импортировал их в пакет статистики. Это займет всего несколько минут. Этот метод может быть полезен, когда у вас есть только данные в виде диаграммы или карты.
whuber
@whuber Это круто! Я не знал об этом.
Suncoolsu
@whuber Интересно, каков эффект от 3 наборов из 12 автокоррелированных показаний по сравнению с 36 независимыми наблюдениями. Я бы подумал, что у нас действительно нет 35 степеней свободы для разделения. Вероятности, о которых вы размышляете, основаны на отношении нецентральной переменной хи-квадрат к центральной переменной хи-квадрат. Есть что-то, чего я здесь не хватает? Хорошая работа по извлечению чисел из сюжета. Есть ли конкретная программа, на которую вы можете ссылаться, чтобы помочь нам в этом отношении.
IrishStat
1
xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0
0

Сара, возьмите свои 36 чисел (12 значений за цикл; 3 цикла) и создайте регрессионную модель с 11 показателями, отражающими возможный эффект недели, а затем определите все необходимые серии интервенций (импульсы, сдвиги уровней), необходимые для визуализации среднее значение остатков должно быть 0,0 везде или, по крайней мере, статистически значимо не отличаться от 0,0. Например, если вы определяете сдвиг уровня в периоде 13, это может указывать на статистически значимую разницу между средним значением первого семестра, то есть первыми 12 значениями, и средним значением последних двух семестров (последние 24 значения). Вы могли бы сделать вывод или проверить гипотезу об отсутствии недели эффекта семестра. В этом отношении вам может пригодиться хороший пакет временных рядов. В противном случае вам может понадобиться найти кого-то, кто предоставит помощь в этой аналитической области.

IrishStat
источник
1
Это звучит как описание двухстороннего ANOVA (дни за циклами), за которым следуют запланированные тесты из 11 пар дней. Простое старое программное обеспечение статистики, вероятно, будет более гибким и мощным в использовании, чем специализированное программное обеспечение временных рядов; это, безусловно, будет проще. Кстати, индексы - это дни (в период экзамена), а не неделя семестра.
whuber
Могу ли я также использовать ANOVA для сравнения максимумов и минимумов в день? Или это относится только к средствам?
Инвидвидюл
@Sarah Это может быть применимо к минимумам и максимумам. Однако эти статистические данные, как правило, гораздо более изменчивы, чем средние, поэтому менее вероятно, что вы сможете обнаружить изменения в них с течением времени или между семестрами. Ваш график дает понять, что средства действительно различаются. Если вы можете, сделайте ANOVA трехсторонним , указав время суток и используя исходные почасовые показатели, а не их ежедневные значения.
whuber
@whuber: Мне сказали, что собирать воедино почасовые данные невозможно, поскольку они записываются только с 12 до 6 утра. Смотрите мой предыдущий вопрос Регулярные пробелы в данных во временном ряду .
Инвидвидюл
@ Сара Я говорю о другом: смоделируйте зависимость с точки зрения трех факторов: периода (3 из них), дня в периоде (12 из них) и часа дня (6 из них). Вы можете даже учитывать корреляции между часами, но это может быть необязательно для ваших целей. Несмотря на это, я не рекомендую рассматривать каждый период как прерывистую серию отсчетов 12 * 24: слишком много пропущенных данных.
whuber