Как сравнить 2 нестационарных временных ряда, чтобы определить корреляцию?

11

У меня есть два ряда данных, которые показывают средний возраст смерти с течением времени. Обе серии демонстрируют повышенный возраст на момент смерти, но один значительно ниже другого. Я хочу определить, значительно ли увеличение возраста на момент смерти у нижней выборки, чем у верхней выборки.

Вот данные , упорядоченные по годам (с 1972 по 2009 год включительно) с округлением до трех знаков после запятой:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Обе серии являются нестационарными - как их сравнить, пожалуйста? Я использую STATA. Любой совет будет с благодарностью получен.

Данные участки

Мэтт Херли
источник
Если вы предоставите ссылку на ваши данные, Мэтт, мы можем отредактировать ваш вопрос, чтобы включить эти данные.
whuber
Большое спасибо за ваш интерес к моему положению - ссылка на данные добавлена. Любая помощь будет принята с благодарностью.
Матт
@ Мэтт: Взглянув на ваши данные, похоже, они оба восходящие тенденции. Таким образом, вы по существу заинтересованы в гипотезе о том, что одна когорта увеличивается быстрее, чем другая?
Андрей
Да, Эндрю - верхняя когорта - это население в целом, в то время как когорта с более низким возрастом смерти - группа, умирающая от того же самого состояния. Нулевая гипотеза заключается в том, что, если они тесно связаны, любое улучшение выживаемости может быть связано с общими факторами (а не с улучшением ухода за указанным состоянием).
Мэтт Херли
Увеличение, как бы оно ни было измерено, настолько очевидно, что никакой формальной проверки не требуется. (Вы получите p-значения или менее почти независимо от того, как вы оцениваете и сравниваете наклоны, независимо от того, как вы моделируете отклонение.) Разница в ожидаемой продолжительности жизни экспоненциально уменьшается со скоростью 0,83% в год. год. Интересно, что внезапная неудача в когорте Б в 2001 году; это изменение - эквивалентное мгновенной потере шести лет прогресса - является статистически значимым. 1010
whuber

Ответы:

14

Это простая ситуация; давайте так держать. Ключ должен сосредоточиться на том, что имеет значение:

  • Получение полезного описания данных.

  • Оценка индивидуальных отклонений от этого описания.

  • Оценка возможной роли и влияния случайности в интерпретации.

  • Поддержание интеллектуальной целостности и прозрачности.

Есть еще много вариантов, и многие формы анализа будут действительными и эффективными. Давайте проиллюстрируем один подход здесь, который можно рекомендовать для соблюдения этих ключевых принципов.

Чтобы сохранить целостность, давайте разделим данные на две части: наблюдения с 1972 по 1990 и наблюдения с 1991 по 2009 (по 19 лет в каждом). Мы подгоним модели к первой половине, а затем посмотрим, насколько хорошо подходят подгонки при проектировании второй половины. Это имеет дополнительное преимущество обнаружения значительных изменений, которые могли произойти во второй половине.

Чтобы получить полезное описание, нам нужно (а) найти способ измерить изменения и (б) подобрать простейшую возможную модель, соответствующую этим изменениям, оценить ее и итеративно подобрать более сложные, чтобы учесть отклонения от простых моделей.

(а) У вас есть много вариантов: вы можете посмотреть на необработанные данные; вы можете посмотреть на их ежегодные различия; вы можете сделать то же самое с логарифмами (для оценки относительных изменений); Вы можете оценить потерянные годы жизни или относительную продолжительность жизни (RLE); или много других вещей. После некоторых размышлений я решил рассмотреть RLE, определяемый как отношение ожидаемой продолжительности жизни в когорте B к таковому (эталонной) когорты A. К счастью, как показывают графики, ожидаемая продолжительность жизни в когорте A регулярно увеличивается в стабильной с течением времени, так что большая часть случайных изменений в RLE будет связана с изменениями в группе B.

(б) Простейшая модель, с которой можно начать, - это линейный тренд. Посмотрим, насколько хорошо это работает.

фигура 1

Темно-синие точки на этом графике - данные, сохраненные для подгонки; точки светлого золота - это последующие данные, которые не используются для подгонки. Черная линия подходит, с уклоном 0,009 / год. Пунктирные линии - интервалы прогнозирования для отдельных будущих значений.

В целом, подгонка выглядит хорошо: проверка остатков (см. Ниже) не показывает каких-либо важных изменений их размеров с течением времени (в течение периода данных 1972-1990 гг.). (Есть некоторые признаки того, что они имели тенденцию к увеличению на ранних этапах, когда ожидаемая продолжительность жизни была низкой. Мы могли бы справиться с этим осложнением, пожертвовав некоторой простотой, но выгоды для оценки этой тенденции вряд ли будут значительными.) Есть только малейший намек последовательной корреляции (проявляется в некоторых сериях положительных и отрицательных остатков), но, очевидно, это неважно. Нет никаких выбросов, которые были бы обозначены точками за пределами полос прогнозирования.

Единственный сюрприз состоит в том, что в 2001 году значения внезапно упали до нижней полосы прогноза и остались там: что-то довольно внезапное и большое произошло и сохранилось.

Вот остатки, которые являются отклонениями от описания, упомянутого ранее.

фигура 2

Поскольку мы хотим сравнить невязки с 0, вертикальные линии нарисованы до нулевого уровня в качестве наглядного пособия. Опять же, синие точки показывают данные, используемые для подгонки. Светло-золотые - это остатки данных, которые приближаются к нижнему пределу прогнозирования после 2000 года.

Исходя из этой цифры, мы можем оценить, что эффект изменения 2000-2001 гг. Составил около -0,07 . Это отражает внезапное падение на 0,07 (7%) полного времени жизни в когорте B. После этого падения горизонтальная структура остатков показывает, что предыдущая тенденция продолжилась, но на новом более низком уровне. Эту часть анализа следует рассматривать как исследовательскую : она не была специально спланирована, но возникла из-за удивительного сравнения удержанных данных (1991-2009 гг.) И соответствия остальным данным.

107

По-видимому, нет причин для подгонки к этим данным более сложной модели, по крайней мере, не для оценки того, существует ли подлинная тенденция в RLE во времени: она есть. Мы могли бы пойти дальше и разбить данные на значения до 2001 года и после 2000 года, чтобы уточнить наши оценкитенденций, но было бы не совсем честно проводить проверки гипотез. Значения p были бы искусственно низкими, потому что тестирование на расщепление не планировалось заранее. Но в качестве ознакомительного упражнения такая оценка подойдет. Узнайте все, что вы можете из своих данных! Просто будьте осторожны, чтобы не обманывать себя переобучением (что почти наверняка произойдет, если вы используете более полудюжины параметров или около того или используете методы автоматического подбора) или отслеживание данных: будьте внимательны к разнице между формальным подтверждением и неформальным (но ценные) данные разведки.

Подведем итоги:

  • Выбрав подходящий показатель ожидаемой продолжительности жизни (RLE), выделив половину данных, подобрав простую модель и протестировав эту модель с оставшимися данными, мы с высокой уверенностью установили, что : существует устойчивая тенденция; это было близко к линейному в течение длительного периода времени; и в 2001 году произошло резкое постоянное падение RLE.

  • Наша модель поразительно экономна : для точного описания ранних данных требуется всего два числа (наклон и перехват). Для описания очевидного, но неожиданного отступления от этого описания требуется третий (дата перерыва, 2001 г.). Нет никаких выбросов относительно этого трехпараметрического описания. Модель не будет существенно улучшена за счет характеристики последовательной корреляции (основное внимание уделяется методам временных рядов в целом), попыток описать выставленные небольшие индивидуальные отклонения (остатки) или введения более сложных подборов (таких как добавление в квадратичный временной компонент). или моделирование изменений размеров остатков во времени).

  • Тенденция была 0,009 RLE в год . Это означает, что с каждым прошедшим годом к ожидаемой продолжительности жизни в когорте В добавлялось 0,009 (почти 1%) полной ожидаемой нормальной продолжительности жизни. В течение всего исследования (37 лет) это составило бы 37 * 0,009 = 0,34 = одна треть полного улучшения жизни. Спад в 2001 году сократил этот прирост примерно до 0,28 от полной продолжительности жизни с 1972 по 2009 год (хотя в течение этого периода общая ожидаемая продолжительность жизни увеличилась на 10%).

  • Хотя эту модель можно улучшить, ей, вероятно, потребуется больше параметров, и улучшение вряд ли будет значительным (как свидетельствует почти случайное поведение остатков). В целом, мы должны быть довольны, чтобы получить такое компактное, полезное, простое описание данных для столь небольшой аналитической работы.

Whuber
источник
: whuber идентифицированные одноразовые импульсы не играют никакой роли в прогнозе на остроумие:
IrishStat
2

Я думаю, что ответ whuber прост и понятен для такого человека, как я. Я основываю свою на его. Мой ответ в R не Stata, так как я не очень хорошо знаю Stata.

Интересно, действительно ли вопрос задает нам вопрос о том, является ли абсолютное увеличение в годовом исчислении одинаковым в двух когортах (а не относительным). Я думаю, что это важно, и проиллюстрирую это следующим образом. Рассмотрим следующий игрушечный пример:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

введите описание изображения здесь

Здесь у нас есть 2 когорты, каждая из которых имеет постоянное увеличение медианы выживаемости на 1 год в год. Таким образом, каждый год обе когорты в этом примере увеличиваются на одну и ту же абсолютную величину, но RLE дает следующее:

rle <-  a / b
plot(rle)

введите описание изображения здесь

Который, очевидно, имеет тенденцию к росту, и значение p, чтобы проверить гипотезу о том, что градиент линии 0 составляет 2,2e-16. Соответствующая прямая линия (давайте не будем обращать внимания на то, что эта линия выглядит изогнутой) имеет градиент 0,008. Таким образом, несмотря на то, что обе когорты имеют одинаковое абсолютное увеличение в год, RLE имеет восходящий уклон.

Поэтому, если вы используете RLE, когда хотите найти абсолютные увеличения, вы будете неуместно отвергать нулевую гипотезу.

Используя предоставленные данные, рассчитав абсолютную разницу между когортами, получим: введите описание изображения здесь

Это означает, что абсолютная разница между медианой выживаемости постепенно уменьшается (т.е. когорта с плохой выживаемостью постепенно приближается к когорте с лучшей выживаемостью).

Эндрю
источник
Эндрю, обратите внимание на две группы остатков в конце вашего графика. Это предполагает потенциальный недостаток в вашем анализе. К сожалению, даже опытные математики, которые также являются опытными статистиками, иногда не являются людьми временного ряда. То, что я предложил, - это то, что является стандартной операционной процедурой для анализа временных рядов.
IrishStat
@andrew Хороший ответ. Я проголосовал, я верю в вашу квалификацию!
Адам
1
: Adam Спасибо за твои милые слова. Вы заметите, что я рассматриваю только проблемы / вопросы временных рядов, в которых у меня есть некоторый опыт, так как я специализировался в этой области в течение последних 40 лет.
IrishStat
@IrishStat сенсорный дискурсивный. Хороший опыт, вы ставите панков, как я, еще до моего рождения.
Адам
Адам. Вся идея в том, чтобы помочь другим людям. Я искренне надеюсь, что так оно и было. Меня смущает слово «панки», так как у меня нет этого чувства вообще. Просто пытаюсь помочь!
IrishStat
1

Эти два временных ряда, похоже, имеют детерминистическую тенденцию. Это одно отношение, которое вы, очевидно, хотите удалить перед дальнейшим анализом. Лично я бы поступил следующим образом:

1) Я бы запустил регрессию для каждого временного ряда относительно константы и времени и вычислил бы остаток для каждого временного ряда.

2) Взяв два ряда невязок, вычисленных на шаге выше, я запустил бы простую линейную регрессию (без постоянного члена) и посмотрел бы на t-статистику, p-значение, и решил, существует ли дальнейшая зависимость между две серии.

Этот анализ предполагает тот же набор предположений, который вы делаете в линейной регрессии.

Lalas
источник
: user3544 Выполнение регрессии против постоянной во времени является формой тренда, которая является одной из форм предварительного отбеливания; дифференцирование является еще одной формой предварительного отбеливания: оба предполагаются, так как может быть несколько трендов или различные формы операторов дифференцирования. Обратите внимание, что разностный оператор является частным случаем фильтра ARIMA, который преобразует ряд в белый шум. В общем, каждый хочет отфильтровать X, чтобы сделать его шумом (x), а затем применить этот фильтр к Y, чтобы создать y (не обязательно белый шум) для целей идентификации структуры или передачи между Y и X.
IrishStat
: User3544 Мне следовало бы приветствовать использование вами простых несложных отдельных трендов, но я думаю, что иногда не следует полагаться на предположения. Простой тренд часто бесполезен, если в серии есть сдвиги уровней или существует ряд трендов. Проверка гипотезы о постоянстве параметров должна быть надежной и проводиться там, где ищется момент времени, когда параметры могли измениться, а не произвольно выбирается точка с использованием теста Чоу. Хорошо известно, что необычные значения смещения вниз тестируют на автокорреляцию, поэтому нужно их обнаруживать.
IrishStat
IrishStat: ваш аплодисмент хорошо принят и услышан .. :) Я полностью согласен с вашими комментариями, однако, учитывая сюжеты двух временных рядов, я подумал: «Давайте будем простыми» .. :)
Лалас
1
: user3544 Моя любимая цитата Эйнштейна: «Сделай все как можно проще, но не проще», или перефразируй. Сделай модели как можно проще, но не проще, потому что некоторые люди считают, что цель - это просто, а это может стать причиной недостаточного анализа. В этом случае вашего предложения было бы достаточно для определения одновременной корреляции и корреляции запаздывания между двумя когортами при освещении сдвига уровня. Подробнее читайте: brainyquote.com/quotes/quotes/a/… .
IrishStat
0

В некоторых случаях кто-то знает теоретическую модель, которую можно использовать для проверки вашей гипотезы. В моем мире это «знание» часто отсутствует, и нужно прибегать к статистическим методам, которые можно классифицировать как анализ поисковых данных, который суммирует следующее. При анализе данных временного ряда, которые являются нестационарными, то есть обладают автокорреляционными свойствами, простые тесты взаимной корреляции часто вводит в заблуждение, поскольку ложные срабатывания могут быть легко найдены. Один из самых ранних анализов этого можно найти в Yule, GU, 1926, «Почему мы иногда получаем бессмысленные корреляции между временными рядами? Исследование по выборке и характеру временных рядов», Журнал Королевского статистического общества 89, 1– 64 В качестве альтернативы, когда одна или несколько серий сами подверглись исключительной деятельности (см. " внезапная неудача в когорте B в 2001 году), которая может эффективно скрывать существенные отношения. Теперь обнаружение взаимосвязи между временными рядами распространяется на изучение не только современных отношений, но и возможных отстающих отношений. Продолжая, если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, приспосабливаясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Теперь обнаружение взаимосвязи между временными рядами распространяется на изучение не только современных отношений, но и возможных отстающих отношений. Продолжая, если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, приспосабливаясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Теперь обнаружение взаимосвязи между временными рядами распространяется на изучение не только современных отношений, но и возможных отстающих отношений. Продолжая, если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, приспосабливаясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, адаптируясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, адаптируясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»:

Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

что предполагает современные отношения 1.2936 и запаздывающий эффект 1.6523. Обратите внимание, что в течение ряда лет была выявлена ​​необычная активность. (1975,2001,1983,1999,1976,1985,1984,11991 и 1989). Корректировки по годам позволяют нам более четко оценить взаимосвязь между этими двумя сериями.

С точки зрения составления прогноза

МОДЕЛЬ ВЫРАЖЕНА КАК XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ константа

ПРАВИЛЬНАЯ ПОСТОЯННАЯ СТОРОНА: -194.45

COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340

COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835

I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Четыре коэффициента - это все, что требуется для составления прогноза и, конечно, прогноза для CohortA в период времени 39 (78.228616), полученного из модели ARIMA для Cohorta.

IrishStat
источник
4
Девять из 38 лет демонстрируют «необычные» мероприятия? В модели с (видимо) 25 параметрами ?! Что-то не так с этой интерпретацией. Помимо всех этих импульсов и сдвига уровня, вы нашли нелинейный компонент еще в тренде когорты b?
whuber
2
Какие цифры в правом столбце (3, 30, 29, 11 и т. Д.)? Похоже, они являются частью вашего описания данных и, следовательно, также являются параметрами. Даже если мы не посчитаем их, использование 14 параметров для описания 38 значений, особенно когда вопрос просто «есть ли тенденция?», Кажется чрезмерным. В этом отношении, что именно является тенденцией? Где во всех этих оценках можно найти это? Если бы к вам подошел врач и спросил: «Хорошо, что было сделано для пациентов в группе B с 1972 года», не могли бы вы сказать им одно четкое предложение?
whuber
2
Относительно «очень мощного прогноза»: я могу неправильно понять, что составляет ваша модель, но в целом лучше будет описать метод (временные ряды или иным образом), который идентифицирует четверть данных как «необычные» и требующие «корректировки», «переоснащенный» и «излишне сложный». Ваше утверждение об отсутствии тенденции в когорте B просто невероятно.
whuber
2
@ Adam, поскольку этот анализ по существу игнорирует информацию об изменчивости, содержащуюся в 10 «импульсах», любые полосы прогнозирования, которые он размещает вокруг прогнозов, будут чрезмерно оптимистичными (слишком жесткими). Более того, более глубокий анализ, который включает все данные (в отличие от моего иллюстративного анализа, который включает только первую половину), обнаружит нелинейный компонент, согласующийся с небольшим снижением тренда, и который также здесь не обнаруживается. Более важным, чем прогнозирование, является понимание эффекта 2000-2001 гг .: если его можно повторить, то все прогнозы, скорее всего, неверны.
whuber
1
@whuber По общему признанию, я не знаю всего технического жаргона, но ваше объяснение имеет большой смысл. Большое спасибо.
Адам
-1

Этот ответ содержит некоторые графики остатки от полезной модели! [] [1]

фактические данные очищены от вмешательствACF остатков моделивведите описание изображения здесь подходят и прогноз CohortB ОСТАТКИ ОТ МОДЕЛИфактическое соответствие и прогноз

IrishStat
источник