У меня есть два ряда данных, которые показывают средний возраст смерти с течением времени. Обе серии демонстрируют повышенный возраст на момент смерти, но один значительно ниже другого. Я хочу определить, значительно ли увеличение возраста на момент смерти у нижней выборки, чем у верхней выборки.
Вот данные , упорядоченные по годам (с 1972 по 2009 год включительно) с округлением до трех знаков после запятой:
Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983
Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 12.639 11.667 14.286 12.794 12.250 14.079 17.917 16.250 17.321 18.182 17.500 20.000 18.824 21.522 21.500 21.167 21.818 22.895 23.214 24.167 26.250 24.375 27.143 24.500 23.676 25.179 24.861 26.875 27.143 27.045 28.500 29.318
Обе серии являются нестационарными - как их сравнить, пожалуйста? Я использую STATA. Любой совет будет с благодарностью получен.
time-series
correlation
stata
Мэтт Херли
источник
источник
Ответы:
Это простая ситуация; давайте так держать. Ключ должен сосредоточиться на том, что имеет значение:
Получение полезного описания данных.
Оценка индивидуальных отклонений от этого описания.
Оценка возможной роли и влияния случайности в интерпретации.
Поддержание интеллектуальной целостности и прозрачности.
Есть еще много вариантов, и многие формы анализа будут действительными и эффективными. Давайте проиллюстрируем один подход здесь, который можно рекомендовать для соблюдения этих ключевых принципов.
Чтобы сохранить целостность, давайте разделим данные на две части: наблюдения с 1972 по 1990 и наблюдения с 1991 по 2009 (по 19 лет в каждом). Мы подгоним модели к первой половине, а затем посмотрим, насколько хорошо подходят подгонки при проектировании второй половины. Это имеет дополнительное преимущество обнаружения значительных изменений, которые могли произойти во второй половине.
Чтобы получить полезное описание, нам нужно (а) найти способ измерить изменения и (б) подобрать простейшую возможную модель, соответствующую этим изменениям, оценить ее и итеративно подобрать более сложные, чтобы учесть отклонения от простых моделей.
(а) У вас есть много вариантов: вы можете посмотреть на необработанные данные; вы можете посмотреть на их ежегодные различия; вы можете сделать то же самое с логарифмами (для оценки относительных изменений); Вы можете оценить потерянные годы жизни или относительную продолжительность жизни (RLE); или много других вещей. После некоторых размышлений я решил рассмотреть RLE, определяемый как отношение ожидаемой продолжительности жизни в когорте B к таковому (эталонной) когорты A. К счастью, как показывают графики, ожидаемая продолжительность жизни в когорте A регулярно увеличивается в стабильной с течением времени, так что большая часть случайных изменений в RLE будет связана с изменениями в группе B.
(б) Простейшая модель, с которой можно начать, - это линейный тренд. Посмотрим, насколько хорошо это работает.
Темно-синие точки на этом графике - данные, сохраненные для подгонки; точки светлого золота - это последующие данные, которые не используются для подгонки. Черная линия подходит, с уклоном 0,009 / год. Пунктирные линии - интервалы прогнозирования для отдельных будущих значений.
В целом, подгонка выглядит хорошо: проверка остатков (см. Ниже) не показывает каких-либо важных изменений их размеров с течением времени (в течение периода данных 1972-1990 гг.). (Есть некоторые признаки того, что они имели тенденцию к увеличению на ранних этапах, когда ожидаемая продолжительность жизни была низкой. Мы могли бы справиться с этим осложнением, пожертвовав некоторой простотой, но выгоды для оценки этой тенденции вряд ли будут значительными.) Есть только малейший намек последовательной корреляции (проявляется в некоторых сериях положительных и отрицательных остатков), но, очевидно, это неважно. Нет никаких выбросов, которые были бы обозначены точками за пределами полос прогнозирования.
Единственный сюрприз состоит в том, что в 2001 году значения внезапно упали до нижней полосы прогноза и остались там: что-то довольно внезапное и большое произошло и сохранилось.
Вот остатки, которые являются отклонениями от описания, упомянутого ранее.
Поскольку мы хотим сравнить невязки с 0, вертикальные линии нарисованы до нулевого уровня в качестве наглядного пособия. Опять же, синие точки показывают данные, используемые для подгонки. Светло-золотые - это остатки данных, которые приближаются к нижнему пределу прогнозирования после 2000 года.
Исходя из этой цифры, мы можем оценить, что эффект изменения 2000-2001 гг. Составил около -0,07 . Это отражает внезапное падение на 0,07 (7%) полного времени жизни в когорте B. После этого падения горизонтальная структура остатков показывает, что предыдущая тенденция продолжилась, но на новом более низком уровне. Эту часть анализа следует рассматривать как исследовательскую : она не была специально спланирована, но возникла из-за удивительного сравнения удержанных данных (1991-2009 гг.) И соответствия остальным данным.
По-видимому, нет причин для подгонки к этим данным более сложной модели, по крайней мере, не для оценки того, существует ли подлинная тенденция в RLE во времени: она есть. Мы могли бы пойти дальше и разбить данные на значения до 2001 года и после 2000 года, чтобы уточнить наши оценкитенденций, но было бы не совсем честно проводить проверки гипотез. Значения p были бы искусственно низкими, потому что тестирование на расщепление не планировалось заранее. Но в качестве ознакомительного упражнения такая оценка подойдет. Узнайте все, что вы можете из своих данных! Просто будьте осторожны, чтобы не обманывать себя переобучением (что почти наверняка произойдет, если вы используете более полудюжины параметров или около того или используете методы автоматического подбора) или отслеживание данных: будьте внимательны к разнице между формальным подтверждением и неформальным (но ценные) данные разведки.
Подведем итоги:
Выбрав подходящий показатель ожидаемой продолжительности жизни (RLE), выделив половину данных, подобрав простую модель и протестировав эту модель с оставшимися данными, мы с высокой уверенностью установили, что : существует устойчивая тенденция; это было близко к линейному в течение длительного периода времени; и в 2001 году произошло резкое постоянное падение RLE.
Наша модель поразительно экономна : для точного описания ранних данных требуется всего два числа (наклон и перехват). Для описания очевидного, но неожиданного отступления от этого описания требуется третий (дата перерыва, 2001 г.). Нет никаких выбросов относительно этого трехпараметрического описания. Модель не будет существенно улучшена за счет характеристики последовательной корреляции (основное внимание уделяется методам временных рядов в целом), попыток описать выставленные небольшие индивидуальные отклонения (остатки) или введения более сложных подборов (таких как добавление в квадратичный временной компонент). или моделирование изменений размеров остатков во времени).
Тенденция была 0,009 RLE в год . Это означает, что с каждым прошедшим годом к ожидаемой продолжительности жизни в когорте В добавлялось 0,009 (почти 1%) полной ожидаемой нормальной продолжительности жизни. В течение всего исследования (37 лет) это составило бы 37 * 0,009 = 0,34 = одна треть полного улучшения жизни. Спад в 2001 году сократил этот прирост примерно до 0,28 от полной продолжительности жизни с 1972 по 2009 год (хотя в течение этого периода общая ожидаемая продолжительность жизни увеличилась на 10%).
Хотя эту модель можно улучшить, ей, вероятно, потребуется больше параметров, и улучшение вряд ли будет значительным (как свидетельствует почти случайное поведение остатков). В целом, мы должны быть довольны, чтобы получить такое компактное, полезное, простое описание данных для столь небольшой аналитической работы.
источник
Я думаю, что ответ whuber прост и понятен для такого человека, как я. Я основываю свою на его. Мой ответ в R не Stata, так как я не очень хорошо знаю Stata.
Интересно, действительно ли вопрос задает нам вопрос о том, является ли абсолютное увеличение в годовом исчислении одинаковым в двух когортах (а не относительным). Я думаю, что это важно, и проиллюстрирую это следующим образом. Рассмотрим следующий игрушечный пример:
Здесь у нас есть 2 когорты, каждая из которых имеет постоянное увеличение медианы выживаемости на 1 год в год. Таким образом, каждый год обе когорты в этом примере увеличиваются на одну и ту же абсолютную величину, но RLE дает следующее:
Который, очевидно, имеет тенденцию к росту, и значение p, чтобы проверить гипотезу о том, что градиент линии 0 составляет 2,2e-16. Соответствующая прямая линия (давайте не будем обращать внимания на то, что эта линия выглядит изогнутой) имеет градиент 0,008. Таким образом, несмотря на то, что обе когорты имеют одинаковое абсолютное увеличение в год, RLE имеет восходящий уклон.
Поэтому, если вы используете RLE, когда хотите найти абсолютные увеличения, вы будете неуместно отвергать нулевую гипотезу.
Используя предоставленные данные, рассчитав абсолютную разницу между когортами, получим:
Это означает, что абсолютная разница между медианой выживаемости постепенно уменьшается (т.е. когорта с плохой выживаемостью постепенно приближается к когорте с лучшей выживаемостью).
источник
Эти два временных ряда, похоже, имеют детерминистическую тенденцию. Это одно отношение, которое вы, очевидно, хотите удалить перед дальнейшим анализом. Лично я бы поступил следующим образом:
1) Я бы запустил регрессию для каждого временного ряда относительно константы и времени и вычислил бы остаток для каждого временного ряда.
2) Взяв два ряда невязок, вычисленных на шаге выше, я запустил бы простую линейную регрессию (без постоянного члена) и посмотрел бы на t-статистику, p-значение, и решил, существует ли дальнейшая зависимость между две серии.
Этот анализ предполагает тот же набор предположений, который вы делаете в линейной регрессии.
источник
В некоторых случаях кто-то знает теоретическую модель, которую можно использовать для проверки вашей гипотезы. В моем мире это «знание» часто отсутствует, и нужно прибегать к статистическим методам, которые можно классифицировать как анализ поисковых данных, который суммирует следующее. При анализе данных временного ряда, которые являются нестационарными, то есть обладают автокорреляционными свойствами, простые тесты взаимной корреляции часто вводит в заблуждение, поскольку ложные срабатывания могут быть легко найдены. Один из самых ранних анализов этого можно найти в Yule, GU, 1926, «Почему мы иногда получаем бессмысленные корреляции между временными рядами? Исследование по выборке и характеру временных рядов», Журнал Королевского статистического общества 89, 1– 64 В качестве альтернативы, когда одна или несколько серий сами подверглись исключительной деятельности (см. " внезапная неудача в когорте B в 2001 году), которая может эффективно скрывать существенные отношения. Теперь обнаружение взаимосвязи между временными рядами распространяется на изучение не только современных отношений, но и возможных отстающих отношений. Продолжая, если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, приспосабливаясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Теперь обнаружение взаимосвязи между временными рядами распространяется на изучение не только современных отношений, но и возможных отстающих отношений. Продолжая, если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, приспосабливаясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Теперь обнаружение взаимосвязи между временными рядами распространяется на изучение не только современных отношений, но и возможных отстающих отношений. Продолжая, если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, приспосабливаясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, адаптируясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: если какой-либо ряд был вызван аномалиями (одноразовыми событиями), то мы должны робастизировать наш анализ, адаптируясь к этим одноразовым искажениям. В литературе временных рядов указывается, как определить взаимосвязь путем предварительного отбеливания, чтобы более четко идентифицировать структуру. Предварительное отбеливание корректирует внутреннюю корреляционную структуру до определения взаимной корреляционной структуры. Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»: Обратите внимание, что ключевым словом было определение структуры. Такой подход легко приводит к следующей «полезной модели»:
Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA
что предполагает современные отношения 1.2936 и запаздывающий эффект 1.6523. Обратите внимание, что в течение ряда лет была выявлена необычная активность. (1975,2001,1983,1999,1976,1985,1984,11991 и 1989). Корректировки по годам позволяют нам более четко оценить взаимосвязь между этими двумя сериями.
С точки зрения составления прогноза
МОДЕЛЬ ВЫРАЖЕНА КАК XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ константа
ПРАВИЛЬНАЯ ПОСТОЯННАЯ СТОРОНА: -194.45
COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340
COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835
I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963
Четыре коэффициента - это все, что требуется для составления прогноза и, конечно, прогноза для CohortA в период времени 39 (78.228616), полученного из модели ARIMA для Cohorta.
источник
Этот ответ содержит некоторые графики
источник