Сильно нерегулярные временные ряды

У меня есть данные о численности различных рыб, взятых за период около 5 лет, но в очень нерегулярном порядке. Иногда между образцами существуют месяцы, иногда за один месяц. Есть также много 0 отсчетов

Как бороться с такими данными?

Я могу представить это достаточно легко в R, но графики не особенно освещают, потому что они очень ухабистые.

С точки зрения моделирования - с видами, моделируемыми в зависимости от различных вещей, - может быть, смешанная модель (многоуровневая модель).

Любые ссылки или идеи приветствуются

Некоторые подробности в ответ на комментарии

Есть около 15 видов.

Я пытаюсь получить представление о тенденциях или сезонности в каждой рыбе и посмотреть, как виды связаны друг с другом (мой клиент изначально хотел простую таблицу корреляций)

Цель описательная и аналитическая, а не прогнозирующая

Дальнейшие изменения: я нашел эту статью K. Rehfield et al., В которой предлагается использовать ядра Гаусса для оценки ACF для сильно нерегулярных временных рядов

http://www.nonlin-processes-geophys.net/18/389/2011/npg-18-389-2011.pdf

time-series multilevel-analysis unevenly-spaced-time-series Питер Флом
источник

Я не тот парень, который отвечает на ваш вопрос, но многоуровневая модель звучит разумно. Любые намеки на то, насколько велики выборки, сколько видов существует и как происходит отсчет нуля? (В последнем пункте, являются ли выборки попытками случайных выборок, или они смещены, как будто вы только что получили счет от соревнования по ловле баса, которое, вероятно, не даст никакого сома?)

Уэйн

«Разобраться» означает что именно? Чтобы

узнать, как

Можете ли вы уточнить выборку и цель? Например, это захват-захват? Размещается ли сеть в потоке в течение определенного периода времени без выпуска? Вы пытаетесь оценить будущие размеры выборки или большую популяцию, из которой берется выборка? Образцы из одного или нескольких мест? Нет ничего плохого в нерегулярных временных рядах, но немного сложно понять связь между событиями выборки и между выборками и некоторой целевой переменной (например, ответом модели). Кроме того, имеет ли цель прогнозирующий или описательный характер?

Итератор

Почему кто-то проголосовал за этот вопрос? Почему бы не попытаться помочь разработать лучший вопрос или ответ?

Итератор

@Iterator Потому что даже сейчас, после «дальнейших правок», здесь нет четкого вопроса. Понижающее голосование (доставлено после того, как на мой первый комментарий не было получено ответа) было помещено, чтобы побудить ФП предоставить необходимые улучшения, а также сигнал о единственном частично сформированном состоянии вопроса в его нынешнем виде. Это не работа каждого читателя (ни мода, в этом отношении), чтобы угадать, что предназначено!

whuber

Ответы:

Я потратил довольно много времени на создание общей структуры для неравномерно распределенных временных рядов: http://www.eckner.com/research.html

Кроме того, я написал статью об оценке тренда и сезонности для неравномерно распределенных временных рядов.

Я надеюсь, что вы найдете результаты полезными!

Андреас Экнер
источник

Спасибо! Этот анализ был давно, и я больше этим не занимаюсь, но подобные вещи могут возникнуть снова; и другие действительно часто ищут эти темы, так что ваш комментарий не пропадает.

Питер Флом

Спасибо за информацию (и, действительно, спустя годы кто-то в Интернете ищет ее!), Но ссылка исчезла.

подключил

Я не знаю, подходит ли смешанная модель (используя стандартные пакеты, в которых структура случайного эффекта является линейным предиктором), если только вы не думаете, что данные во все моменты времени должны быть в некотором смысле взаимозаменяемыми (в этом случае нерегулярные интервалы не являются проблемой) - на самом деле это не было бы разумным способом моделировать временную автокорреляцию. Возможно, вы могли бы обманом заставить lmer () сделать что-то вроде автоагрессии, но то, как именно вы это сделаете, ускользает от меня прямо сейчас (возможно, я не думаю об этом прямо). Кроме того, я не уверен, какой была бы «переменная группировки», которая вызывает автокорреляцию в сценарии смешанной модели.

Если временная автокорреляция является неприятным параметром, и вы не ожидаете, что она будет слишкомбольшие, то вы можете объединить данные в эпохи, которые по существу не пересекаются друг с другом с точки зрения корреляции (например, отделить временные ряды в точках, где нет месяцев) и рассматривать их как независимые копии. Затем вы можете сделать что-то вроде GEE для этого модифицированного набора данных, где «кластер» определяется тем, в какую эпоху вы находитесь, а записи рабочей корреляционной матрицы являются функцией того, насколько далеко друг от друга были сделаны наблюдения. Если ваша регрессионная функция верна, вы все равно получите согласованные оценки коэффициентов регрессии, даже если структура корреляции не указана. Это также позволит вам смоделировать его как данные подсчета, используя, например, лог-линк (как это обычно делается при регрессии Пуассона). Вы также можете построить некоторую дифференциальную корреляцию между видами, где каждая временная точка рассматривается как многовариантный вектор видов с некоторой временной затухающей ассоциацией между временными точками. Это потребует некоторой предварительной обработки, чтобы обманным путем заставить стандартные пакеты GEE сделать это.

Если временная автокорреляция не является неприятным параметром, я бы попробовал нечто более похожее на модель структурированной ковариации, где вы рассматриваете весь набор данных как одно наблюдение большого многомерного вектора, так что ковариация между наблюдениями $Y_{s},Y_{t}$ по видам $u,v$ является

с о v (Y_{s}, Y_{T}) знак равно е_{θ} (s, T, U, v)

${\rm cov}(Y_{s}, Y_{t}) = f_{\theta}(s,t,u,v)$

где $f$ некоторая параметрическая функция, известная с точностью до конечного числа параметров, $\theta$ наряду с рядом параметров, управляющих средней структурой. Возможно, вам придется «построить свою собственную» для такой модели, но я также не удивлюсь, если есть пакеты MPLUS, которые делают подобные вещи для данных подсчета.

макрос
источник

Спасибо @ Макро. Я думаю, что смешанная модель может быть в порядке, потому что они часто используются для данных, вложенных во времени; Меня не очень интересует моделирование автокорреляции, то есть это неприятность. Я согласен, что время не будет линейным, но я могу добавить эффекты времени (пока не знаю, какие из них, но я могу его изучить). У меня нет MPLUS, но у меня есть R и SAS.

Питер Флом

Я только говорю, что стандартная смешанная модель может не подойти в этой ситуации. Случайный перехват бесполезен, если вы не думаете, что временные точки являются взаимозаменяемыми с точки зрения корреляции (т. Е. Он предлагает лишь приближение в мире «обменной корреляции» к вашей истинной структуре корреляции). Включение случайных уклонов во времени указывает на то, что вы думаете, что траектория «куда-то движется» с течением времени - поскольку сюжет не был для вас очень интересным, этого, вероятно, не происходит. Я признаю, что вы можете обмануть lmer (), чтобы сделать что-то более подходящее, хотя.

Макрос

+1 Хороший, краткий ответ, обращающийся ко всем основным пунктам, которые я думал рассмотреть, и больше. Что касается пакетов в R, поиск Google в CRAN для [poisson regression temporal] поднимает несколько пакетов. surveillanceПакет может иметь функциональные возможности желательно. Этот вид моделирования не является редкостью в экологических исследованиях, поэтому, вероятно, лучше всего найти хороший пакет в экологических уголках CRAN.

Итератор