Какая модель для сложного набора данных? (сотни временных рядов с большим количеством вложений)

9

У меня достаточно сложный набор данных для анализа, и я не могу найти для него хорошего решения.

Вот эта вещь:

1. сырые данные по существу записи песен насекомых. Каждая песня состоит из нескольких очередей, а каждая - из подразделений. Все лица были зарегистрированы в течение 5 минут. Количество пакетов и их положение в записи могут сильно различаться у разных людей, а также в количестве единиц на пакет.

2. У меня есть несущая частота (основная частота) каждого подразделения, и это то, что я хочу проанализировать.

Мои проблемы:

1. Частоты в пакете, очевидно, не являются независимыми (хотя они довольно стабильны, но частота субъединицы n-1 будет влиять на субъединицу n).

2. Всплески также не являются независимыми в записи.

3. Они даже менее независимы, так как частота падает со временем (человек устает петь, поэтому частота песни становится все ниже и ниже). Сбрасывание кажется линейным.

4. Вложенность = у меня есть 3 реплицированных популяции для двух мест A и B. Таким образом, у меня есть A1, A2, A3 и B1, B2, B3.

Что я хотел бы сделать:

1. Охарактеризуйте разницу в частотах между двумя моими местоположениями (протестируйте статистически)

2. Охарактеризуйте частоту падения между двумя точками (посмотрите, падает ли она быстрее в одном из них)

Как это сделать:

Ну, вот почему мне нужна помощь: я не знаю. Кажется, что мой случай сочетает в себе проблемы, которые обычно не видны вместе. Я читал о смешанных моделях, о GAM, об ARIMA, случайных и фиксированных эффектах, но я не уверен, что это лучший способ сделать это. Хотя, когда я отображаю это на графике (частота ~ номер подразделения n ), разница между этими двумя точками очень четкая. Я также должен принять во внимание другие переменные, такие как температура (повышает частоту) и т. Д.

Я думал о:

  • Вложение людей в пределах копии, из которой они находятся, и вложение копии в пределах местоположения (отдельный / копия / местоположение).

  • Используйте случайный эффект «взрыва», поэтому я принимаю во внимание изменчивость в каждом пакете.

  • Используйте фиксированный эффект «позиции серии при записи», чтобы измерить падение частоты (надеясь, что оно действительно линейное).

Будет ли это правильно?

Есть ли особый тип модели, который я мог бы использовать для такого сценария?

Джо
источник
Добро пожаловать на этот сайт, Джо. Не нужно входить в свой пост, ваше имя всегда будет отображаться под вашим граватаром :)
chl
Ок и спасибо! Это очень хороший сайт, очень хорошо сделанный.
Джо
«Вложение лиц внутри копии, из которой они исходят, и размещение копии внутри местоположения (индивидуальный / репликат / местоположение)» звучит как хорошая идея, если сравнивать с не вложенными формами. Как выглядит УТЕРЯНА из ваших шести подгрупп населения?
о.
1
Большое спасибо за ваши ответы, очень ценю это. Ну, это заняло у меня много времени, но мне удалось проанализировать этот (кровавый) набор данных. Думаю, я был слишком амбициозен, желая моделировать все одновременно. Поэтому я разделил работу по нескольким моделям для каждой проблемы (средняя разность частот, увеличение частоты и т. Д.). Вывод: иногда лучше разделить работу!
Джо

Ответы:

2

Это лишь некоторые общие предложения, которые могут оказаться полезными, скорее дорожная карта, чем рецепт.

  • Мой инстинкт состоял бы в том, чтобы построить байесовскую иерархическую модель, потому что она пригодна для итеративной разработки модели - я не думаю, что вы найдете существующую модель, в которой есть все навороты, которые вам нужны. Но это усложняет проверку гипотез, я не знаю, насколько необходима проверка гипотез для вас.
  • Похоже, у вас в голове немного неформальной модели поведения насекомых; вы говорите что-то вроде «усталости», и вы знаете, что температура повышает частоту, предположительно потому, что у животного больше энергии. Похоже, у вас в голове есть небольшая порождающая модель того, как насекомые делают свои песни.
  • Проблема звучит слишком сложно, чтобы моделировать ее «одним выстрелом». Я думаю, вам придется что-то создавать по частям. Я бы начал с некоторых «сильных простых предположений», т. Е. Отбросил бы большую часть сложности набора данных, планируя добавить его позже, как только у вас появится простая модель, которая работает.

Итак, для начала, я хотел бы сделать что-то вроде предварительной обработки частот субблоков на основе посередине в нечто вроде пары (средняя частота, частотный тренд) - сделать это с помощью OLS и просто смоделировать среднее значение частоты и тренд взрыв, а не сами подразделения. Или вы могли бы сделать (имеется в виду, тренд, # подразделений), если количество подразделений связано с тем, насколько усталым насекомое становится. Затем создайте байесовскую иерархическую модель, в которой распределение среднего значения и тренда пакета определяется средним, трендом записи, а это, в свою очередь, определяется средним трендом местоположения.

Затем добавьте температуру в качестве фактора для средней записи / тренда.

Эта простая модель должна позволять вам видеть среднее значение и тренд отдельных всплесков в записи, которые определяются температурой и местоположением. Попробуйте и заставить это работать.

Затем я попытался бы оценить разницу между средней частотой всплесков (или тенденцией путем деления на тихое время между всплесками), добавив ее в качестве переменной, определяемой местоположением и записью. Следующим шагом является модель AR среднего значения в записи.

Принимая во внимание некоторые основные принципы и некоторые очень сильные предположения о характере всплесков (что вся информация дается с помощью среднего и тренда), эта базовая модель скажет вам:

  • как средняя частота вспышки отличается от местоположения в зависимости от местоположения и температуры от температуры
  • как тренд внутри вспышки отличается от местоположения к месту и температуры от температуры
  • как тенденция внешнего всплеска отличается местоположением местоположением и температурой временным

Если у вас есть что-то подобное, возможно, пришло время смоделировать сами подразделения и отбросить первоначальную оценку OLS. В этот момент я бы посмотрел на данные, чтобы понять, какая модель временных рядов может подойти, и смоделировать параметры модели временных рядов, а не пар (среднее значение, тренд).

Патрик Калдон
источник