У меня достаточно сложный набор данных для анализа, и я не могу найти для него хорошего решения.
Вот эта вещь:
1. сырые данные по существу записи песен насекомых. Каждая песня состоит из нескольких очередей, а каждая - из подразделений. Все лица были зарегистрированы в течение 5 минут. Количество пакетов и их положение в записи могут сильно различаться у разных людей, а также в количестве единиц на пакет.
2. У меня есть несущая частота (основная частота) каждого подразделения, и это то, что я хочу проанализировать.
Мои проблемы:
1. Частоты в пакете, очевидно, не являются независимыми (хотя они довольно стабильны, но частота субъединицы n-1 будет влиять на субъединицу n).
2. Всплески также не являются независимыми в записи.
3. Они даже менее независимы, так как частота падает со временем (человек устает петь, поэтому частота песни становится все ниже и ниже). Сбрасывание кажется линейным.
4. Вложенность = у меня есть 3 реплицированных популяции для двух мест A и B. Таким образом, у меня есть A1, A2, A3 и B1, B2, B3.
Что я хотел бы сделать:
1. Охарактеризуйте разницу в частотах между двумя моими местоположениями (протестируйте статистически)
2. Охарактеризуйте частоту падения между двумя точками (посмотрите, падает ли она быстрее в одном из них)
Как это сделать:
Ну, вот почему мне нужна помощь: я не знаю. Кажется, что мой случай сочетает в себе проблемы, которые обычно не видны вместе. Я читал о смешанных моделях, о GAM, об ARIMA, случайных и фиксированных эффектах, но я не уверен, что это лучший способ сделать это. Хотя, когда я отображаю это на графике (частота ~ номер подразделения n ), разница между этими двумя точками очень четкая. Я также должен принять во внимание другие переменные, такие как температура (повышает частоту) и т. Д.
Я думал о:
Вложение людей в пределах копии, из которой они находятся, и вложение копии в пределах местоположения (отдельный / копия / местоположение).
Используйте случайный эффект «взрыва», поэтому я принимаю во внимание изменчивость в каждом пакете.
Используйте фиксированный эффект «позиции серии при записи», чтобы измерить падение частоты (надеясь, что оно действительно линейное).
Будет ли это правильно?
Есть ли особый тип модели, который я мог бы использовать для такого сценария?
Ответы:
Это лишь некоторые общие предложения, которые могут оказаться полезными, скорее дорожная карта, чем рецепт.
Итак, для начала, я хотел бы сделать что-то вроде предварительной обработки частот субблоков на основе посередине в нечто вроде пары (средняя частота, частотный тренд) - сделать это с помощью OLS и просто смоделировать среднее значение частоты и тренд взрыв, а не сами подразделения. Или вы могли бы сделать (имеется в виду, тренд, # подразделений), если количество подразделений связано с тем, насколько усталым насекомое становится. Затем создайте байесовскую иерархическую модель, в которой распределение среднего значения и тренда пакета определяется средним, трендом записи, а это, в свою очередь, определяется средним трендом местоположения.
Затем добавьте температуру в качестве фактора для средней записи / тренда.
Эта простая модель должна позволять вам видеть среднее значение и тренд отдельных всплесков в записи, которые определяются температурой и местоположением. Попробуйте и заставить это работать.
Затем я попытался бы оценить разницу между средней частотой всплесков (или тенденцией путем деления на тихое время между всплесками), добавив ее в качестве переменной, определяемой местоположением и записью. Следующим шагом является модель AR среднего значения в записи.
Принимая во внимание некоторые основные принципы и некоторые очень сильные предположения о характере всплесков (что вся информация дается с помощью среднего и тренда), эта базовая модель скажет вам:
Если у вас есть что-то подобное, возможно, пришло время смоделировать сами подразделения и отбросить первоначальную оценку OLS. В этот момент я бы посмотрел на данные, чтобы понять, какая модель временных рядов может подойти, и смоделировать параметры модели временных рядов, а не пар (среднее значение, тренд).
источник