Вот некоторый контекст. Я заинтересован в определении того, как две переменные среды (температура, уровни питательных веществ) влияют на среднее значение переменной отклика за 11-летний период. В течение каждого года есть данные из более чем 100 тысяч мест.
Цель состоит в том, чтобы определить, отразилось ли в течение 11-летнего периода среднее значение переменных отклика на изменениях переменных среды (например, более высокая температура + больше питательных веществ = больший отклик).
К сожалению, поскольку ответом является среднее значение (без учета среднего значения, только регулярные межгодовые колебания затопят сигнал), регрессия составит 11 точек данных (1 среднее значение в год) с 2 пояснительными переменными. Для меня даже линейную положительную регрессию будет трудно считать значимой, учитывая, что набор данных настолько мал (даже не соответствует номинальным 40 точкам / переменной, если только отношение не является сверхсильным).
Правильно ли я сделать это предположение? Может ли кто-нибудь предложить какие-либо другие мысли / перспективы, которые я могу упустить?
PS: некоторые предостережения: невозможно получить больше данных, не дожидаясь дополнительных лет. Таким образом, доступные данные - это то, с чем нам действительно нужно работать.
источник
Ответы:
Небольшое количество точек данных ограничивает типы моделей, которые вы можете разместить на своих данных. Однако это не обязательно означает, что начинать моделирование не имеет смысла. С небольшим количеством данных вы сможете обнаружить ассоциации только в том случае, если эффекты сильные, а разброс слабый.
Другой вопрос, какая модель подходит для ваших данных. Вы использовали слово «регрессия» в названии. Модель должна в какой-то степени отражать то, что вы знаете о явлении. Кажется, это экологическая обстановка, поэтому предыдущий год также может оказать влияние.
источник
Я видел наборы экологических данных с менее чем 11 точками, поэтому я бы сказал, что если вы будете очень осторожны, вы можете сделать некоторые ограниченные выводы с вашими ограниченными данными.
Вы также можете провести анализ мощности, чтобы определить, насколько мал эффект вы можете обнаружить, учитывая параметры вашего экспериментального плана.
Вам также может не потребоваться выбрасывать дополнительные вариации в год, если вы проведете тщательный анализ
источник
Основное моделирование данных (особенно для временных рядов) предполагает, что вы собрали данные с достаточной частотой, чтобы охватить интересующие вас явления. Простейший пример для синусоидальной волны - если вы собираете данные с частотой n * pi, где n - целое число, то вы не увидите ничего, кроме нулей, и пропустите синусоидальный паттерн в целом. Есть статьи по теории выборки, в которых обсуждается, как часто следует собирать данные.
источник
Я не уверен, что понимаю этот бит: «К сожалению, поскольку ответ является средним значением (без учета среднего значения, только регулярные межгодовые колебания затопят сигнал)»
С осторожным моделированием, мне кажется, вы могли бы многого добиться, моделируя это как данные панели. В зависимости от пространственного охвата ваших данных, могут быть большие различия в температурах, которым ваши точки данных подвергались в течение любого данного года. Усреднение всех этих вариаций кажется дорогостоящим.
источник
Я бы сказал, что достоверность теста связана не столько с количеством точек данных, сколько с достоверностью предположения о том, что у вас правильная модель.
Например, регрессионный анализ, который используется для генерации стандартной кривой, может основываться только на 3 стандартах (низкий, средний и высокий), но результат является весьма достоверным, поскольку имеются убедительные доказательства того, что ответ является линейным между точками.
С другой стороны, даже регрессия с тысячами точек данных будет ошибочной, если к данным будет применена неправильная модель.
В первом случае любое отклонение между предсказаниями модели и фактическими данными обусловлено случайной ошибкой. Во втором случае некоторые различия между предсказаниями модели и фактическими данными вызваны смещением при выборе неправильной модели.
источник
Требуемое количество наблюдений для идентификации модели зависит от отношения сигнал-шум в данных и от формы модели. Если мне дадут числа 1,2,3,4,5, я прогнозирую 6,7,8, .... Идентификация модели Бокса-Дженкинса - это подход к определению базового общего термина, очень похожий на тест для " численный интеллект ", который мы даем детям. Если сигнал сильный, то нам нужно меньше наблюдений и наоборот. Если наблюдаемая частота предполагает возможную «сезонную структуру», то для извлечения нам необходимо повторение этого явления, например, по крайней мере, 3 сезона (предпочтительно больше) (определите это по базовой описательной статистике (acf / pacf).
источник
Возможно, вы можете попытаться обработать свой временной ряд как систему линейных уравнений и решить ее путем исключения Гаусса. Конечно, в этом случае вы ограничиваете себя доступными данными, но это единственная цена, которую вы должны заплатить.
источник