В данном конкретном случае я имею в виду день замерзания озера. Эта дата «обледенения» встречается только один раз в год, но иногда вообще не происходит (если зима теплая). Таким образом, в один год озеро может замерзнуть в день 20 (20 января), а в другой год оно может вообще не замерзнуть.
Цель состоит в том, чтобы выяснить водителей на льду даты.
Предикторами будут такие вещи, как температура воздуха осень / зима каждый год. Год может быть предсказателем долгосрочного линейного тренда.
1) Является ли целое число «день года» разумной переменной ответа (если нет, то что?)?
2) Как следует обращаться с годами, когда озеро никогда не замерзало?
Редактировать:
Я не знаю, что здесь за этикет, но я решил опубликовать результаты полученных предложений. Вот бумага, открытый доступ . Я получил хорошие отзывы об используемом подходе, спасибо @pedrofigueira и @cboettig. Конечно, ошибки мои.
Ответы:
Я думаю, что можно рассматривать «день года» как переменную ответа на многомерную регрессию. Чтобы справиться с годами, когда озеро никогда не замерзало, я бы просто подумал, что день замерзания больше наблюдаемого нижнего предела, который соответствует, например, дню, когда содержание льда начинает таять (или полностью тает, если вы хотите быть очень консервативным). Теоретически он должен замерзнуть после этого или может замерзнуть после этого, но мы не знаем. Таким образом, вы можете использовать данные, которые вы собрали по различным параметрам, чтобы понять, как от них зависит день замораживания, если он был разрешен позже, чем самая последняя наблюдаемая дата. Затем вы можете использовать модель Tobitобрабатывать одновременно дни замораживания (соответствующие «нормальным» точкам данных) и нижние пределы (соответствующие ограничениям и, таким образом, рецензируемой регрессии).
Чтобы правильно включить измеренные нижние пределы в анализ, вы можете использовать регрессионную модель с цензурой, в которой зависимая переменная имеет предел при значении нижнего предела. Вышеупомянутая модель Tobit подходит для этого случая; он предполагает существование ненаблюдаемой (скрытой) зависимой переменной которая в нашем случае соответствует дате замерзания, если зима продолжалась бесконечно. Затем наблюдаемая зависимая переменная y i (т.е. измеренный нижний предел на дату замораживания) принимается равной скрытой переменной в отсутствие нижнего предела L i , а в противном случае равной нижнему пределуY*я Yя Lя
Применение модели Тобита для обработки цензуры наблюдения за наблюдением приводит к функции логарифмического правдоподобия вида
источник
День года - это одна из разумных переменных-предикторов, и поэтому я считаю, что разумно относиться к нему так, как предлагает @pedrofigueira.
Для других переменных-предикторов вам может потребоваться быть осторожным с тем, как вы представляете время. Например, представьте, что у вас есть температура воздуха днем - как бы вы смоделировали температуру воздуха как предиктор дня льда? Я не думаю, что сравнение образцов одного и того же дня достаточно.
В любом таком анализе, я думаю, это помогает записать, как вы думаете, может быть правдоподобная генерирующая модель (или модели) данных (где некоторая физика может быть доступна в качестве руководства). Например, разумной моделью может быть интеграция количества дней ниже нуля, и когда этот интеграл пересекает порог (например, связанный с тепловой массой озера), происходит обледенение. Из такой модели вы можете спросить, что является разумным приближением, а что нет.
Например, день года как предиктор имеет значение для этой модели только в том случае, если день года является хорошим предиктором температуры. Таким образом, зная только день года, можно было бы просто иметь средний день года, соответствующий порогу обледенения, возможно, с некоторым нормальным распределением вокруг него, возникающим в результате межгодовых колебаний температуры, и, следовательно, искать тенденцию изменения дневной температуры. года полностью оправдано.
Но если вы знаете другие переменные, такие как air-temp днем, вы, вероятно, столкнетесь с более сложной моделью. Если вы просто используете годовые значения (минимальные значения, средние значения?), То переменная в качестве предиктора дня обледенения также представляется разумной (по тому же аргументу, что и выше).
источник
Для этой проблемы вам нужны две переменные ответа. Один логический ответ, который указывает, замерзло ли озеро или нет, и один целочисленный ответ, указывающий день года, при условии, что индикатор является истинным. В годы, когда озеро замерзало, наблюдаются как логическое, так и целое число. В те годы, когда озеро не замерзало, наблюдается логическое значение, а целое - нет. Вы можете использовать логистическую регрессию для логического значения. Регрессия за день года может быть обычной линейной регрессией.
Круговая природа дня года не должна быть проблемой, если вы последовательно подсчитываете возможные дни замораживания в течение определенного периода времени. Если вам интересно, с чего начать нумерацию, я бы предложил день, когда были измерены предикторы. Если вы хотите, чтобы модель представляла причинно-следственные связи, это должно быть в том случае, если все предикторы были измерены до любого возможного замораживания.
Для обработки целочисленного и ограниченного характера дня года можно использовать модель дискретизации. То есть существует реальное скрытое значение, которое генерирует наблюдение следующим образом: если значение находится в пределах границ, тогда наблюдение равняется скрытому значению, округленному до ближайшего целого числа, в противном случае значение усекается до границ. Затем скрытое значение может быть смоделировано как линейная функция предикторов плюс шум.
источник
То, что у вас есть, это данные о событиях, которые также называют анализом выживаемости. Это не совсем моя сфера, поэтому я не даю здесь подробного ответа. Поиск в «времени до события» или «анализ выживания» даст вам много хитов!
Хорошей отправной точкой могла бы стать глава (13) об анализе выживания в Venables / Ripley: MASS или классическая «Статистический анализ данных о времени отказов, второе издание» Джона Д. Калбфляйша, Росс Л. Прентис (авт.)
РЕДАКТИРОВАТЬ, РАСШИРЕННЫЙ ОТВЕТ
В качестве альтернативы анализу выживаемости вы можете аппроксимировать это порядковой логистической регрессией. Например, в вашем примере с первой датой замораживания определите несколько дат, для которых вы задаете состояние «было замораживание до или до», 0 (без замораживания), 1 (замораживание). Это хорошо вписывается в годы без замораживания, у вас просто есть нулевой вектор ответа. Если вы выбрали даты, скажем,
и, как правило, все векторы ответов будут иметь начальный блок нулей, за которым следует блок единиц. Затем вы можете использовать это с порядковой логистической регрессией, получая предполагаемую вероятность замораживания для каждой даты. Построение этой кривой даст приближение для кривой выживания (в этом контексте выживание становится «еще не замороженным»).
Можно также увидеть ваши данные как повторяющиеся события, поскольку река замерзает (почти) каждый год. Вот мой ответ здесь: Нахождение значимых предикторов психиатрической реадмиссии
источник