Независимость от остатков в компьютерном эксперименте / моделировании?

17

Я провел компьютерную оценку различных методов подгонки модели определенного типа, используемой в науках о палео. У меня был большой тренировочный набор, и поэтому я случайно (стратифицированная случайная выборка) отложил тестовый набор. Я подгонял различных методов к выборкам обучающих наборов и, используя результирующих моделей, предсказывал отклик для выборок тестовых наборов и вычислял RMSEP для выборок в тестовом наборе. Это одиночный забег .mm

Затем я повторял этот процесс большое количество раз, каждый раз выбирая другой набор тренировок путем случайной выборки нового набора тестов.

Сделав это, я хочу выяснить, имеет ли какой-либо из методов лучшую или худшую производительность RMSEP. Я также хотел бы сделать несколько сравнений парных методов.m

Мой подход заключается в подборе модели линейных смешанных эффектов (LME) с одним случайным эффектом для Run . Я использовал lmer()из пакета lme4 для соответствия моей модели и функций из пакета multcomp для выполнения множественных сравнений. Моя модель была по сути

lmer(RMSEP ~ method + (1 | Run), data = FOO)

где method- коэффициент, указывающий, какой метод использовался для генерации прогнозов модели для тестового набора, и Runиндикатор для каждого конкретного прогона моего «эксперимента».

Мой вопрос касается остатков ЛБМ. Учитывая единственный случайный эффект для прогона, я предполагаю, что значения RMSEP для этого прогона в некоторой степени коррелированы, но не коррелированы между прогонами на основе индуцированной корреляции, которую дает случайный эффект.

Является ли это предположение о независимости между пробегами действительным? Если нет, то есть ли способ объяснить это в модели LME или я должен использовать другой тип статического анализа для ответа на мой вопрос?

Восстановить Монику - Дж. Симпсон
источник
Являются ли остатки обусловленными предсказанными случайными эффектами или безусловными, а в моделированиях - предсказанные случайные эффекты постоянными или изменяющимися. Не забудьте попытаться понять это для методов моделирования по умолчанию в LME4 и не иметь возможности (но проект был отменен, прежде чем я разобрался с ним).
Фанерон
Не уверен, что я полностью следую, но различные серии тренировочного набора -> подходящие модели -> вычислить RMSEP - все были выполнены до LME. Случайный эффект предназначен для прогона, поскольку каждый прогон будет иметь различный перехват (RMSEP), так как выбираются разные комбинации образцов тестового набора, но это постоянно в течение прогона. Что касается условного / безусловного бита, я не уверен / не понял, что вы имеете в виду. Спасибо за ваш комментарий.
Восстановить Монику - Г. Симпсон

Ответы:

4

По сути, вы выполняете здесь некоторую форму перекрестной проверки для каждого из ваших m методов, а затем хотели бы увидеть, какой метод работает лучше. Результаты между запусками определенно будут зависеть, так как они основаны на одних и тех же данных, и вы пересекаетесь с наборами поездов / тестов. Вопрос в том, должно ли это иметь значение, когда вы приходите сравнивать методы.

Допустим, вы выполняете только один прогон и обнаружите, что один метод лучше, чем другие. Тогда вы спросите себя - это просто из-за определенного выбора тестового набора? Вот почему вы повторяете свой тест для множества различных наборов поездов / тестов. Итак, чтобы определить, что метод лучше, чем другие методы, вы запускаете много раз и при каждом запуске сравниваете его с другими методами (у вас есть разные варианты просмотра ошибки / ранга / и т. Д.). Теперь, если вы обнаружите, что метод работает лучше на большинстве запусков, результат будет таким, какой он есть. Я не уверен, что полезно дать p-значение для этого. Или, если вы хотите дать p-значение, спросите себя, какая здесь модель фона?

побитовое
источник
Спасибо за ваши мысли. Я думаю, что ваши последние строки подводят итоги, где я сейчас нахожусь. В ожидании этого у меня есть продолжение, где я спрашиваю о подходящих способах анализа данных этого типа. Мне также нравится ваша точка зрения о "это то, что есть"; это недавно кружило по краям моего мыслительного процесса.
Восстановить Монику - Дж. Симпсон
Одна проблема, с которой я столкнулся в части «результат - это то, что есть», заключается в том, что RMSEP довольно изменчивы от запуска к запуску. Таким образом, в среднем один или два метода лучше, но действительно ли они лучше, учитывая изменчивость RMSEP? Следовательно, я пробую LME со случайным эффектом для Run. Чтобы изменить этот подход, мне нужно знать, кто соотносит каждый набор данных. Казалось бы, любой статистический тест, который я делаю, должен быть так изменен. Поэтому я все еще борюсь с тем, как интерпретировать средства из 50 прогонов для каждого метода и могу ли я сделать какие-либо выводы ...?
Восстановить Монику - Г. Симпсон
1
На мой взгляд, оценка ваших методов по всем возможным разделам обучающих / тестовых наборов ваших данных была бы наиболее полной оценкой. Поскольку это невозможно, вы оцениваете это с помощью случайных прогонов. Допустим, вы можете оценить все разделы поезда / теста - у вас все равно останется вопрос, как решить, какой метод лучше. Так что это больше зависит от того, как вы определяете, что такое «хорошо». Означает ли это высокий средний балл? Или это означает, что во многих случаях один метод получает более высокий балл, чем другие (лично я думаю, что это будет лучшая версия)?
побитовое
1

Может не очень понимаю, что вы сделали, но

для прогона Я предполагаю, что значения RMSEP для этого прогона в некоторой степени коррелированы

Да, это отражает, насколько сложным был тестовый набор в этом прогоне

но не связаны между пробегами

Нет, учитывая то, как вы взяли образцы тестовых наборов, некоторые будут в большей степени перекрываться, чем другие (наиболее определенно не независимые репликации)

Вам как-то придется смоделировать зависимость на основе перекрытия или спроектировать оценку так, чтобы прогоны были независимыми. Я бы прочитал статистику литературы по перекрестной проверке ;-)

фанерон
источник
+1 Спасибо за ответ. Хм, я понимаю, что вы имеете в виду. Чем больше похожи тестовые наборы, тем больше будут их значения RMSEP. Хорошо, поставьте так, как если бы данные были пространственно или временно коррелированы. То, как я генерирую тренировочные наборы / тестовые наборы, должно означать, что в среднем они все отличаются друг от друга. Я не уверен, что резюме получило бы меня здесь - и в некотором смысле я делаю это так или иначе только через подход повторной выборки. Тогда, возможно, зададут другой вопрос о том, как решить реальную проблему.
Восстановить Монику - Г. Симпсон
Я оставлю это открытым до конца периода вознаграждения, чтобы увидеть, кусается ли кто-то еще, но я ценю ваши мысли здесь и приму и назначу вознаграждение, если не будут получены другие ответы.
Восстановить Монику - Дж. Симпсон