Я провел компьютерную оценку различных методов подгонки модели определенного типа, используемой в науках о палео. У меня был большой тренировочный набор, и поэтому я случайно (стратифицированная случайная выборка) отложил тестовый набор. Я подгонял различных методов к выборкам обучающих наборов и, используя результирующих моделей, предсказывал отклик для выборок тестовых наборов и вычислял RMSEP для выборок в тестовом наборе. Это одиночный забег .
Затем я повторял этот процесс большое количество раз, каждый раз выбирая другой набор тренировок путем случайной выборки нового набора тестов.
Сделав это, я хочу выяснить, имеет ли какой-либо из методов лучшую или худшую производительность RMSEP. Я также хотел бы сделать несколько сравнений парных методов.
Мой подход заключается в подборе модели линейных смешанных эффектов (LME) с одним случайным эффектом для Run . Я использовал lmer()
из пакета lme4 для соответствия моей модели и функций из пакета multcomp для выполнения множественных сравнений. Моя модель была по сути
lmer(RMSEP ~ method + (1 | Run), data = FOO)
где method
- коэффициент, указывающий, какой метод использовался для генерации прогнозов модели для тестового набора, и Run
индикатор для каждого конкретного прогона моего «эксперимента».
Мой вопрос касается остатков ЛБМ. Учитывая единственный случайный эффект для прогона, я предполагаю, что значения RMSEP для этого прогона в некоторой степени коррелированы, но не коррелированы между прогонами на основе индуцированной корреляции, которую дает случайный эффект.
Является ли это предположение о независимости между пробегами действительным? Если нет, то есть ли способ объяснить это в модели LME или я должен использовать другой тип статического анализа для ответа на мой вопрос?
источник
Ответы:
По сути, вы выполняете здесь некоторую форму перекрестной проверки для каждого из ваших m методов, а затем хотели бы увидеть, какой метод работает лучше. Результаты между запусками определенно будут зависеть, так как они основаны на одних и тех же данных, и вы пересекаетесь с наборами поездов / тестов. Вопрос в том, должно ли это иметь значение, когда вы приходите сравнивать методы.
Допустим, вы выполняете только один прогон и обнаружите, что один метод лучше, чем другие. Тогда вы спросите себя - это просто из-за определенного выбора тестового набора? Вот почему вы повторяете свой тест для множества различных наборов поездов / тестов. Итак, чтобы определить, что метод лучше, чем другие методы, вы запускаете много раз и при каждом запуске сравниваете его с другими методами (у вас есть разные варианты просмотра ошибки / ранга / и т. Д.). Теперь, если вы обнаружите, что метод работает лучше на большинстве запусков, результат будет таким, какой он есть. Я не уверен, что полезно дать p-значение для этого. Или, если вы хотите дать p-значение, спросите себя, какая здесь модель фона?
источник
Может не очень понимаю, что вы сделали, но
Да, это отражает, насколько сложным был тестовый набор в этом прогоне
Нет, учитывая то, как вы взяли образцы тестовых наборов, некоторые будут в большей степени перекрываться, чем другие (наиболее определенно не независимые репликации)
Вам как-то придется смоделировать зависимость на основе перекрытия или спроектировать оценку так, чтобы прогоны были независимыми. Я бы прочитал статистику литературы по перекрестной проверке ;-)
источник