Вопросы с тегом «model-selection»

17
ROC против точных кривых отзыва на несбалансированном наборе данных

Я только что закончил читать эту дискуссию. Они утверждают, что PR AUC лучше, чем ROC AUC по несбалансированному набору данных. Например, у нас есть 10 образцов в тестовом наборе данных. 9 образцов положительные и 1 отрицательный. У нас ужасная модель, которая предсказывает все положительное. Таким...

17
БИК пытается найти настоящую модель?

Этот вопрос является продолжением или попыткой прояснить возможную путаницу в отношении темы, которую я и многие другие находим немного трудной в отношении различий между AIC и BIC. В очень хорошем ответе @Dave Kellen на эту тему ( /stats//a/767/30589 ) мы читаем: Ваш вопрос подразумевает, что AIC...

17
Сохраняются ли автокоррелированные остаточные структуры даже в моделях с соответствующими структурами корреляции и как выбрать лучшие модели?

контекст В этом вопросе используется R, но речь идет об общих статистических вопросах. Я анализирую влияние факторов смертности (% смертности от болезней и паразитов) на скорость роста популяции моли с течением времени, когда популяция личинок отбиралась из 12 мест один раз в год в течение 8 лет....

16
Проблема определения порядка ARIMA

Это длинный пост, поэтому я надеюсь, что вы можете терпеть меня, и, пожалуйста, поправьте меня, где я неправ. Моя цель - составить ежедневный прогноз на основе исторических данных за 3 или 4 недели. Данные представляют собой 15-минутные данные локальной нагрузки одной из трансформаторных линий. У...

16
Почему информационный критерий Акаике больше не используется в машинном обучении?

Я просто наткнулся на «Информационный критерий Акайке» и заметил большое количество литературы по выбору моделей (кажется, существуют и такие вещи, как BIC). Почему современные методы машинного обучения не используют эти критерии выбора моделей BIC и...

16
Какое определение «наилучший» используется в терминах «наилучшее соответствие» и перекрестная проверка?

Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть: очень сложная функция с небольшими остатками очень простая функция с большими остатками Перекрестная проверка обычно используется, чтобы найти «лучший»...

16
Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?

Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на...

15
Сравнение моделей со смешанным эффектом с одинаковым количеством степеней свободы

У меня есть эксперимент, который я постараюсь изложить здесь. Представьте, что я бросаю перед вами три белых камня и прошу вас высказать свое мнение об их положении. Я записываю различные свойства камней и ваш ответ. Я делаю это по ряду предметов. Я генерирую две модели. Во-первых, ближайший к вам...

15
logloss vs gini / auc

Я обучил две модели (двоичные классификаторы с использованием h2o AutoML) и хочу выбрать одну для использования. У меня есть следующие результаты: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2...

15
Как интерпретировать ковариационную матрицу из подбора кривой?

Я не слишком хорош в статистике, поэтому извиняюсь, если это упрощенный вопрос. Я подгоняю кривую к некоторым данным, и иногда мои данные лучше всего соответствуют отрицательной экспоненте в виде , а иногда подгонка ближе к a ∗ e ( - b ∗ x 2 ) + с . Однако иногда оба из них терпят неудачу, и я...

15
Выбор оптимального К для КНН

Я выполнил 5-кратное резюме, чтобы выбрать оптимальный K для KNN. И кажется, что чем больше К, тем меньше ошибка ... Извините, у меня не было легенды, но разные цвета представляют разные испытания. Всего их 5, и кажется, что между ними мало различий. Кажется, что ошибка всегда уменьшается, когда K...

15
Могу ли я игнорировать коэффициенты для незначительных уровней факторов в линейной модели?

После поиска разъяснений по поводу коэффициентов линейной модели здесь у меня возник вопрос о не значащем значении (высокое значение p) для коэффициентов уровней факторов. Пример: если моя линейная модель включает в себя фактор с 10 уровнями, и только 3 из этих уровней имеют значимые значения p,...

15
LASSO / LARS против общего к специфическому (GETS) методу

Мне было интересно, почему методы выбора моделей LASSO и LARS так популярны, даже если они в основном представляют собой просто варианты пошагового прямого выбора (и, следовательно, страдают от зависимости пути)? Точно так же, почему методы General to Specific (GETS) для выбора модели в основном...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

15
Оптимальный выбор штрафа для лассо

Существуют ли аналитические результаты или экспериментальные работы относительно оптимального выбора коэффициента штрафного члена . Под оптимальным я подразумеваю параметр, который максимизирует вероятность выбора наилучшей модели или минимизирует ожидаемые потери. Я спрашиваю, потому что часто...

14
Предоставляет ли ступенчатая регрессия необъективную оценку r-квадрата населения?

В психологии и других областях часто используется форма ступенчатой ​​регрессии, которая включает в себя следующее: Посмотрите на остальные предикторы (сначала их нет в модели) и определите предиктор, который приведет к наибольшему изменению r-квадрата; Если значение p изменения r-квадрата меньше,...

14
Лучшие учебники по повторной выборке Bootstrap?

Я просто хотел спросить, какие, по вашему мнению, лучшие из доступных книг по начальной загрузке. Я имею в виду не только то, что написано его разработчиками. Не могли бы вы указать, какой учебник, по вашему мнению, лучше всего подходит для начальной загрузки и отвечает следующим критериям?...

14
Почему применение выбора модели с использованием AIC дает мне незначимые p-значения для переменных

У меня есть несколько вопросов об АПК и надеюсь, что вы мне поможете. Я применил выбор модели (назад или вперед) на основе AIC на моих данных. И некоторые из выбранных переменных оказались с p-значениями> 0,05. Я знаю, что люди говорят, что мы должны выбирать модели на основе AIC вместо...

14
Можно ли рекомендовать книгу Бернхэма-Андерсона о многомодельном выводе?

В связи с недавним изменением статистики выбора модели по умолчанию в пакете прогноза R с AIC на AICc, мне любопытно, действительно ли последнее применимо везде, где первое. У меня есть ряд вопросов на этот счет, и вот первый. Я знаю, что заменять AIC на AICc везде - это то, что рекомендует хорошо...

14
Выбор модели Box-Jenkins

Процедура выбора модели Бокса-Дженкинса в анализе временных рядов начинается с рассмотрения автокорреляционных и частичных автокорреляционных функций ряда. Эти графики могут предложить соответствующие и в модели ARMA . Процедура продолжается, предлагая пользователю применить критерии AIC / BIC для...