Вопросы с тегом «validation»

12
Наименование средней абсолютной ошибки, аналогичной шкале Бриера?

Вчерашний вопрос « Определить точность модели, которая оценивает вероятность события» , заинтересовал меня оценкой вероятности. Оценка Бриера - это мера среднего квадрата ошибки. Показывает ли аналогичная средняя абсолютная погрешность показатели эффективности есть имя тоже?11NΣя = 1N( Р г е дя с т...

12
Перекрестная проверка и порядковая логистическая регрессия

Я пытаюсь понять перекрестную проверку для порядковой логистической регрессии. Цель игры - проверить модель, использованную в анализе ... Сначала я создаю набор данных игрушек: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <-...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

12
Keras: почему убыток уменьшается, а val_loss увеличивается?

Я настроил сетку для поиска группы параметров. Я пытаюсь найти лучшие параметры для нейронной сети Keras, которая выполняет бинарную классификацию. Выходное значение равно 1 или 0. Имеется около 200 функций. Когда я сделал поиск по сетке, я получил несколько моделей и их параметры. Лучшая модель...

12
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют...

12
Как выполнить перекрестную проверку для PCA, чтобы определить количество основных компонентов?

Я пытаюсь написать свою собственную функцию для анализа главных компонентов, PCA (конечно, многое уже написано, но я просто заинтересован в том, чтобы реализовать что-то самостоятельно). Основная проблема, с которой я столкнулся, - это этап перекрестной проверки и вычисления прогнозируемой суммы...

12
Точное определение меры Deviance в пакете glmnet с перекрестной проверкой?

Для моего текущего исследования я использую метод Лассо через пакет glmnet в R для биномиальной зависимой переменной. В glmnet оптимальная лямбда определяется путем перекрестной проверки, и полученные модели можно сравнивать с различными показателями, например, ошибочной классификацией или...

12
Как выбрать ядро ​​для ядра PCA?

Какими способами можно выбрать, какое ядро ​​приведет к хорошему разделению данных при окончательном выводе данных ядром PCA (анализ основных компонентов), и как оптимизировать параметры ядра? Условия Лаймана, если это возможно, будут высоко оценены, и ссылки на статьи, которые объясняют такие...

12
Существуют ли современные способы использования джекнифинга?

Вопрос: Bootstrapping превосходит джекнифинг; однако мне интересно, есть ли случаи, когда джекнифинг является единственным или, по крайней мере, жизнеспособным вариантом для характеристики неопределенности из оценок параметров. Кроме того, в практических ситуациях, насколько предвзятый / неточный...

12
Почему в классической статистике не используется метод удержания (разделение данных на обучение и тестирование)?

В моей классной работе по извлечению данных был предложен метод удержания для оценки производительности модели. Однако, когда я взял свой первый класс по линейным моделям, это не было введено как средство проверки или оценки модели. Мои онлайн-исследования также не показывают какого-либо...

11
Является ли разделение данных на тестовые и обучающие наборы чисто статистическими данными?

Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и...

11
Вопрос о вычитании среднего значения в поезде / действительном / тестовом наборе

Я делаю предварительную обработку данных и собираюсь создать Convonets на моих данных после. Мой вопрос: скажем, у меня есть общие наборы данных со 100 изображениями, я вычислял среднее значение для каждого из 100 изображений, а затем вычитал его из каждого из изображений, затем делил его на набор...

11
Байесовская, MDL или ML интерпретация перекрестной проверки?

Есть ли известная байесовская, ML или MDL интерпретация перекрестной проверки? Могу ли я интерпретировать перекрестную проверку как выполнение правильного обновления специально созданного...

11
Что является более подходящим способом создания выносного набора: удалить некоторые предметы или удалить некоторые наблюдения от каждого предмета?

У меня есть набор данных с 26 функциями и 31000 строк. Это набор данных из 38 предметов. Это для биометрической системы. Поэтому я хочу иметь возможность определять предметы. Чтобы иметь набор для тестирования, я знаю, что должен удалить некоторые значения. Так что лучше делать и почему? (а)...

11
Метрика оценки прогноза для панельных / продольных данных

Я хотел бы оценить несколько различных моделей, которые обеспечивают предсказания поведения на ежемесячном уровне. Данные сбалансированы, и 100 000 и T = 12. В результате посещение концерта происходит в определенном месяце, поэтому оно равно нулю для ~ 80% людей в любом месяце, но есть длинный...

11
Усреднение точности и отзыв при использовании перекрестной проверки

Я выполнил классификацию с использованием нескольких классификаторов для данных, помеченных для двух классов, и использовал пятикратную перекрестную проверку. Для каждого сгиба я вычислял tp, tn, fp и fn. Затем я рассчитал точность, точность, отзыв и F-показатель для каждого теста. Мой вопрос...

11
Какова интуиция в изменении метрики информации (VI) для проверки кластера?

Для таких статистиков, как я, очень трудно уловить идею VIметрики (вариации информации) даже после прочтения соответствующей статьи Марины Мелиа « Сравнение кластеризаций - расстояние, основанное на информации » (Journal of Multivariate Analysis, 2007). На самом деле, я не знаком со многими...

11
Доверительный интервал для перекрестной проверки точности классификации

Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут...

11
Является ли коэффициент ошибок выпуклой функцией лямбда-параметра регуляризации?

При выборе параметра регуляризации лямбда в Ridge или Lasso рекомендуется использовать разные значения лямбды, измерить ошибку в наборе валидации и, наконец, выбрать то значение лямбды, которое возвращает наименьшую ошибку. Мне не понятно, если функция f (лямбда) = error является выпуклой. Может ли...

11
Почему большой выбор K понижает мою оценку перекрестной проверки?

Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met =...