Вопросы с тегом «fitting»

Процесс согласования некоторой статистической модели с определенным набором данных. В основном это делается на компьютере и с использованием различных численных методов, таких как оптимизация или численная интеграция или моделирование.

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

41
Случайный лес - Как справиться с перегрузкой

У меня есть опыт работы в области компьютерных наук, но я пытаюсь научить себя науке данных, решая проблемы в Интернете. Я работал над этой проблемой последние пару недель (около 900 строк и 10 функций). Сначала я использовал логистическую регрессию, но теперь я переключился на случайные леса....

34
Данные имеют две тенденции; как извлечь независимые линии тренда?

У меня есть набор данных, который не упорядочен каким-либо конкретным способом, но при четком графике имеет две четкие тенденции. Простая линейная регрессия здесь не совсем подходит из-за четкого различия между двумя рядами. Есть ли простой способ получить две независимые линейные линии тренда? Для...

29
Поддержал ли журнал Science анализ анализов в Саду Форка?

Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это...

29
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная...

28
Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

28
Как это возможно, что потери проверки увеличиваются, в то время как точность проверки также увеличивается

Я обучаю простую нейронную сеть на наборе данных CIFAR10. Через некоторое время потери валидации начали увеличиваться, а точность валидации также увеличивается. Потери и точность испытаний продолжают улучшаться. Как это возможно? Кажется, что если потери при проверке возрастают, точность должна...

28
Переоснащение модели логистической регрессии

Можно ли переоснастить модель логистической регрессии? Я видел видео, в котором говорилось, что если моя площадь под кривой ROC превышает 95%, то, скорее всего, она будет переопределена, но возможно ли переопределить модель логистической...

27
Почему меньшие веса приводят к упрощению моделей в регуляризации?

Я закончил курс по машинному обучению Эндрю Нг около года назад, и сейчас я пишу свои исследования по математике в старших классах по методам логистической регрессии и методам оптимизации производительности. Одним из таких методов является, конечно, регуляризация. Целью регуляризации является...

26
Подгонка синусоидального термина к данным

Хотя я читаю этот пост, я все еще не знаю, как применить это к моим собственным данным, и надеюсь, что кто-то может мне помочь. У меня есть следующие данные: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091,...

25
Правда ли, что байесовские методы не подходят больше?

Правда ли, что байесовские методы не подходят больше? (Я видел некоторые документы и учебные пособия, делающие это утверждение) Например, если мы применяем гауссовский процесс к MNIST (классификация рукописных цифр), но показываем только одну выборку, будет ли он возвращаться к предыдущему...

25
Есть ли смысл объединять PCA и LDA?

Предположим, у меня есть набор данных для контролируемой статистической задачи классификации, например, через байесовский классификатор. Этот набор данных состоит из 20 функций, и я хочу свести его к 2 функциям с помощью методов уменьшения размерности, таких как анализ основных компонентов (PCA) и...

25
Является ли модернизированная модель обязательно бесполезной?

Предположим, что модель имеет 100% точность данных тренировки, но 70% точность данных теста. Правдив ли следующий аргумент в отношении этой модели? Очевидно, что это переоборудованная модель. Точность испытания может быть повышена за счет уменьшения переоснащения. Но эта модель все еще может быть...

22
Интерпретация разницы между логнормальным и степенным распределением (распределение по степени сети)

Во-первых, я не статистика. Тем не менее, я делаю статистический анализ сети для моей докторской степени. В рамках сетевого анализа я построил дополнительную интегральную функцию распределения (CCDF) сетевых степеней. Я обнаружил, что, в отличие от обычных сетевых дистрибутивов (например, WWW),...

21
«Полу-контролируемое обучение» - это переобучение?

Я читал отчет о победившем решении конкурса Kaggle ( Malware Classification ). Отчет можно найти в этом сообщении на форуме . Эта проблема была проблемой классификации (девять классов, метрика - логарифмическая потеря) с 10000 элементами в наборе поездов, 10000 элементов в наборе испытаний. Во...

21
Обнаружение выбросов в данных подсчета

У меня есть то, что я наивно думал, что это довольно прямая проблема, которая включает в себя обнаружение выбросов для множества различных наборов данных подсчета. В частности, я хочу определить, является ли одно или несколько значений в серии данных подсчета выше или ниже ожидаемого по сравнению с...

21
Новый революционный способ добычи данных?

Следующий отрывок взят из интервью Швагера «Рынок хедж-фондов Wizzards» (май 2012 года) с постоянно успешным менеджером хедж-фонда Джаффреем Вудриффом: На вопрос: «Каковы некоторые из худших ошибок, которые люди допускают при извлечении данных?»: Многие люди думают, что они в порядке, потому что...

21
Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

21
Подобные Anscombe наборы данных с одним и тем же блоком и графиком усов (среднее / стандартное / медианное / MAD / мин / макс)

РЕДАКТИРОВАТЬ: Поскольку этот вопрос был завышен, краткое изложение: поиск различных значимых и интерпретируемых наборов данных с одинаковой смешанной статистикой (среднее значение, медиана, средний диапазон и связанные с ними дисперсии и регрессия). Квартет Анскомба (см. « Цель визуализации...