Вопросы с тегом «scikit-learn»

17
Почему бы не использовать «нормальные уравнения», чтобы найти простые коэффициенты наименьших квадратов?

Я видел этот список здесь и не мог поверить, что было так много способов решить наименьших квадратов. «Нормальные уравнения» на Википедии , казалось, довольно прямым α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat...

17
Как получить гиперпараметры во вложенной перекрестной проверке?

Я прочитал следующие посты о вложенной перекрестной проверке и до сих пор не уверен на 100%, что мне делать с выбором модели с вложенной перекрестной проверкой: Вложенная перекрестная проверка для выбора модели Выбор модели и перекрестная проверка: правильный путь Чтобы объяснить мою путаницу,...

16
Самая быстрая реализация SVM

Больше общего вопроса. Я использую rbf SVM для прогнозного моделирования. Я думаю, что моя текущая программа определенно нуждается в ускорении. Я использую Scikit Learn с грубым, чтобы точный поиск сетки + перекрестная проверка. Каждый запуск SVM занимает около минуты, но со всеми итерациями я все...

16
Коллинеарные переменные в обучении LDA Multiclass

Я тренирую многоклассный классификатор LDA с 8 классами данных. Во время обучения я получаю предупреждение: « Переменные коллинеарны » Я получаю точность обучения более 90% . Я использую библиотеку scikits-learn в Python, обучаю и проверяю данные мультикласса . Я также получаю приличную точность...

15
Разница между выбором признаков на основе «F-регрессии» и на основе значений

Использует ли сравнение элементов F-regressionто же самое, что и сопоставление элементов с меткой по отдельности и соблюдение значения ?р2R2R^2 Я часто видел, как мои коллеги использовали F regressionдля выбора функций в своем конвейере машинного обучения из sklearn:...

15
Логистическая регрессия: Scikit Learn против glmnet

Я пытаюсь продублировать результаты из sklearnбиблиотеки логистической регрессии, используя glmnetпакет в R. Из sklearnрегрессионной логистической документации , она пытается свести к минимуму функцию стоимости при l2 казни...

15
Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?

При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой...

15
Методы решения проблемы пропущенных данных в машинном обучении

Практически в любой базе данных, в которой мы хотим делать прогнозы с использованием алгоритмов машинного обучения, найдутся пропущенные значения для некоторых характеристик. Существует несколько подходов к решению этой проблемы, чтобы исключить строки с пропущенными значениями, пока они не...

15
Случайный лес переоснащается

Я пытаюсь использовать случайную лесную регрессию в scikits-learn. Проблема в том, что я получаю очень высокую ошибку теста: train MSE, 4.64, test MSE: 252.25. Вот как выглядят мои данные: (синий: реальные данные, зеленый: прогноз): Я использую 90% для обучения и 10% для тестирования. Это код,...

14
Использование вложенной перекрестной проверки

На странице Scikit Learn по выбору модели упоминается использование вложенной перекрестной проверки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Два цикла перекрестной проверки...

14
Разница между statsmodel OLS и scikit линейной регрессии

У меня есть вопрос о двух разных методах из разных библиотек, которые, кажется, выполняют одну и ту же работу. Я пытаюсь сделать модель линейной регрессии. Вот код, который я использовал с помощью библиотеки statsmodel с OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x,...

14
Scikit правильный способ калибровки классификаторов с CalibratedClassifierCV

Scikit имеет CalibratedClassifierCV , который позволяет нам калибровать наши модели по определенной паре X, Y. В нем также четко указано, чтоdata for fitting the classifier and for calibrating it must be disjoint. Если они должны быть непересекающимися, законно ли обучать классификатор следующим?...

13
Является ли порог принятия решения гиперпараметром в логистической регрессии?

Прогнозируемые классы из (двоичной) логистической регрессии определяются с использованием порога вероятностей членства в классе, генерируемых моделью. Насколько я понимаю, обычно используется 0.5 по умолчанию. Но изменение порога изменит предсказанные классификации. Означает ли это, что порог...

13
Как исправить несходимость в LogisticRegressionCV

Я использую scikit-learn для выполнения логистической регрессии с перекрестной проверкой на наборе данных (около 14 параметров с> 7000 нормализованных наблюдений). У меня также есть целевой классификатор, который имеет значение 1 или 0. У меня проблема в том, что независимо от используемого...

13
Использование BIC для оценки количества k в KMEANS

В настоящее время я пытаюсь вычислить BIC для моего игрушечного набора данных (ofc iris (:). Я хочу воспроизвести результаты, как показано здесь (Рис. 5). Этот документ также является моим источником для формул BIC. У меня есть 2 проблемы с этим: Обозначения: ninin_i я = количество элементов в...

12
Разница между реализациями scikit-learn PCA и TruncatedSVD

Я понимаю связь между анализом главных компонентов и разложением по сингулярным значениям на алгебраическом / точном уровне. Мой вопрос о реализации scikit-learn . Документация гласит: « [TruncatedSVD] очень похож на PCA, но работает непосредственно с векторами выборки, а не с ковариационной...

12
Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?

Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди. Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Метод Нистроема для аппроксимации ядра

Я читал о методе Nyström для апроксимации ядра низкого ранга. Этот метод реализован в scikit-learn [1] как метод проецирования выборок данных в низкосортное приближение отображения характеристик ядра. Насколько мне известно, данный учебный набор и функция ядра, она генерирует низкокачественного...

12
В чем разница между

Я читал о метриках регрессии в питоне scikit учиться ручным и даже если каждый из них имеет свою собственную формулу, я не могу сказать , интуитивно , что разница между и дисперсией баллами и поэтому , когда использовать один или другой , чтобы оценить мои...