Вопросы с тегом «scikit-learn»

12
Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?

Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди. Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Почему большой выбор K понижает мою оценку перекрестной проверки?

Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met =...

11
Каковы различия между регрессией Риджа с использованием R glmnet и Python scikit-learn?

Я изучаю раздел LAB §6.6, посвященный регрессии Риджа / Лассо, в книге Джеймса Виттена «Hastie», Tibshirani (2013) «Введение в статистическое обучение с приложениями в R» . Более конкретно, я пытаюсь применить модель scikit-learn Ridgeк набору данных 'Hitters' из пакета R 'ISLR'. Я создал такой же...

11
Разница между ElasticNet в Scikit-Learn Python и Glmnet в R

Кто-нибудь пытался проверить, дает ли соответствие модели Elastic Net ElasticNetв Scikit-Learn в Python и glmnetR в одном наборе данных одинаковые арифметические результаты? Я экспериментировал со многими комбинациями параметров (поскольку две функции различаются значениями по умолчанию, которые...

11
Для какого типа выбора можно использовать критерий хи-квадрат?

Здесь я спрашиваю о том, что обычно делают другие, чтобы использовать критерий хи-квадрат для выбора функции по результатам в контролируемом обучении. Если я правильно понимаю, проверяют ли они независимость между каждой функцией и результатом и сравнивают значения p между тестами для каждой...

11
Анализ основных компонентов и регрессия в Python

Я пытаюсь понять, как воспроизвести в Python какую-то работу, которую я проделал в SAS. Используя этот набор данных , где мультиколлинеарность является проблемой, я хотел бы выполнить анализ основных компонентов в Python. Я смотрел на scikit-learn и statsmodels, но я не уверен, как взять их...

11
Как мы предсказываем редкие события?

Я работаю над разработкой модели прогнозирования страхового риска. Эти модели относятся к «редким событиям», таким как прогнозирование неявки авиакомпаний, обнаружение неисправностей оборудования и т. Д. Когда я готовил свой набор данных, я пытался применить классификацию, но не смог получить...

10
Модель истории дискретного времени (выживания) в R

Я пытаюсь вписать модель с дискретным временем в R, но я не уверен, как это сделать. Я читал, что вы можете организовать зависимую переменную в разных строках, по одной для каждого временного наблюдения, и использовать glmфункцию со ссылкой logit или cloglog. В этом смысле, у меня есть три колонки:...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
В чем разница между решением_функции, предсказанием_процедуры и функцией предсказания для задачи логистической регрессии?

Я просматривал документацию по sklearn, но не смог понять назначение этих функций в контексте логистической регрессии. Ибо decision_functionон говорит, что это расстояние между гиперплоскостью и тестовым экземпляром. как эта конкретная информация полезна? и как это соотносится с predictи...

10
Могут ли случайные леса справиться с MNIST намного лучше, чем ошибка тестирования 2,8%?

Я не нашел никакой литературы по применению случайных лесов к MNIST, CIFAR, STL-10 и т. Д., Поэтому я решил попробовать их с MNIST, не зависящим от перестановок . В R я попробовал: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Это работало в течение 2 часов и получило...

10
Выход Scikit SVM в мультиклассовой классификации всегда дает одинаковую метку

В настоящее время я использую Scikit Learn со следующим кодом: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') а затем подгонка и прогнозирование для набора данных с 7 различными метками. Я получил странный вывод. Независимо от того, какой метод...

10
Скорректированный индекс ранда против скорректированной взаимной информации

Я пытаюсь оценить производительность кластеризации. Я читал документацию skiscit-learn по метрикам . Я не понимаю разницы между ARI и AMI. Мне кажется, что они делают одно и то же двумя разными способами. Ссылаясь на документацию: Учитывая знание базовых назначений класса истинности label_true и...

10
Случайный лесной вероятностный прогноз против большинства голосов

Кажется, Scikit Learn использует вероятностный прогноз вместо большинства голосов за метод агрегации моделей без объяснения причин (1.9.2.1. Случайные леса). Есть четкое объяснение почему? Кроме того, есть ли хорошая статья или обзорная статья о различных методах агрегации моделей, которые можно...

10
Реализация вложенной перекрестной проверки

Я пытаюсь выяснить, правильно ли мое понимание вложенной перекрестной проверки, поэтому я написал этот игрушечный пример, чтобы проверить, прав ли я: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set...

10
Применение PCA для проверки данных в целях классификации

Недавно я узнал о замечательном PCA, и я сделал пример, изложенный в документации scikit-learn . Мне интересно знать, как я могу применить PCA к новым точкам данных для целей классификации. После визуализации PCA в двухмерной плоскости (ось x, y) я вижу, что, вероятно, могу нарисовать линию, чтобы...

10
Определение отфильтрованных объектов после выбора функции с помощью Scikit Learn.

Вот мой код для выбора метода в Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Но после получения нового X...