Вопросы с тегом «scikit-learn»

12

Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?

Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди. Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было...

11

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Почему большой выбор K понижает мою оценку перекрестной проверки?

Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met =...

machine-learning cross-validation random-forest sample-size scikit-learn

11

Зачем нам нужен классификатор k-ближайших соседей?

Как я понял, k-NN - это алгоритм для ленивых учеников, и он не требует фазы обучения. Так зачем нам использовать .fit()sklearn и что происходит, когда мы его

classification scikit-learn k-nearest-neighbour

11

Каковы различия между регрессией Риджа с использованием R glmnet и Python scikit-learn?

Я изучаю раздел LAB §6.6, посвященный регрессии Риджа / Лассо, в книге Джеймса Виттена «Hastie», Tibshirani (2013) «Введение в статистическое обучение с приложениями в R» . Более конкретно, я пытаюсь применить модель scikit-learn Ridgeк набору данных 'Hitters' из пакета R 'ISLR'. Я создал такой же...

r machine-learning scikit-learn regression

11

Разница между ElasticNet в Scikit-Learn Python и Glmnet в R

Кто-нибудь пытался проверить, дает ли соответствие модели Elastic Net ElasticNetв Scikit-Learn в Python и glmnetR в одном наборе данных одинаковые арифметические результаты? Я экспериментировал со многими комбинациями параметров (поскольку две функции различаются значениями по умолчанию, которые...

machine-learning scikit-learn glmnet elastic-net

11

Функция потери биномиального отклонения Scikit

Это функция биномиального отклонения Scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) -...

machine-learning scikit-learn boosting loss-functions

11

Для какого типа выбора можно использовать критерий хи-квадрат?

Здесь я спрашиваю о том, что обычно делают другие, чтобы использовать критерий хи-квадрат для выбора функции по результатам в контролируемом обучении. Если я правильно понимаю, проверяют ли они независимость между каждой функцией и результатом и сравнивают значения p между тестами для каждой...

hypothesis-testing chi-squared feature-selection independence scikit-learn

11

Анализ основных компонентов и регрессия в Python

Я пытаюсь понять, как воспроизвести в Python какую-то работу, которую я проделал в SAS. Используя этот набор данных , где мультиколлинеарность является проблемой, я хотел бы выполнить анализ основных компонентов в Python. Я смотрел на scikit-learn и statsmodels, но я не уверен, как взять их...

pca python scikit-learn

11

Как мы предсказываем редкие события?

Я работаю над разработкой модели прогнозирования страхового риска. Эти модели относятся к «редким событиям», таким как прогнозирование неявки авиакомпаний, обнаружение неисправностей оборудования и т. Д. Когда я готовил свой набор данных, я пытался применить классификацию, но не смог получить...

classification predictive-models scikit-learn poisson-process

10

Модель истории дискретного времени (выживания) в R

Я пытаюсь вписать модель с дискретным временем в R, но я не уверен, как это сделать. Я читал, что вы можете организовать зависимую переменную в разных строках, по одной для каждого временного наблюдения, и использовать glmфункцию со ссылкой logit или cloglog. В этом смысле, у меня есть три колонки:...

r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

10

Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

10

В чем разница между решением_функции, предсказанием_процедуры и функцией предсказания для задачи логистической регрессии?

Я просматривал документацию по sklearn, но не смог понять назначение этих функций в контексте логистической регрессии. Ибо decision_functionон говорит, что это расстояние между гиперплоскостью и тестовым экземпляром. как эта конкретная информация полезна? и как это соотносится с predictи...

regression logistic prediction scikit-learn decision

10

Могут ли случайные леса справиться с MNIST намного лучше, чем ошибка тестирования 2,8%?

Я не нашел никакой литературы по применению случайных лесов к MNIST, CIFAR, STL-10 и т. Д., Поэтому я решил попробовать их с MNIST, не зависящим от перестановок . В R я попробовал: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Это работало в течение 2 часов и получило...

r machine-learning classification random-forest scikit-learn

10

Выход Scikit SVM в мультиклассовой классификации всегда дает одинаковую метку

В настоящее время я использую Scikit Learn со следующим кодом: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') а затем подгонка и прогнозирование для набора данных с 7 различными метками. Я получил странный вывод. Независимо от того, какой метод...

svm scikit-learn libsvm multi-class optunity

10

Скорректированный индекс ранда против скорректированной взаимной информации

Я пытаюсь оценить производительность кластеризации. Я читал документацию skiscit-learn по метрикам . Я не понимаю разницы между ARI и AMI. Мне кажется, что они делают одно и то же двумя разными способами. Ссылаясь на документацию: Учитывая знание базовых назначений класса истинности label_true и...

clustering python scikit-learn

10

Случайный лесной вероятностный прогноз против большинства голосов

Кажется, Scikit Learn использует вероятностный прогноз вместо большинства голосов за метод агрегации моделей без объяснения причин (1.9.2.1. Случайные леса). Есть четкое объяснение почему? Кроме того, есть ли хорошая статья или обзорная статья о различных методах агрегации моделей, которые можно...

random-forest python scikit-learn aggregation bagging

10

Реализация вложенной перекрестной проверки

Я пытаюсь выяснить, правильно ли мое понимание вложенной перекрестной проверки, поэтому я написал этот игрушечный пример, чтобы проверить, прав ли я: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set...

cross-validation python scikit-learn

10

Применение PCA для проверки данных в целях классификации

Недавно я узнал о замечательном PCA, и я сделал пример, изложенный в документации scikit-learn . Мне интересно знать, как я могу применить PCA к новым точкам данных для целей классификации. После визуализации PCA в двухмерной плоскости (ось x, y) я вижу, что, вероятно, могу нарисовать линию, чтобы...

classification pca scikit-learn

10

Определение отфильтрованных объектов после выбора функции с помощью Scikit Learn.

Вот мой код для выбора метода в Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Но после получения нового X...

feature-selection python scikit-learn