Вопросы с тегом «scikit-learn»

scikit-learn - это библиотека машинного обучения для Python, которая предоставляет простые и эффективные инструменты для анализа данных и интеллектуального анализа данных с упором на машинное обучение. Он доступен всем и может использоваться повторно в различных контекстах. Он построен на NumPy и SciPy. Проект с открытым исходным кодом и коммерчески доступным (лицензия BSD).

218
Кодирование меток в нескольких столбцах в scikit-learn

Я пытаюсь использовать scikit-learn's LabelEncoderдля кодирования панд DataFrameстроковых меток. Поскольку в фрейме данных есть много (более 50) столбцов, я хочу избежать создания LabelEncoderобъекта для каждого столбца; Я бы предпочел просто иметь один большой LabelEncoderобъект, который работает...

205
Как нормализовать массив в NumPy?

Я хотел бы иметь норму одного массива NumPy. Более конкретно, я ищу эквивалентную версию этой функции def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm Есть ли что-то подобное в skearnили numpy? Эта функция работает в ситуации, когда vесть вектор...

192
Сохранить классификатор на диск в Scikit-Learn

Как сохранить обученный наивный байесовский классификатор на диск и использовать его для прогнозирования данных? У меня есть следующий пример программы с сайта scikit-learn: from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred...

158
Есть ли библиотечная функция для среднеквадратической ошибки (RMSE) в python?

Я знаю, что мог бы реализовать функцию среднеквадратичной ошибки следующим образом: def rmse(predictions, targets): return np.sqrt(((predictions - targets) ** 2).mean()) Что я ищу, если эта функция rmse реализована где-то в библиотеке, возможно, в scipy или...

157
Как извлечь правила принятия решений из дерева решений scikit-learn?

Могу ли я извлечь базовые правила принятия решений (или «пути принятия решений») из обученного дерева в дереве решений в виде текстового списка? Что-то вроде: if A>0.4 then if B<0.2 then if C>0.8 then class='X' Спасибо за вашу...

149
RuntimeWarning: размер numpy.dtype изменен, может указывать на двоичную несовместимость

У меня есть эта ошибка при попытке загрузить сохраненную модель SVM. Я попытался удалить sklearn, NumPy и SciPy, заново установить все последние версии вместе (используя pip). Я все еще получаю эту ошибку. Зачем? In [1]: import sklearn; print sklearn.__version__ 0.18.1 In [3]: import numpy; print...

146
Как разбить данные на 3 набора (тренировка, проверка и тестирование)?

У меня есть датафрейм pandas, и я хочу разделить его на 3 отдельных набора. Я знаю , что с помощью train_test_split из sklearn.cross_validation, можно разделить данные в двух сетах (поезд и тест). Тем не менее, я не смог найти никакого решения о разделении данных на три набора. Желательно, чтобы у...

138
масштабирование столбцов в пандах с помощью sklearn

У меня есть фреймворк pandas со столбцами смешанного типа, и я хотел бы применить min_max_scaler sklearn к некоторым столбцам. В идеале я хотел бы выполнить эти преобразования на месте, но еще не придумал, как это сделать. Я написал следующий код, который работает: import pandas as pd import numpy...

130
ошибка sklearn ValueError: входные данные содержат NaN, бесконечность или слишком большое значение для dtype ('float64')

Я использую sklearn, и у меня проблема с распространением сродства. Я построил матрицу ввода и продолжаю получать следующую ошибку. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). Я бежал np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True Я...

127
Почему одна горячая кодировка улучшает производительность машинного обучения?

Я заметил, что когда кодирование One Hot используется для определенного набора данных (матрицы) и используется в качестве обучающих данных для алгоритмов обучения, оно дает значительно лучшие результаты в отношении точности предсказания по сравнению с использованием самой исходной матрицы в...

125
Как определяется feature_importances в RandomForestClassifier?

У меня есть задача классификации с временными рядами в качестве входных данных, где каждый атрибут (n = 23) представляет определенный момент времени. Помимо абсолютного результата классификации, хотелось бы узнать, какие атрибуты / даты в какой степени влияют на результат. Поэтому я просто...

119
Вектор-столбец y был передан, когда ожидался 1d-массив

Мне нужно соответствовать RandomForestRegressorот sklearn.ensemble. forest = ensemble.RandomForestRegressor(**RF_tuned_parameters) model = forest.fit(train_fold, train_y) yhat = model.predict(test_fold) Этот код всегда работал, пока я не произвел предварительную обработку данных ( train_y). В...

118
Python - что такое sklearn.pipeline.Pipeline?

Я не могу понять, как sklearn.pipeline.Pipelineименно работает. Есть несколько объяснений в доке . Например, что они означают: Конвейер преобразований с финальной оценкой. Чтобы прояснить мой вопрос, какие steps? Как они работают? редактировать Благодаря ответам я могу прояснить свой вопрос: Когда...

116
Как работает параметр class_weight в scikit-learn?

У меня много проблем с пониманием того, как работает class_weightпараметр в логистической регрессии scikit-learn. Ситуация Я хочу использовать логистическую регрессию для двоичной классификации очень несбалансированного набора данных. Классы помечены 0 (отрицательный) и 1 (положительный), а...