Вопросы с тегом «scikit-learn»

111
Запустите регрессию OLS с фреймом данных Pandas

У меня есть pandasфрейм данных, и я хотел бы предсказать значения столбца A по значениям в столбцах B и C. Вот игрушечный пример: import pandas as pd df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]}) В идеале у меня было бы что-то подобное, ols(A ~...

109
Как вычислить точность, отзыв, точность и f1-оценку для мультиклассового случая с помощью scikit learn?

Я работаю над проблемой анализа настроений, данные выглядят так: label instances 5 1190 4 838 3 239 1 204 2 127 Таким образом, мои данные несбалансированы, поскольку 1190 instancesпомечены значком 5. Для классификации я использую SVC scikit . Проблема в том, что я не знаю, как правильно...

104
как проверить, какая версия nltk, scikit learn установлена?

В сценарии оболочки я проверяю, установлены ли эти пакеты или нет, если они не установлены, установите их. Итак, в сценарии оболочки: import nltk echo nltk.__version__ но он останавливает сценарий оболочки на importстроке в терминале linux попытался увидеть таким образом: which nltk который ничего...

103
sklearn: обнаружены массивы с несогласованным количеством выборок при вызове LinearRegression.fit ()

Просто пытаюсь выполнить простую линейную регрессию, но эта ошибка меня сбивает с толку: regr = LinearRegression() regr.fit(df2.iloc[1:1000, 5].values, df2.iloc[1:1000, 2].values) который производит: ValueError: Found arrays with inconsistent numbers of samples: [ 1 999] Эти выборки должны иметь...

95
RandomForestClassifier против ExtraTreesClassifier в scikit узнать

Может ли кто-нибудь объяснить разницу между RandomForestClassifier и ExtraTreesClassifier в scikit learn. Я потратил немало времени на чтение статьи: П. Гертс, Д. Эрнст. И Л. Вехенкель, «Чрезвычайно рандомизированные деревья», Машинное обучение, 63 (1), 3-42, 2006 г. Кажется, в этом разница для...

94
Параметр "stratify" из метода "train_test_split" (scikit Learn)

Я пытаюсь использовать train_test_splitпакет scikit Learn, но у меня проблемы с параметром stratify. Ниже приведен код: from sklearn import cross_validation, datasets X = iris.data[:,:2] y = iris.target cross_validation.train_test_split(X,y,stratify=y) Однако у меня все еще возникает следующая...

92
Какие плюсы и минусы между get_dummies (Pandas) и OneHotEncoder (Scikit-learn)?

Я изучаю различные методы преобразования категориальных переменных в числовые для классификаторов машинного обучения. Я наткнулся на pd.get_dummiesметод и sklearn.preprocessing.OneHotEncoder()хотел посмотреть, чем они отличаются по производительности и использованию. Я нашел руководство по...

88
Стратифицированный поезд / тест-сплит в scikit-learn

Мне нужно разделить мои данные на обучающий набор (75%) и тестовый набор (25%). В настоящее время я делаю это с помощью кода ниже: X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo) Однако я хотел бы стратифицировать свой набор тренировочных данных. Как я могу...

10
Использование GridSearchCV с IsolationForest для поиска выбросов

Я хочу использовать IsolationForestдля обнаружения выбросов. Я хочу найти лучшие параметры для модели с GridSearchCV. Проблема в том, что я всегда получаю одну и ту же ошибку: TypeError: If no scoring is specified, the estimator passed should have a 'score' method. The estimator...

10
Преобразовать несколько категориальных столбцов

В моем наборе данных у меня есть два категориальных столбца, которые я хотел бы перечислить. Оба столбца содержат страны, некоторые перекрываются (отображаются в обоих столбцах). Я хотел бы дать одно и то же число в столбцах 1 и 2 для одной и той же страны. Мои данные выглядят примерно так: import...