Вопросы с тегом «scikit-learn»

Scikit-learn - это модуль Python, включающий простой и эффективный инструмент для машинного обучения, интеллектуального анализа данных и анализа данных. Он построен на NumPy, SciPy и matplotlib. Распространяется под лицензией BSD с 3 пунктами.

110
Разница между fit и fit_transform в моделях scikit_learn?

Я новичок в науке данных , и я не понимаю разницу между fitи fit_transformметоды в scikit-учиться. Кто-нибудь может просто объяснить, почему нам может понадобиться преобразовать данные? Что означает подгонка модели к тренировочным данным и преобразование в тестовые данные? Означает ли это,...

98
Когда использовать One Hot Encoding против LabelEncoder против DictVectorizor?

Я уже некоторое время строю модели с категориальными данными, и когда в этой ситуации я в основном по умолчанию использую функцию LabelEncoder scikit-learn для преобразования этих данных до построения модели. Я понимаю разницу между OHE, LabelEncoderи DictVectorizorс точки зрения того, что они...

76
SVM с использованием scikit learn работает бесконечно и никогда не завершает выполнение

Я пытаюсь запустить SVR, используя scikit learn (python) для обучающего набора данных, имеющего 595605 строк и 5 столбцов (функций), и тестового набора данных, имеющего 397070 строк. Данные были предварительно обработаны и упорядочены. Я могу успешно запустить тестовые примеры, но, выполнив мой...

64
строки как объекты в дереве решений / случайном лесу

Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так...

37
Есть ли у scikit-learn алгоритм прямого выбора / ступенчатой ​​регрессии?

Я работаю над проблемой со слишком многими функциями, и обучение моих моделей занимает слишком много времени. Я реализовал алгоритм прямого выбора для выбора функций. Однако мне было интересно, есть ли у scikit-learn алгоритм прямого выбора / пошаговой...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

28
Понимание Forex_Proba из MultiOutputClassifier

Я следую этому примеру на веб-сайте scikit-learn, чтобы выполнить многопользовательскую классификацию с использованием модели Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier...

27
Как заставить веса быть неотрицательными в линейной регрессии

Я использую стандартную линейную регрессию, используя scikit-learn в python. Тем не менее, я хотел бы, чтобы веса были положительными для каждой функции (не отрицательной), есть ли способ, которым я могу это сделать? Я искал в документации, но не мог найти способ сделать это. Я понимаю, что я не...

24
Scikit-learn: получение SGDClassifier для прогнозирования, а также логистическая регрессия

Способ обучения Логистической регрессии - использование стохастического градиентного спуска, к которому Scikit-Learn предлагает интерфейс. То , что я хотел бы сделать , это принять scikit-Learn - х SGDClassifier и он забьет такой же , как логистическая регрессия здесь . Тем не менее, мне не хватает...

22
Расчет расхождения KL в Python

Я довольно новичок в этом и не могу сказать, что у меня есть полное понимание теоретических концепций этого. Я пытаюсь вычислить расхождение KL между несколькими списками точек в Python. Я использую http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, чтобы...

21
train_test_split () ошибка: найдены входные переменные с непоследовательным количеством сэмплов

Довольно плохо знаком с Python, но строю свою первую модель RF на основе некоторых классификационных данных. Я преобразовал все метки в числовые данные int64 и загрузил их в X и Y в виде пустого массива, но у меня возникает ошибка, когда я пытаюсь обучить модели. Вот как выглядят мои массивы:...

20
StandardScaler до и после разделения данных

Когда я читал об использовании StandardScaler, большинство рекомендаций говорили, что вы должны использовать StandardScaler перед разбивать данные на обучающие / тестовые данные, но когда я проверял некоторые коды, размещенные в сети (используя sklearn), было два основных применения. 1-...

19
Можете ли вы объяснить разницу между SVC и LinearSVC в scikit-learn?

Я недавно начал учиться работать с sklearnи только что столкнулся с этим странным результатом. Я использовал digitsдоступный набор данных, sklearnчтобы попробовать разные модели и методы оценки. Когда я тестировал модель машины опорных векторов на данных, я обнаружил, что есть два разных класса...

19
Как получить p-значение и доверительный интервал в LogisticRegression с помощью sklearn?

Я строю полиномиальную логистическую регрессию с помощью sklearn (LogisticRegression). Но после ее завершения, как я могу получить p-значение и доверительный интервал моей модели? Похоже, что sklearn обеспечивает только коэффициент и перехват. Большое тебе...

18
Повышение скорости реализации t-sne в python для больших данных

Я хотел бы уменьшить размерность почти на 1 миллион векторов с 200 измерениями ( doc2vec). Я использую TSNEреализацию из sklearn.manifoldмодуля, и главная проблема - временная сложность. Даже при том method = barnes_hut, что скорость вычислений все еще низка. Некоторое время даже не хватает памяти....

18
Как бороться с строковыми метками в мультиклассовой классификации с керасом?

Я новичок в области машинного обучения и кера, и сейчас я занимаюсь многоклассовой классификацией изображений с помощью кера. На входе помечено изображение. После некоторой предварительной обработки данные обучения представлены в списке Python как: [["dog", "path/to/dog/imageX.jpg"],["cat",...

17
Алгоритмы для кластеризации текста

У меня проблема с кластеризацией огромного количества предложений по группам по смыслу. Это похоже на проблему, когда у вас много предложений и вы хотите сгруппировать их по значению. Какие алгоритмы предлагаются для этого? Я не знаю количество кластеров заранее (и по мере поступления новых данных...

17
Объединение разреженных и плотных данных в машинном обучении для повышения производительности

У меня есть редкие признаки, которые являются прогнозирующими, также у меня есть некоторые плотные признаки, которые также являются прогнозирующими. Мне нужно объединить эти функции вместе, чтобы улучшить общую производительность классификатора. Дело в том, что когда я пытаюсь объединить их вместе,...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...