Вопросы с тегом «scikit-learn»

Библиотека машинного обучения для Python. Используйте этот тег для любого вопроса по теме, который (a) включает scikit-learn или как критическую часть вопроса, или как ожидаемый ответ, и (b) не только о том, как использовать scikit-learn.

70
Как разделить набор данных для перекрестной проверки, кривой обучения и окончательной оценки?

Какова подходящая стратегия для разделения набора данных? Я прошу обратную связь на следующий подход ( а не на отдельных параметров , таких как test_sizeили n_iter, но если я X, y, X_train, y_train, X_test, и y_testсоответствующим образом и , если последовательность имеет смысл): (расширяя этот...

50
Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых...

42
Как интерпретировать весовые характеристики SVM?

Я пытаюсь интерпретировать переменные веса, заданные путем подбора линейного SVM. (Я использую scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Я не могу найти ничего в документации, в которой конкретно указано, как эти веса рассчитываются...

41
Панды / Statsmodel / Scikit-Learn

Являются ли Pandas, Statsmodels и Scikit-learn разными реализациями машинного обучения / статистических операций, или они дополняют друг друга? Какой из них обладает наиболее полной функциональностью? Какой из них активно разрабатывается и / или поддерживается? Я должен осуществить логистическую...

31
Логистическая регрессия: Scikit Learn против Statsmodels

Я пытаюсь понять, почему вывод из логистической регрессии этих двух библиотек дает разные результаты. Я использую набор данных из учебника UCLA idre , прогнозирование admitна основе gre, gpaи rank. rankрассматривается как категориальная переменная, поэтому сначала она преобразуется в фиктивную...

30
что означают цифры в отчете о классификации sklearn?

Ниже приведен пример, извлеченный из документации sklearn.metrics.classification_report. Что я не понимаю, так это то, почему существуют значения f1-показателя, точности и отзыва для каждого класса, где я считаю, что класс является меткой предиктора? Я думал, что оценка f1 говорит вам об общей...

29
Полиномиальная регрессия с использованием scikit-learn

Я пытаюсь использовать scikit-learn для полиномиальной регрессии. Из того, что я прочитал, полиномиальная регрессия является частным случаем линейной регрессии. Я прыгал, что, возможно, одна из обобщенных линейных моделей Scikit может быть параметризована для соответствия полиномам более высокого...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

27
Площадь под кривой точного восстановления (AUC PR-кривой) и средняя точность (AP)

Является ли средняя точность (AP) областью под кривой точного восстановления (AUC PR-кривой)? РЕДАКТИРОВАТЬ: Вот некоторые комментарии о разнице в PR AUC и AP. AUC получается путем трапецеидальной интерполяции точности. Альтернативным и обычно почти эквивалентным показателем является Средняя...

27
Ансамбль различных видов регрессоров, использующий scikit-learn (или любую другую среду Python)

Я пытаюсь решить регрессионную задачу. Я обнаружил, что 3 модели прекрасно работают для разных подмножеств данных: LassoLARS, SVR и Gradient Tree Boosting. Я заметил, что когда я делаю прогнозы, используя все эти 3 модели, а затем составляю таблицу «истинного результата» и выходных данных моих 3...

26
Почему Python scikait-learn LDA не работает правильно и как он вычисляет LDA через SVD?

Я использовал Линейный Дискриминантный Анализ (LDA) из scikit-learnбиблиотеки машинного обучения (Python) для уменьшения размерности, и мне было немного интересно узнать о результатах. Теперь мне интересно, что scikit-learnделает LDA , чтобы результаты выглядели иначе, чем, например, ручной подход...

24
Средняя абсолютная процентная ошибка (MAPE) в Scikit-learn [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Как мы можем рассчитать среднюю абсолютную процентную ошибку (MAPE) наших прогнозов, используя Python и...

21
Переоснащение: нет серебряной пули?

Насколько я понимаю, даже при соблюдении процедур перекрестной проверки и выбора модели может произойти переоснащение , если поискать модель будет достаточно сложно , если только он не налагает ограничения на сложность модели, период. Более того, часто люди пытаются узнать штрафы за сложность...

20
Как использовать функции перекрестной проверки scikit-learn в классификаторах с несколькими метками

Я тестирую разные классификаторы на наборе данных, где есть 5 классов, и каждый экземпляр может принадлежать одному или нескольким из этих классов, поэтому я использую, в частности, многокомпонентные классификаторы scikit-learn sklearn.multiclass.OneVsRestClassifier. Теперь я хочу выполнить...

20
XGBoost и Python Sklearn повышают градиент деревьев

Я пытаюсь понять, как работает XGBoost. Я уже понимаю, как деревья с градиентным ускорением работают на Python sklearn. Что мне не ясно, так это то, работает ли XGBoost таким же образом, но быстрее, или если между ним и реализацией python есть фундаментальные различия. Когда я читаю эту статью...

19
Метки многопрофильной классификации по скикиту

Я пытаюсь создать классификатор с несколькими метками, чтобы назначать темы для существующих документов с помощью scikit. Я обрабатываю свои документы, пропускаю их через TfidfVectorizerярлыки MultiLabelBinarizerи создаю в OneVsRestClassifierкачестве SGDClassifierоценщика. Однако при тестировании...

19
Случайный лес переоснащается?

Я экспериментирую со случайными лесами с помощью scikit-learn, и я получаю отличные результаты моего тренировочного набора, но относительно плохие результаты на моем тестовом наборе ... Вот проблема (по мотивам покера), которую я пытаюсь решить: с учетом карманных карт игрока А, карманных карт...

18
Как вычислить стандартные ошибки коэффициентов логистической регрессии

Я использую Python Scikit-Learn для обучения и проверки логистической регрессии. scikit-learn возвращает коэффициенты регрессии независимых переменных, но не предоставляет стандартных ошибок коэффициентов. Мне нужны эти стандартные ошибки для вычисления статистики Вальда для каждого коэффициента и,...

18
Как систематически удалять коллинеарные переменные в Python? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . До сих пор я удалял коллинеарные переменные как часть процесса подготовки данных, просматривая...