Вопросы с тегом «regression»

Методы анализа взаимосвязи между одной (или несколькими) «зависимыми» переменными и «независимыми» переменными.

73
Почему функции стоимости используют квадратную ошибку?

Я только начинаю с машинного обучения, и до сих пор я имел дело с линейной регрессией по одной переменной. Я узнал, что существует гипотеза: часθ( х ) = θ0+ θ1Иксhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Чтобы найти хорошие значения для параметров и мы хотим минимизировать разницу между...

27
Как заставить веса быть неотрицательными в линейной регрессии

Я использую стандартную линейную регрессию, используя scikit-learn в python. Тем не менее, я хотел бы, чтобы веса были положительными для каждой функции (не отрицательной), есть ли способ, которым я могу это сделать? Я искал в документации, но не мог найти способ сделать это. Я понимаю, что я не...

24
Scikit-learn: получение SGDClassifier для прогнозирования, а также логистическая регрессия

Способ обучения Логистической регрессии - использование стохастического градиентного спуска, к которому Scikit-Learn предлагает интерфейс. То , что я хотел бы сделать , это принять scikit-Learn - х SGDClassifier и он забьет такой же , как логистическая регрессия здесь . Тем не менее, мне не хватает...

21
Нейронная сеть для множественной выходной регрессии

У меня есть набор данных, содержащий 34 входных столбца и 8 выходных столбцов. Один из способов решения этой проблемы - взять 34 входа и построить индивидуальную модель регрессии для каждого выходного столбца. Мне интересно, если эта проблема может быть решена с помощью только одной модели,...

20
Что значит «делиться параметрами между объектами и классами»

При чтении этой статьи есть строка, в которой говорится, что «линейные классификаторы не разделяют параметры между функциями и классами». В чем смысл этого утверждения? Означает ли это, что линейные классификаторы, такие как логистическая регрессия, нуждаются во взаимно независимых...

19
Текстовая категоризация: объединение различных видов функций

Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в...

19
Как получить p-значение и доверительный интервал в LogisticRegression с помощью sklearn?

Я строю полиномиальную логистическую регрессию с помощью sklearn (LogisticRegression). Но после ее завершения, как я могу получить p-значение и доверительный интервал моей модели? Похоже, что sklearn обеспечивает только коэффициент и перехват. Большое тебе...

18
Реализация функции стоимости в Python в логистической регрессии: почему точечное умножение в одном выражении, а поэлементное умножение в другом

У меня есть очень простой вопрос, который относится к Python, numpy и умножению матриц в настройках логистической регрессии. Во-первых, позвольте мне извиниться за то, что не использовал математическую запись Я запутался в использовании умножения матричных точек и поэлементного умножения. Функция...

17
Выберите алгоритм двоичной классификации

У меня есть проблема двоичной классификации: Примерно 1000 образцов в тренировочном наборе 10 атрибутов, включая двоичные, числовые и категориальные Какой алгоритм является лучшим выбором для этого типа проблемы? По умолчанию я собираюсь начать с SVM (предварительно имея номинальные значения...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

16
Зачем нам отбрасывать одну фиктивную переменную?

Я узнал, что для создания регрессионной модели мы должны позаботиться о категориальных переменных, преобразовав их в фиктивные переменные. Например, если в нашем наборе данных есть переменная типа location: Location ---------- Californian NY Florida Мы должны конвертировать их как: 1 0 0 0 1 0 0 0...

15
Почему мы преобразуем перекос данных в нормальное распределение

Я проходил решение конкурса цен на жилье на Kaggle ( ядро Human Analog по ценам на жилье : методы предварительной регрессии ) и наткнулся на эту часть: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed...

14
Дерево решений или логистическая регрессия?

Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией? Правильно ли предположить, что логистическая регрессия будет...

14
Модель двоичной классификации для несбалансированных данных

У меня есть набор данных со следующими спецификациями: Учебный набор данных с 193 176 пробами с 2821 положительным результатом Тестовый набор данных с 82 887 образцами с 673 положительными Есть 10 функций. Я хочу выполнить двоичную классификацию (0 или 1). Проблема, с которой я сталкиваюсь,...

13
Линейная регрессия с несимметричной функцией стоимости?

Я хочу предсказать некоторое значение и я пытаюсь получить некоторое предсказание которое оптимизирует между минимально возможным, но все же большим, чем . Другими словами: У ( х ) У ( х ) стоимость { Y ( х ) ≳ Y ( х ) } > > Стоимость { Y ( х ) ≳ Y ( х ) }Y( х )Y(Икс)Y(x)Y^( х )Y^(Икс)\hat...

12
Тарифы авиакомпаний - Какой анализ следует использовать для выявления конкурентного поведения при установлении цен и ценовых корреляций?

Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов. Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о...

12
Моделирование неравномерно распределенных временных рядов

У меня есть непрерывная переменная, отобранная в течение года с нерегулярными интервалами. Некоторые дни имеют более одного наблюдения в час, в то время как другие периоды не имеют ничего в течение нескольких дней. Это делает особенно сложным обнаружение закономерностей во временных рядах,...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...