Вопросы с тегом «python»

11
Как нарисовать осыпь в Python? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Я использую сингулярное векторное разложение на матрице и получаю матрицы U, S и Vt. На данный...

11
Скрытые марковские модели с алгоритмом Баума-Уэлча с использованием питона

Я ищу некоторую реализацию Python (в чистом Python или обертывание существующих материалов) HMM и Baum-Welch. Некоторые идеи? Я только что искал в Google, и я нашел очень плохой материал в отношении других методов машинного обучения....

11
Визуализация данных больших размеров

У меня есть образцы двух классов, которые являются векторами в многомерном пространстве, и я хочу построить их в 2D или 3D. Я знаю о методах уменьшения размерности, но мне нужен действительно простой и легкий в использовании инструмент (в matlab, python или в готовом .exe). Также мне интересно,...

11
Граница принятия решения для персептрона

Я пытаюсь построить границу решения алгоритма персептрона, и я действительно запутался в нескольких вещах. Мои входные экземпляры имеют форму , в основном это двумерный входной экземпляр ( x 1 и x 2 ) и целевое значение двоичного класса ( y ) [1 или 0].[(x1,x2),y][(x1,x2),y][(x_{1},x_{2}),...

11
Анализ основных компонентов и регрессия в Python

Я пытаюсь понять, как воспроизвести в Python какую-то работу, которую я проделал в SAS. Используя этот набор данных , где мультиколлинеарность является проблемой, я хотел бы выполнить анализ основных компонентов в Python. Я смотрел на scikit-learn и statsmodels, но я не уверен, как взять их...

11
Критерий Колмогорова – Смирнова: статистика p-значения и ks-критерия уменьшается с увеличением размера выборки

Почему p-значения и статистика ks-теста уменьшаются с увеличением размера выборки? Возьмите этот код Python в качестве примера: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n)...

11
Методы в R или Python для выбора функций в обучении без учителя [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Каковы доступные методы / реализации в R / Python для отбрасывания / выбора неважных / важных функций...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Должен ли я выбрать регрессор или классификатор Random Forest?

Я подгоняю набор данных с бинарным целевым классом по случайному лесу. В Python я могу сделать это либо randomforestclassifier, либо randomforestregressor. Я могу получить классификацию напрямую из randomforestclassifier или я могу сначала запустить randomforestregressor и вернуть набор оценочных...

10
Скорректированный индекс ранда против скорректированной взаимной информации

Я пытаюсь оценить производительность кластеризации. Я читал документацию skiscit-learn по метрикам . Я не понимаю разницы между ARI и AMI. Мне кажется, что они делают одно и то же двумя разными способами. Ссылаясь на документацию: Учитывая знание базовых назначений класса истинности label_true и...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Каков наиболее эффективный способ тренировки данных с наименьшим объемом памяти?

Это мои тренировочные данные: 200 000 примеров х 10 000 функций. Итак, моя матрица тренировочных данных - 200 000 x 10 000. Мне удалось сохранить это в плоском файле без проблем с памятью, сохраняя каждый набор данных один за другим (один пример за другим), поскольку я генерировал функции для...

10
Соответствие нормальному логарифмическому распределению в R против SciPy

Я снабдил логнормальную модель, используя R набором данных. Полученные параметры были: meanlog = 4.2991610 sdlog = 0.5511349 Я бы хотел перенести эту модель на Scipy, которой никогда раньше не пользовался. Используя Scipy, я смог получить форму и масштаб 1 и 3.1626716539637488e + 90 - очень разные...

10
Как генерировать числа в соответствии с распределением Солитон?

Распределение солитонов - это дискретное распределение вероятностей по набору с функцией вероятности{ 1 , … , N}{1,…,N}\{1,\dots, N\} р ( 1 ) = 1N,p ( k ) = 1к ( к - 1 )для  k ∈ { 2 , … , N}p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots,...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
PyMC для непараметрической кластеризации: процесс Дирихле для оценки параметров гауссовой смеси не кластеризуется

Настройка проблемы Одной из первых игрушечных проблем, к которой я хотел применить PyMC, является непараметрическая кластеризация: с учетом некоторых данных смоделируйте их как гауссову смесь и узнайте количество кластеров, а также среднее значение и ковариацию каждого кластера. Большая часть того,...

10
t-SNE со смешанными непрерывными и двоичными переменными

В настоящее время я изучаю визуализацию многомерных данных с использованием t-SNE. У меня есть некоторые данные со смешанными двоичными и непрерывными переменными, и данные, похоже, слишком быстро группируют двоичные данные. Конечно, это ожидается для масштабированных (между 0 и 1) данных:...

10
Определение отфильтрованных объектов после выбора функции с помощью Scikit Learn.

Вот мой код для выбора метода в Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Но после получения нового X...