Вопросы с тегом «python»

10
Случайный лесной вероятностный прогноз против большинства голосов

Кажется, Scikit Learn использует вероятностный прогноз вместо большинства голосов за метод агрегации моделей без объяснения причин (1.9.2.1. Случайные леса). Есть четкое объяснение почему? Кроме того, есть ли хорошая статья или обзорная статья о различных методах агрегации моделей, которые можно...

10
Реализация вложенной перекрестной проверки

Я пытаюсь выяснить, правильно ли мое понимание вложенной перекрестной проверки, поэтому я написал этот игрушечный пример, чтобы проверить, прав ли я: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set...

10
Определение отфильтрованных объектов после выбора функции с помощью Scikit Learn.

Вот мой код для выбора метода в Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Но после получения нового X...

10
Лучший способ заполнить N независимых генераторов случайных чисел от 1 значения

В моей программе мне нужно запустить N отдельных потоков, каждый с собственным RNG, который используется для выборки большого набора данных. Мне нужно иметь возможность заполнить весь этот процесс одним значением, чтобы я мог воспроизвести результаты. Достаточно ли просто последовательно...

10
Как Tensorflow `tf.train.Optimizer` вычисляет градиенты?

Я следую учебнику по Mensist Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Учебник использует tf.train.Optimizer.minimize(конкретно tf.train.GradientDescentOptimizer). Я не вижу каких-либо аргументов, передаваемых где-либо...

10
Скорректированный индекс ранда против скорректированной взаимной информации

Я пытаюсь оценить производительность кластеризации. Я читал документацию skiscit-learn по метрикам . Я не понимаю разницы между ARI и AMI. Мне кажется, что они делают одно и то же двумя разными способами. Ссылаясь на документацию: Учитывая знание базовых назначений класса истинности label_true и...

10
Как статистически доказать, имеет ли столбец категориальные данные или не использует Python

У меня есть фрейм данных в Python, где мне нужно найти все категориальные переменные. Проверка типа столбца не всегда работает, потому что intтип также может быть категоричным. Поэтому я ищу помощь в поиске правильного метода проверки гипотез, чтобы определить, является ли столбец категоричным или...

10
t-SNE со смешанными непрерывными и двоичными переменными

В настоящее время я изучаю визуализацию многомерных данных с использованием t-SNE. У меня есть некоторые данные со смешанными двоичными и непрерывными переменными, и данные, похоже, слишком быстро группируют двоичные данные. Конечно, это ожидается для масштабированных (между 0 и 1) данных:...

9
Расчет процентиля нормального распределения

Смотрите эту страницу Википедии: http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Agresti-Coull_Interval Чтобы получить интервал Agresti-Coull, нужно вычислить процентиль нормального распределения, называемого zZz . Как рассчитать процентиль? Есть ли готовая функция, которая...

9
Оценка пиков во временных рядах данных сигнала ячейки

Я измеряю наличие ответа в измерениях сигнала клетки. Сначала я применил алгоритм сглаживания (Hanning) к временным рядам данных, а затем обнаружил пики. Что я получаю, это: Если бы я хотел сделать обнаружение ответа более объективным, чем «да, вы видите повышение в непрерывном падении», какой...

9
Как подогнать регрессию типа

У меня есть данные временного ряда, где измеряемая переменная представляет собой дискретные положительные целые числа (числа). Я хочу проверить, есть ли тенденция со временем (или нет). Независимая переменная (x) находится в диапазоне 0-500, а зависимая переменная (y) находится в диапазоне 0-8. Я...

9
Формула формулы инерции в скиките учиться

Я хотел бы закодировать кластеризацию kmeans в python, используя pandas и scikit learn. Чтобы выбрать хороший k, я хотел бы закодировать статистику разрыва из Tibshirani и др. 2001 ( pdf ). Я хотел бы знать, могу ли я использовать результат inertia_ от scikit и адаптировать формулу статистики...

9
Как бы вы визуализировали сегментированную воронку? (а вы могли бы сделать это с Python?)

Я видел этот пост на Moz, который представил сегментированную маркетинговую воронку: Такие вещи будут иметь большую ценность в моей работе. Я понятия не имею, как визуализировать необработанные данные, чтобы показать сегментированную воронку, подобную этой. Идея состоит в том, что коммерческие...

9
Генерация случайных чисел из «наклонного равномерного распределения» из математической теории

Для каких-то целей мне нужно генерировать случайные числа (данные) из распределения "наклонной формы". «Наклон» этого распределения может изменяться в некотором разумном интервале, и тогда мое распределение должно измениться с равномерного на треугольное в зависимости от наклона. Вот мой вывод:...

9
Как детям удается объединить своих родителей в прогнозе PCA набора данных GWAS?

Возьмите 20 случайных точек в 10000-мерном пространстве с каждой координатой из N( 0 , 1 )N(0,1)\mathcal N(0,1) . Разделите их на 10 пар («пары») и добавьте среднее значение каждой пары («ребенок») к набору данных. Затем проведите PCA по полученным 30 точкам и постройте график PC1 против PC2....

8
Как провести корреляционный анализ пива и подгузников

У меня есть данные, которые эквивалентны: shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... Я хотел бы провести некоторый анализ этого набора данных, чтобы получить корреляционную матрицу, которая имела бы значение, аналогичное следующему: если вы купили x, вы,...

8
Разница между наивными байесовскими и рекуррентными нейронными сетями (LSTM)

Я хочу провести анализ настроений над текстом, прочитал несколько статей, некоторые из них используют «Наивный байесовский», а другие - «Рекуррентную нейронную сеть (LSTM)» , с другой стороны, я видел библиотеку python для анализа настроений, которая это нлтк. Он использует "Наивный байесовский",...

8
Почему этот набор данных не имеет ковариации?

Мое понимание того, как работает ковариация, заключается в том, что коррелированные данные должны иметь несколько высокую ковариацию. Я сталкивался с ситуацией, когда мои данные выглядят коррелированными (как показано на диаграмме рассеяния), но ковариация близка к нулю. Как ковариация данных может...