Вопросы с тегом «statistics»

Статистика - это научный подход к индуктивному выводу и прогнозированию, основанный на вероятностных моделях данных. В более широком смысле, он охватывает план экспериментов и опросов для сбора данных для этой цели.

63
Как получить корреляцию между двумя категориальными переменными и категориальными переменными и непрерывными переменными?

Я строю регрессионную модель, и мне нужно вычислить ниже, чтобы проверить корреляции Корреляция между 2 многоуровневыми категориальными переменными Корреляция между многоуровневой категориальной переменной и непрерывной переменной VIF (коэффициент инфляции дисперсии) для многоуровневых...

49
Нейронные сети: какую функцию стоимости использовать?

Я использую TensorFlow для экспериментов в основном с нейронными сетями. Хотя я провел довольно много экспериментов (XOR-Problem, MNIST, некоторые вещи регрессии, ...), я борюсь с выбором «правильной» функции стоимости для конкретных задач, потому что в целом я мог бы считаться новичком. До прихода...

40
Наука о данных в C (или C ++)

Я Rпрограммист по языку. Я также вхожу в группу людей, которые считаются специалистами по данным, но приходят из академических дисциплин, отличных от CS. Это хорошо работает в моей роли Data Scientist, однако, начав свою карьеру Rи имея только базовые знания других скриптовых / веб-языков, я...

35
Расчет и визуализация корреляционной матрицы с пандами

У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

26
Книги о «науке» в науке о данных? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он фокусировался только на одной проблеме, редактируя этот пост . Закрыто 5 лет назад . Какие книги о науке и математике стоят за наукой о данных?...

24
Любая консоль Online R?

Я ищу онлайн-консоль для языка R. Как будто я пишу код, и сервер должен выполнить и предоставить мне вывод. Похоже на сайт

19
Какую статистическую модель я должен использовать, чтобы проанализировать вероятность того, что одно событие повлияло на продольные данные

Я пытаюсь найти формулу, метод или модель, которые можно использовать для анализа вероятности того, что конкретное событие повлияло на некоторые продольные данные. Мне трудно понять, что искать в Google. Вот пример сценария: Представьте, что вы владеете бизнесом, в котором ежедневно посещают в...

15
Как указать важные атрибуты?

Предположим, что набор данных со слабой структурой (например, веб-таблицы / связанные открытые данные) состоит из множества источников данных. Не существует общей схемы, за которой следуют данные, и каждый источник может использовать атрибуты синонимов для описания значений (например,...

14
Когда p-значения обманчивы?

Каковы условия данных, на которые мы должны обратить внимание, когда p-значения не могут быть лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту...

14
Начинающие математические книги для машинного обучения

Я инженер по компьютерным наукам, не обладаю знаниями в области статистики или математики. Я изучаю книгу « Машинное обучение Python» Рашки и Миржалили, но когда я попытался понять математику машинного обучения, я не смог понять замечательную книгу, которую мой друг предлагает мне «Элементы...

14
Многомерные данные: какие полезные методы нужно знать?

Из-за различных проклятий размерности точность и скорость многих из общих методов прогнозирования ухудшаются на данных большого размера. Каковы некоторые из наиболее полезных методов / уловок / эвристик, которые помогают эффективно работать с многомерными данными? Например, Являются ли определенные...

13
Анализ результатов A / B-теста, которые обычно не распределяются, с использованием независимого t-теста

У меня есть набор результатов теста A / B (одна контрольная группа, одна группа объектов), которые не соответствуют нормальному распределению. На самом деле распределение больше напоминает распределение Ландау. Я считаю, что независимый критерий Стьюдента требует, чтобы образцы были, по крайней...

13
Сколько функций для выборки с использованием случайных лесов

На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно,...

13
Наборы данных с пониманием лучших практик

Я магистрант CS в области интеллектуального анализа данных. Мой руководитель однажды сказал мне, что перед тем, как запустить какой-либо классификатор или сделать что-либо с набором данных, я должен полностью понять данные и убедиться, что данные чистые и правильные. Мои вопросы: Как лучше всего...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

11
Отношения между KS, AUROC и Gini

Общая статистика валидации модели, такая как критерий Колмогорова – Смирнова (KS), AUROC и коэффициент Джини , все функционально связаны. Однако мой вопрос касается доказательства того, как все это связано. Мне любопытно, если кто-нибудь может помочь мне доказать эти отношения. Я не смог ничего...

11
Является ли GLM статистической или машины модели обучения?

Я думал, что обобщенная линейная модель (GLM) будет рассматриваться как статистическая модель, но один из моих друзей сказал мне, что некоторые статьи классифицируют ее как технику машинного обучения. Какой из них является истинным (или точнее)? Любое объяснение будет...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

11
Data Science ориентированный набор данных / исследовательский вопрос для диссертации MSc Statistics

Я хотел бы изучить «науку о данных». Этот термин кажется мне немного расплывчатым, но я ожидаю, что он потребует: машинное обучение (а не традиционная статистика); достаточно большой набор данных для анализа кластеров. Какие есть хорошие наборы данных и проблемы, доступные статистику с некоторым...