Статистика и большие данные

51

Краткое определение повышения : Может ли группа слабых учеников создать одного сильного ученика? Слабый ученик определяется как классификатор, который лишь незначительно коррелирует с истинной классификацией (он может маркировать примеры лучше, чем случайные догадки). Краткое определение случайного...

51

Взаимная информация против корреляции

Почему и когда мы должны использовать Взаимную информацию для статистических измерений корреляции, таких как «Пирсон», «Спирман» или «Тау

correlation mathematical-statistics mutual-information

51

Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?

Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый...

regularization

50

Правильное написание (капитализация, курсив, перенос слов) «р-значение»?

Я понимаю, что это педантично и банально, но как исследователь в области вне статистики, с ограниченным формальным образованием в области статистики, я всегда задаюсь вопросом, правильно ли я пишу «р-значение». В частности: Предполагается ли заглавная буква "p"? Предполагается, что буква «р»...

hypothesis-testing p-value terminology

50

Рекомендуемые книги по дизайну эксперимента?

Каковы рекомендации панели для книг по оформлению экспериментов? В идеале книги должны быть в печатном виде или доступны в электронном виде, хотя это не всегда возможно. Если вы хотите добавить пару слов о том, что хорошего в книге, это было бы здорово. Кроме того, стремитесь к одной книге за...

references experiment-design

50

Как мы определяем «воспроизводимые исследования»?

Это возникло в нескольких вопросах сейчас, и мне было интересно о чем-то. Переместилось ли поле в целом к «воспроизводимости» с акцентом на доступность исходных данных и рассматриваемого кода? Меня всегда учили, что ядром воспроизводимости не обязательно является, как я уже говорил, возможность...

reproducible-research philosophical

50

Программное обеспечение для рисования байесовских сетей (графические модели)

Я ищу [бесплатное] программное обеспечение, которое может создавать красивые графические модели, например Мы ценим любые

graphical-model software

50

В чем разница между N и N-1 в расчете дисперсии населения?

Я не понял, почему есть Nи N-1при расчете дисперсии населения. Когда мы используем Nи когда мы используем N-1? Нажмите здесь, чтобы увеличить версию Это говорит о том, что когда население очень большое, нет разницы между N и N-1, но это не говорит о том, почему существует N-1 в начале. Изменить:...

variance population

50

Книга для чтения перед элементами статистического обучения?

Основываясь на этом посте , я хочу переварить элементы статистического обучения. К счастью, он доступен бесплатно, и я начал его читать. У меня недостаточно знаний, чтобы понять это. Можете ли вы порекомендовать книгу, которая является лучшим введением в темы книги? Надеюсь, что-то, что даст мне...

machine-learning references

50

Зачем беспокоиться о двойной проблеме при установке SVM?

Для заданных точек данных и меток y 1 , … , y n ∈ { - 1 , 1 }x1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} , основная задача SVM с жестким полем имеет вид S.T.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0}...

svm

50

Получение прогнозных значений (Y = 1 или 0) из модели логистической регрессии

Допустим, у меня есть объект класса glm(соответствующий модели логистической регрессии), и я хотел бы превратить предсказанные вероятности, заданные с predict.glmпомощью аргумента, type="response"в двоичные ответы, то есть или Y = 0 . Какой самый быстрый и самый канонический способ сделать это в...

r generalized-linear-model logistic

50

Книги для изучения статистики с использованием R Какую именно книгу я ищу. То, что я ищу, это книга, которая обучает вас статистике, используя R, чтобы дать вам практический опыт и, таким образом, в конечном итоге помогает вам изучать R вместе. Я видел на Амазонке много книг, которые пытаются это...

r references

50

Кто-нибудь знает хорошее программное обеспечение с открытым исходным кодом для визуализации данных из базы данных?

Недавно я наткнулся на Tableau и попытался визуализировать данные из базы данных и CSV-файла. Пользовательский интерфейс позволяет пользователю визуализировать временные и пространственные данные и мгновенно создавать графики. Такой инструмент действительно полезен, так как позволяет графически...

data-visualization software interactive-visualization

50

Быстрая линейная регрессия, устойчивая к выбросам

Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем...

regression linear-model outliers robust fused-lasso

50

В чем разница в байесовской оценке и оценке максимального правдоподобия?

Пожалуйста, объясните мне разницу в байесовской оценке и оценке максимального

bayesian maximum-likelihood

50

Кластеризация с K-Means и EM: как они связаны?

Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как...

machine-learning clustering data-mining k-means expectation-maximization

50

Есть ли разница между «контролем» и «игнорированием» других переменных в множественной регрессии?

Коэффициент объясняющей переменной в множественной регрессии говорит нам о связи этой объясняющей переменной с зависимой переменной. Все это, одновременно «контролируя» другие объясняющие переменные. Как я видел это до сих пор: Пока каждый коэффициент вычисляется, другие переменные не учитываются,...

regression multiple-regression

50

Как лучше всего запомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывом?

Несмотря на то, что я видел эти термины 502847894789 раз, я на всю жизнь не могу вспомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывчивостью. Это довольно простые понятия, но имена для меня совершенно не интуитивны, поэтому я постоянно путаю их друг с другом. Что...

terminology accuracy sensitivity-specificity

50

Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?

Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?...

regression machine-learning feature-selection random-forest regression-strategies

50

Почему ANOVA эквивалентен линейной регрессии?

Я читал, что ANOVA и линейная регрессия - это одно и то же. Как это может быть, учитывая, что выход ANOVA представляет собой некоторое значение и некоторое значение на основании которого вы заключаете, что выборка означает, что для разных выборок значения одинаковы или различны.pFFFпpp Но если...

regression anova