Статистика и большие данные

51
Случайный лес - это алгоритм повышения?

Краткое определение повышения : Может ли группа слабых учеников создать одного сильного ученика? Слабый ученик определяется как классификатор, который лишь незначительно коррелирует с истинной классификацией (он может маркировать примеры лучше, чем случайные догадки). Краткое определение случайного...

51
Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?

Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый...

50
Правильное написание (капитализация, курсив, перенос слов) «р-значение»?

Я понимаю, что это педантично и банально, но как исследователь в области вне статистики, с ограниченным формальным образованием в области статистики, я всегда задаюсь вопросом, правильно ли я пишу «р-значение». В частности: Предполагается ли заглавная буква "p"? Предполагается, что буква «р»...

50
Рекомендуемые книги по дизайну эксперимента?

Каковы рекомендации панели для книг по оформлению экспериментов? В идеале книги должны быть в печатном виде или доступны в электронном виде, хотя это не всегда возможно. Если вы хотите добавить пару слов о том, что хорошего в книге, это было бы здорово. Кроме того, стремитесь к одной книге за...

50
Как мы определяем «воспроизводимые исследования»?

Это возникло в нескольких вопросах сейчас, и мне было интересно о чем-то. Переместилось ли поле в целом к ​​«воспроизводимости» с акцентом на доступность исходных данных и рассматриваемого кода? Меня всегда учили, что ядром воспроизводимости не обязательно является, как я уже говорил, возможность...

50
В чем разница между N и N-1 в расчете дисперсии населения?

Я не понял, почему есть Nи N-1при расчете дисперсии населения. Когда мы используем Nи когда мы используем N-1? Нажмите здесь, чтобы увеличить версию Это говорит о том, что когда население очень большое, нет разницы между N и N-1, но это не говорит о том, почему существует N-1 в начале. Изменить:...

50
Книга для чтения перед элементами статистического обучения?

Основываясь на этом посте , я хочу переварить элементы статистического обучения. К счастью, он доступен бесплатно, и я начал его читать. У меня недостаточно знаний, чтобы понять это. Можете ли вы порекомендовать книгу, которая является лучшим введением в темы книги? Надеюсь, что-то, что даст мне...

50
Получение прогнозных значений (Y = 1 или 0) из модели логистической регрессии

Допустим, у меня есть объект класса glm(соответствующий модели логистической регрессии), и я хотел бы превратить предсказанные вероятности, заданные с predict.glmпомощью аргумента, type="response"в двоичные ответы, то есть или Y = 0 . Какой самый быстрый и самый канонический способ сделать это в...

50
Какую книгу рекомендуется начинать изучать статистику одновременно с использованием R?

Книги для изучения статистики с использованием R Какую именно книгу я ищу. То, что я ищу, это книга, которая обучает вас статистике, используя R, чтобы дать вам практический опыт и, таким образом, в конечном итоге помогает вам изучать R вместе. Я видел на Амазонке много книг, которые пытаются это...

50
Кто-нибудь знает хорошее программное обеспечение с открытым исходным кодом для визуализации данных из базы данных?

Недавно я наткнулся на Tableau и попытался визуализировать данные из базы данных и CSV-файла. Пользовательский интерфейс позволяет пользователю визуализировать временные и пространственные данные и мгновенно создавать графики. Такой инструмент действительно полезен, так как позволяет графически...

50
Быстрая линейная регрессия, устойчивая к выбросам

Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем...

50
Кластеризация с K-Means и EM: как они связаны?

Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как...

50
Есть ли разница между «контролем» и «игнорированием» других переменных в множественной регрессии?

Коэффициент объясняющей переменной в множественной регрессии говорит нам о связи этой объясняющей переменной с зависимой переменной. Все это, одновременно «контролируя» другие объясняющие переменные. Как я видел это до сих пор: Пока каждый коэффициент вычисляется, другие переменные не учитываются,...

50
Как лучше всего запомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывом?

Несмотря на то, что я видел эти термины 502847894789 раз, я на всю жизнь не могу вспомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывчивостью. Это довольно простые понятия, но имена для меня совершенно не интуитивны, поэтому я постоянно путаю их друг с другом. Что...

50
Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?

Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?...

50
Почему ANOVA эквивалентен линейной регрессии?

Я читал, что ANOVA и линейная регрессия - это одно и то же. Как это может быть, учитывая, что выход ANOVA представляет собой некоторое значение и некоторое значение на основании которого вы заключаете, что выборка означает, что для разных выборок значения одинаковы или различны.pFFFпpp Но если...