Статистика и большие данные

50

Я читал о разложении сингулярных значений (SVD). Почти во всех учебниках упоминается, что она разбивает матрицу на три матрицы с заданной спецификацией. Но какова интуиция, лежащая в основе разделения матрицы в такой форме? PCA и другие алгоритмы уменьшения размерности интуитивно понятны в том...

50

Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых...

regression categorical-data data-transformation scikit-learn data-preprocessing

49

Что такое случайные переменные?

Как бы вы объяснили iid (независимый и одинаково распространяемый) нетехническим

random-variable intuition

49

Бутстрап против Джекниф

Как методы начальной загрузки, так и методы складного ножа могут быть использованы для оценки систематической ошибки и стандартной ошибки оценки, а механизмы обоих методов повторной выборки не сильно отличаются: выборка с заменой против пропуска одного наблюдения за раз. Тем не менее, складной нож...

r confidence-interval bootstrap jackknife

49

В чем разница между случайными эффектами, фиксированными эффектами и предельной моделью?

Я пытаюсь расширить свои знания в области статистики. Я родом из области физических наук с «основанным на рецептах» подходом к статистическому тестированию, где мы говорим, является ли оно непрерывным, нормально ли оно распределено - регрессия OLS . В моем чтении я встретил термины: модель...

random-effects-model fixed-effects-model marginal

49

Как следует интерпретировать сравнение средств из разных размеров выборки?

Возьмите случай с рейтингами книг на сайте. Книгу А оценивают 10000 человек со средним рейтингом 4,25 и дисперсией . Точно так же книга B оценивается 100 людьми и имеет рейтинг 4,5 с .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Теперь из-за большого размера выборки Книги А «среднее значение...

t-test mean sample-size

49

Вводит ли Amazon в заблуждение «средний рейтинг»?

Если я правильно понимаю, рейтинги книг по шкале от 1 до 5 - это баллы Лайкерта. То есть 3 для меня не обязательно может быть 3 для кого-то еще. Это порядковая шкала ИМО. На самом деле не следует усреднять порядковые шкалы, но определенно можно выбрать моду, медиану и процентили. Так можно ли...

mean ordinal-data likert

49

Время вычисления случайного леса в R

Я использую пакет party в R с 10 000 строк и 34 функциями, а некоторые факторные функции имеют более 300 уровней. Время вычислений слишком велико. (Это заняло 3 часа и еще не закончено.) Я хочу знать, какие элементы оказывают большое влияние на время вычислений случайного леса. Есть ли факторы со...

r random-forest

49

Вычисление значения P вручную из t-значения в t-тесте

У меня есть образец набора данных с 31 значениями. Я выполнил двусторонний t-тест, используя R, чтобы проверить, равно ли истинное среднее значение 10: t.test(x=data, mu=10, conf.level=0.95) Выход: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95...

r statistical-significance t-test p-value

49

Почему коэффициент корреляции между случайными величинами X и XY имеет тенденцию быть 0,7

Взято из Практической статистики для медицинских исследований, где Дуглас Альтман пишет на странице 285: ... для любых двух величин X и Y X будет коррелировать с XY. Действительно, даже если X и Y являются выборками случайных чисел, мы ожидаем, что корреляция X и XY будет 0,7 Я попробовал это в R,...

correlation random-variable intuition

49

Как регрессия, t-критерий и ANOVA являются всеми версиями общей линейной модели?

Как они все версии одного и того же базового статистического

regression self-study anova generalized-linear-model t-test

49

Показатели эффективности для оценки обучения без учителя

Что касается неконтролируемого обучения (например, кластеризации), есть ли какие-либо показатели для оценки

machine-learning clustering data-mining unsupervised-learning

49

Почему логистическая регрессия является линейным классификатором?

Поскольку мы используем логистическую функцию для преобразования линейной комбинации входных данных в нелинейный выход, как логистическую регрессию можно считать линейным классификатором? Линейная регрессия похожа на нейронную сеть без скрытого слоя, так почему же нейронные сети считаются...

logistic classification neural-networks

49

Насколько большим должен быть размер партии для стохастического градиентного спуска?

Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер...

machine-learning neural-networks gradient-descent backpropagation

49

Порог вероятности классификации

У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос...

machine-learning classification binary-data threshold

48

Какой ваш любимый блог по визуализации данных?

Какой лучший блог по визуализации данных? Я делаю этот вопрос вики-сообществом, так как это очень субъективно. Пожалуйста, ограничьте каждый ответ одной ссылкой. Обратите внимание на следующие критерии для предложенных ответов: [A] приемлемые ответы на подобные вопросы ... необходимо предоставить...

data-visualization references

48

Каков хороший алгоритм для оценки медианы огромного набора данных с однократным чтением?

Я ищу хороший алгоритм (подразумевающий минимальные вычисления, минимальные требования к хранилищу) для оценки медианы набора данных, который слишком велик для хранения, так что каждое значение может быть прочитано только один раз (если вы явно не сохраните это значение). На данных, которые можно...

algorithms median large-data

48

В чем разница между NaN и NA?

Я хотел бы знать, почему некоторые языки, такие как R, имеют как NA, так и NaN. В чем различия или они одинаково одинаковы? Действительно ли нужно иметь

r

48

Как определить бимодальное распределение?

Я понимаю, что как только мы построим значения в виде диаграммы, мы сможем определить бимодальное распределение, наблюдая за двумя пиками, но как найти его программно? (Я ищу...

distributions

48

Является ли хи-квадрат всегда односторонним тестом?

Опубликованная статья ( pdf ) содержит эти 2 предложения: Кроме того, искажение информации может быть вызвано применением неправильных правил или недостаточным знанием статистического теста. Например, общее значение df в ANOVA может быть принято за ошибку df в отчете о тесте, или исследователь...

hypothesis-testing chi-squared