Статистика и большие данные

50
Какая интуиция стоит за СВД?

Я читал о разложении сингулярных значений (SVD). Почти во всех учебниках упоминается, что она разбивает матрицу на три матрицы с заданной спецификацией. Но какова интуиция, лежащая в основе разделения матрицы в такой форме? PCA и другие алгоритмы уменьшения размерности интуитивно понятны в том...

50
Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых...

49
Бутстрап против Джекниф

Как методы начальной загрузки, так и методы складного ножа могут быть использованы для оценки систематической ошибки и стандартной ошибки оценки, а механизмы обоих методов повторной выборки не сильно отличаются: выборка с заменой против пропуска одного наблюдения за раз. Тем не менее, складной нож...

49
В чем разница между случайными эффектами, фиксированными эффектами и предельной моделью?

Я пытаюсь расширить свои знания в области статистики. Я родом из области физических наук с «основанным на рецептах» подходом к статистическому тестированию, где мы говорим, является ли оно непрерывным, нормально ли оно распределено - регрессия OLS . В моем чтении я встретил термины: модель...

49
Как следует интерпретировать сравнение средств из разных размеров выборки?

Возьмите случай с рейтингами книг на сайте. Книгу А оценивают 10000 человек со средним рейтингом 4,25 и дисперсией . Точно так же книга B оценивается 100 людьми и имеет рейтинг 4,5 с .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Теперь из-за большого размера выборки Книги А «среднее значение...

49
Вводит ли Amazon в заблуждение «средний рейтинг»?

Если я правильно понимаю, рейтинги книг по шкале от 1 до 5 - это баллы Лайкерта. То есть 3 для меня не обязательно может быть 3 для кого-то еще. Это порядковая шкала ИМО. На самом деле не следует усреднять порядковые шкалы, но определенно можно выбрать моду, медиану и процентили. Так можно ли...

49
Время вычисления случайного леса в R

Я использую пакет party в R с 10 000 строк и 34 функциями, а некоторые факторные функции имеют более 300 уровней. Время вычислений слишком велико. (Это заняло 3 часа и еще не закончено.) Я хочу знать, какие элементы оказывают большое влияние на время вычислений случайного леса. Есть ли факторы со...

49
Вычисление значения P вручную из t-значения в t-тесте

У меня есть образец набора данных с 31 значениями. Я выполнил двусторонний t-тест, используя R, чтобы проверить, равно ли истинное среднее значение 10: t.test(x=data, mu=10, conf.level=0.95) Выход: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95...

49
Почему коэффициент корреляции между случайными величинами X и XY имеет тенденцию быть 0,7

Взято из Практической статистики для медицинских исследований, где Дуглас Альтман пишет на странице 285: ... для любых двух величин X и Y X будет коррелировать с XY. Действительно, даже если X и Y являются выборками случайных чисел, мы ожидаем, что корреляция X и XY будет 0,7 Я попробовал это в R,...

49
Почему логистическая регрессия является линейным классификатором?

Поскольку мы используем логистическую функцию для преобразования линейной комбинации входных данных в нелинейный выход, как логистическую регрессию можно считать линейным классификатором? Линейная регрессия похожа на нейронную сеть без скрытого слоя, так почему же нейронные сети считаются...

49
Насколько большим должен быть размер партии для стохастического градиентного спуска?

Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер...

49
Порог вероятности классификации

У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос...

48
Какой ваш любимый блог по визуализации данных?

Какой лучший блог по визуализации данных? Я делаю этот вопрос вики-сообществом, так как это очень субъективно. Пожалуйста, ограничьте каждый ответ одной ссылкой. Обратите внимание на следующие критерии для предложенных ответов: [A] приемлемые ответы на подобные вопросы ... необходимо предоставить...

48
Каков хороший алгоритм для оценки медианы огромного набора данных с однократным чтением?

Я ищу хороший алгоритм (подразумевающий минимальные вычисления, минимальные требования к хранилищу) для оценки медианы набора данных, который слишком велик для хранения, так что каждое значение может быть прочитано только один раз (если вы явно не сохраните это значение). На данных, которые можно...

48
В чем разница между NaN и NA?

Я хотел бы знать, почему некоторые языки, такие как R, имеют как NA, так и NaN. В чем различия или они одинаково одинаковы? Действительно ли нужно иметь

48
Является ли хи-квадрат всегда односторонним тестом?

Опубликованная статья ( pdf ) содержит эти 2 предложения: Кроме того, искажение информации может быть вызвано применением неправильных правил или недостаточным знанием статистического теста. Например, общее значение df в ANOVA может быть принято за ошибку df в отчете о тесте, или исследователь...