Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

542
Как выбрать количество скрытых слоев и узлов в нейронной сети с прямой связью?

Существует ли стандартный и общепринятый метод выбора количества слоев и количества узлов в каждом слое в нейронной сети с прямой связью? Я заинтересован в автоматизированных способах построения нейронных...

474
В чем разница между «вероятностью» и «вероятностью»?

На странице википедии утверждается, что вероятность и вероятность - это разные понятия. На нетехническом языке «правдоподобие» обычно является синонимом «вероятности», но при статистическом использовании существует четкое различие в перспективе: число, которое является вероятностью некоторых...

438
Какая интуиция стоит за бета-дистрибутивом?

Отказ от ответственности: я не статистика, а инженер-программист. Большая часть моих знаний в области статистики основана на самообразовании, поэтому у меня все еще есть много пробелов в понимании концепций, которые могут показаться здесь банальными для других людей. Поэтому я был бы очень...

431
В чем разница между набором тестов и набором валидации?

Я нахожу это странным, когда использую набор инструментов нейронной сети в Matlab. Он разделил необработанные данные на три части: Обучающий набор проверочный набор тестовый набор Я заметил, что во многих алгоритмах обучения или обучения данные часто делятся на 2 части: тренировочный набор и...

420
Две культуры: статистика против машинного обучения?

В прошлом году я прочитал запись в блоге Брендана О'Коннора под названием «Статистика против машинного обучения, сражайтесь!» что обсудили некоторые различия между этими двумя областями. Эндрю Гельман положительно отреагировал на это : Саймон Бломберг: Из пакета R's fortunes: перефразирующе:...

365
Как понять недостатки К-средних

K-means - широко используемый метод в кластерном анализе. В моем понимании, этот метод НЕ требует ЛЮБЫХ предположений, т. Е. Дает мне набор данных и заранее определенное количество кластеров, k, и я просто применяю этот алгоритм, который минимизирует сумму квадратов ошибок (SSE), в квадрате внутри...

355
Python как инструмент статистики

Многие люди используют основной инструмент, такой как Excel или другую электронную таблицу, SPSS, Stata или R, для своих статистических нужд. Они могут обратиться к какому-то конкретному пакету для очень особых нужд, но многое можно сделать с помощью простой электронной таблицы или пакета общей...

352
Отношения между СВД и СПС. Как использовать SVD для выполнения PCA?

Анализ главных компонент (PCA) обычно объясняется с помощью собственного разложения ковариационной матрицы. Тем не менее, он также может быть выполнен с помощью сингулярного разложения (SVD) матриц данных XИкс\mathbf X . Как это работает? Какова связь между этими двумя подходами? Какая связь между...

326
Объяснение мирянам, почему работает самозагрузка

Недавно я использовал начальную загрузку для оценки доверительных интервалов для проекта. Кто-то, кто мало знает о статистике, недавно попросил меня объяснить, почему работает самозагрузка, т. Е. Почему повторная выборка одной и той же выборки снова и снова дает хорошие результаты. Я понял, что...

302
Что произойдет, если переменные объяснения и ответа отсортированы независимо перед регрессией?

Предположим, у нас есть набор данных с точками. Мы хотим выполнить линейную регрессию, но сначала мы сортируем значения и независимо друг от друга, формируя набор данных . Есть ли какая-либо значимая интерпретация регрессии в новом наборе данных? У этого есть имя?n X i Y i ( X i , Y j )( Xя,...

299
Разница между логитовой и пробитной моделями

В чем разница между моделью Logit и Probit ? Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать Probit. Если есть какая-либо литература, которая определяет это, используя R , это также было бы...

298
Является ли тестирование нормальности «по существу бесполезным»?

Бывший коллега однажды сказал мне следующее: Обычно мы применяем тесты нормальности к результатам процессов, которые при нулевом значении генерируют случайные переменные, которые являются только асимптотически или почти нормальными (с «асимптотически» частью, зависящей от некоторой величины,...

281
При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?

В какой-то литературе я читал, что необходимо стандартизировать регрессию с несколькими объясняющими переменными, если они в разных единицах. (Стандартизация заключается в вычитании среднего значения и делении на стандартное отклонение.) В каких других случаях мне нужно стандартизировать мои...

267
Как нормализовать данные в диапазоне 0-1?

Я потерян в нормировании, может кто-нибудь направит меня, пожалуйста. У меня есть минимальное и максимальное значения, скажем, -23,89 и 7,54990767 соответственно. Если я получу значение 5,6878, как я могу масштабировать это значение по шкале от 0 до...

246
Что означает значения p и t в статистических тестах?

Пройдя курс статистики и затем пытаясь помочь сокурсникам, я заметил, что один предмет, который вызывает много шума, - это интерпретация результатов статистических проверок гипотез. Кажется, что студенты легко учатся выполнять вычисления, требуемые данным тестом, но зацикливаются на интерпретации...