Статистика и большие данные

241

Почему евклидово расстояние не является хорошим показателем в больших измерениях?

Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100...

240

Как бы вы объяснили Маркову цепь Монте-Карло (MCMC) непрофессионалу?

Может быть, концепция, почему она используется, и

bayesian mcmc intuition teaching

234

Является полезно или опасно?

Я просматривал некоторые лекционные заметки Космы Шализи (в частности, раздел 2.1.1 второй лекции ), и мне напомнили, что вы можете получить очень низкий даже если у вас полностью линейная модель.R2R2R^2 Перефразируя пример Шализи: предположим, у вас есть модель , где известен. Тогда и количество...

regression r-squared

234

Интерпретация результатов R's lm ()

Страницы справки в R предполагают, что я знаю, что означают эти цифры, но я не знаю. Я пытаюсь действительно интуитивно понять каждый номер здесь. Я просто опубликую результаты и прокомментирую то, что узнал. Могут быть (будут) ошибки, так как я просто напишу, что я предполагаю. В основном я хотел...

r regression interpretation

229

В чем разница между доверительным интервалом и достоверным интервалом?

Обмен Джорис и Шрикант здесь заставил меня задуматься (опять же), были ли мои внутренние объяснения разницы между доверительными интервалами и достоверными интервалами правильными. Как бы вы объяснили...

bayesian confidence-interval frequentist credible-interval fiducial

228

Почему 95% доверительный интервал (КИ) не подразумевает 95% вероятности удержания среднего значения?

Похоже, что из-за различных связанных с этим вопросов существует консенсус, что «95%» часть того, что мы называем «95% доверительный интервал», относится к тому факту, что если бы мы точно повторяли наши процедуры выборки и вычисления CI много раз 95% рассчитанных таким образом КИ будут содержать...

probability confidence-interval sampling mean population

228

Что означает AUC и что это такое?

Искал высоко и низко и не смог выяснить, что AUC, как в отношении прогноза, означает или

classification prediction roc auc abbreviation

227

Каковы общие статистические грехи?

Я аспирант по психологии, и, поскольку я продолжаю заниматься независимой статистикой, я все больше поражаюсь неадекватности моего формального обучения. Как личный, так и личный опыт подсказывает, что недостаток статистической строгости в обучении студентов и аспирантов довольно распространен в...

fallacy

222

Есть ли основания предпочитать AIC или BIC другим?

AIC и BIC - оба метода оценки соответствия модели, оштрафованные за количество оцениваемых параметров. Насколько я понимаю, BIC штрафует модели за свободные параметры больше, чем AIC. Помимо предпочтений, основанных на строгости критериев, есть ли другие причины отдавать предпочтение AIC, а не BIC...

modeling aic cross-validation bic model-selection

222

Размер пакета в зависимости от количества итераций для обучения нейронной сети

При обучении нейронной сети, какое значение это имеет для установки: размер партии до и количество итераций доaaabbb От размера пакета до и количества итераций доcccddd где ?ab=cdab=cd ab = cd Иными словами, предположим, что мы обучаем нейронную сеть с одинаковым количеством обучающих примеров, как...

neural-networks train

215

Каковы различия между факторным анализом и анализом основных компонентов?

Кажется, что ряд статистических пакетов, которые я использую, объединяют эти два понятия. Тем не менее, мне интересно, есть ли разные предположения или «формальности» данных, которые должны быть верны, чтобы использовать одно над другим. Реальный пример был бы невероятно...

pca factor-analysis

208

В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом?

В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом? Правильно ли будет сказать, что это 4 поля, пытающиеся решить очень похожие проблемы, но с разными подходами? Что именно у них общего и чем они отличаются? Если бы между ними была какая-то иерархия, что...

machine-learning data-mining

207

Как бы вы объяснили ковариацию тому, кто понимает только среднее?

... предполагая, что я могу расширить их знания об отклонениях интуитивно (интуитивно понимая «дисперсию» ) или сказав: это среднее расстояние между значениями данных и «средним» - и поскольку дисперсия находится в квадрате единицы, мы берем квадратный корень, чтобы сохранить единицы, и это...

variance covariance intuition

207

Как узнать, что ваша проблема машинного обучения безнадежна?

Представьте себе стандартный сценарий машинного обучения: Вы сталкиваетесь с большим многомерным набором данных, и у вас довольно размытое понимание этого. Что вам нужно сделать, это сделать прогноз о некоторой переменной на основе того, что у вас есть. Как обычно, вы очищаете данные,...

machine-learning forecasting modeling model-selection forecastability

197

Какое «средство» использовать и когда?

Таким образом, мы имеем среднее арифметическое (AM), среднее геометрическое (GM) и среднее гармоническое (HM). Их математическая формулировка также хорошо известна наряду со связанными с ними стереотипными примерами (например, среднее гармоническое и его применение для решения проблем, связанных с...

mean

193

Алгоритмы автоматического выбора модели

Я хотел бы реализовать алгоритм автоматического выбора модели. Я имею в виду пошаговую регрессию, но все будет хорошо (хотя она должна основываться на линейных регрессиях). Моя проблема в том, что я не могу найти методологию или реализацию с открытым исходным кодом (я просыпаюсь в Java)....

references feature-selection model-selection aic stepwise-regression

192

Каков лучший вводный учебник по байесовской статистике?

Какой учебник по байесовской статистике является лучшим вводным? Одна книга за ответ,

bayesian references

191

Как мне преобразовать неотрицательные данные, включая нули?

Если у меня сильно искажены положительные данные, я часто беру логи. Но что мне делать с сильно искаженными неотрицательными данными, которые содержат нули? Я видел два использованных преобразования: журнал( х + 1 )log⁡(x+1)\log(x+1) который имеет аккуратную особенность, которая 0 отображается на...

data-transformation large-data

187

Что вычисляет скрытый слой в нейронной сети?

Я уверен, что многие люди ответят ссылками на «позвольте мне Google это для вас», поэтому я хочу сказать, что я пытался выяснить это, поэтому, пожалуйста, простите мое непонимание здесь, но я не могу понять, как Практическая реализация нейронной сети фактически работает. Я понимаю входной слой и...

machine-learning neural-networks nonlinear-regression

181

Как суммировать данные по группам в R? [закрыто]

У меня есть фрейм данных R, как это: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Мне нужно получить фрейм данных в следующем виде: group mean sd 1 34.5 5.6 2 32.3 4.2 ... Номер группы может отличаться, но их...

r data-transformation