Статистика и большие данные

241
Почему евклидово расстояние не является хорошим показателем в больших измерениях?

Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100...

234
Является полезно или опасно?

Я просматривал некоторые лекционные заметки Космы Шализи (в частности, раздел 2.1.1 второй лекции ), и мне напомнили, что вы можете получить очень низкий даже если у вас полностью линейная модель.R2R2R^2 Перефразируя пример Шализи: предположим, у вас есть модель , где известен. Тогда и количество...

234
Интерпретация результатов R's lm ()

Страницы справки в R предполагают, что я знаю, что означают эти цифры, но я не знаю. Я пытаюсь действительно интуитивно понять каждый номер здесь. Я просто опубликую результаты и прокомментирую то, что узнал. Могут быть (будут) ошибки, так как я просто напишу, что я предполагаю. В основном я хотел...

229
В чем разница между доверительным интервалом и достоверным интервалом?

Обмен Джорис и Шрикант здесь заставил меня задуматься (опять же), были ли мои внутренние объяснения разницы между доверительными интервалами и достоверными интервалами правильными. Как бы вы объяснили...

228
Почему 95% доверительный интервал (КИ) не подразумевает 95% вероятности удержания среднего значения?

Похоже, что из-за различных связанных с этим вопросов существует консенсус, что «95%» часть того, что мы называем «95% доверительный интервал», относится к тому факту, что если бы мы точно повторяли наши процедуры выборки и вычисления CI много раз 95% рассчитанных таким образом КИ будут содержать...

227
Каковы общие статистические грехи?

Я аспирант по психологии, и, поскольку я продолжаю заниматься независимой статистикой, я все больше поражаюсь неадекватности моего формального обучения. Как личный, так и личный опыт подсказывает, что недостаток статистической строгости в обучении студентов и аспирантов довольно распространен в...

222
Есть ли основания предпочитать AIC или BIC другим?

AIC и BIC - оба метода оценки соответствия модели, оштрафованные за количество оцениваемых параметров. Насколько я понимаю, BIC штрафует модели за свободные параметры больше, чем AIC. Помимо предпочтений, основанных на строгости критериев, есть ли другие причины отдавать предпочтение AIC, а не BIC...

222
Размер пакета в зависимости от количества итераций для обучения нейронной сети

При обучении нейронной сети, какое значение это имеет для установки: размер партии до и количество итераций доaaabbb От размера пакета до и количества итераций доcccddd где ?ab=cdab=cd ab = cd Иными словами, предположим, что мы обучаем нейронную сеть с одинаковым количеством обучающих примеров, как...

215
Каковы различия между факторным анализом и анализом основных компонентов?

Кажется, что ряд статистических пакетов, которые я использую, объединяют эти два понятия. Тем не менее, мне интересно, есть ли разные предположения или «формальности» данных, которые должны быть верны, чтобы использовать одно над другим. Реальный пример был бы невероятно...

208
В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом?

В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом? Правильно ли будет сказать, что это 4 поля, пытающиеся решить очень похожие проблемы, но с разными подходами? Что именно у них общего и чем они отличаются? Если бы между ними была какая-то иерархия, что...

207
Как бы вы объяснили ковариацию тому, кто понимает только среднее?

... предполагая, что я могу расширить их знания об отклонениях интуитивно (интуитивно понимая «дисперсию» ) или сказав: это среднее расстояние между значениями данных и «средним» - и поскольку дисперсия находится в квадрате единицы, мы берем квадратный корень, чтобы сохранить единицы, и это...

207
Как узнать, что ваша проблема машинного обучения безнадежна?

Представьте себе стандартный сценарий машинного обучения: Вы сталкиваетесь с большим многомерным набором данных, и у вас довольно размытое понимание этого. Что вам нужно сделать, это сделать прогноз о некоторой переменной на основе того, что у вас есть. Как обычно, вы очищаете данные,...

197
Какое «средство» использовать и когда?

Таким образом, мы имеем среднее арифметическое (AM), среднее геометрическое (GM) и среднее гармоническое (HM). Их математическая формулировка также хорошо известна наряду со связанными с ними стереотипными примерами (например, среднее гармоническое и его применение для решения проблем, связанных с...

193
Алгоритмы автоматического выбора модели

Я хотел бы реализовать алгоритм автоматического выбора модели. Я имею в виду пошаговую регрессию, но все будет хорошо (хотя она должна основываться на линейных регрессиях). Моя проблема в том, что я не могу найти методологию или реализацию с открытым исходным кодом (я просыпаюсь в Java)....

191
Как мне преобразовать неотрицательные данные, включая нули?

Если у меня сильно искажены положительные данные, я часто беру логи. Но что мне делать с сильно искаженными неотрицательными данными, которые содержат нули? Я видел два использованных преобразования: журнал( х + 1 )log⁡(x+1)\log(x+1) который имеет аккуратную особенность, которая 0 отображается на...

187
Что вычисляет скрытый слой в нейронной сети?

Я уверен, что многие люди ответят ссылками на «позвольте мне Google это для вас», поэтому я хочу сказать, что я пытался выяснить это, поэтому, пожалуйста, простите мое непонимание здесь, но я не могу понять, как Практическая реализация нейронной сети фактически работает. Я понимаю входной слой и...

181
Как суммировать данные по группам в R? [закрыто]

У меня есть фрейм данных R, как это: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Мне нужно получить фрейм данных в следующем виде: group mean sd 1 34.5 5.6 2 32.3 4.2 ... Номер группы может отличаться, но их...