Статистика и большие данные

141

Каковы преимущества ReLU перед сигмовидной функцией в глубоких нейронных сетях?

Уровень техники нелинейности заключается в использовании выпрямленных линейных единиц (ReLU) вместо сигмовидной функции в глубокой нейронной сети. Каковы преимущества? Я знаю, что тренировка сети при использовании ReLU будет быстрее, и она будет более биологически вдохновленной, каковы другие...

machine-learning neural-networks deep-learning

141

Как именно один «контролирует другие переменные»?

Вот статья, которая мотивировала этот вопрос: неужели нетерпение делает нас толстыми? Мне понравилась эта статья, и она хорошо демонстрирует концепцию «контроля за другими переменными» (IQ, карьера, доход, возраст и т. Д.), Чтобы наилучшим образом выделить истинные отношения только между двумя...

regression causality confounding controlling-for-a-variable statistics-in-media

140

Обучение с полным набором данных после перекрестной проверки?

Всегда ли полезно тренироваться с полным набором данных после перекрестной проверки ? Другими словами, можно ли тренироваться со всеми образцами в моем наборе данных и не иметь возможности проверить, подходит ли этот конкретный пример ? Некоторые предыстории проблемы: Скажем, у меня есть семейство...

machine-learning cross-validation model-selection

139

Вопрос об интервью Amazon - вероятность второго интервью

Я получил этот вопрос во время интервью с Amazon: 50% всех людей, которые получают первое интервью, получают второе интервью 95% ваших друзей, которые получили второе интервью, чувствовали, что у них было хорошее первое интервью 75% ваших друзей, которые НЕ получили второе интервью, считают, что у...

probability conditional-probability

138

Facebook подходит к концу?

В последнее время эта статья привлекла большое внимание (например, из WSJ ). По сути, авторы приходят к выводу, что Facebook потеряет 80% своих членов к 2017 году. Они основывают свои требования на экстраполяции модели SIR , компартментальной модели, часто используемой в эпидемиологии. Их данные...

hypothesis-testing correlation epidemiology social-network

136

Выбор K в K-кратной перекрестной проверке

Я использую в -кратной перекрестной проверки несколько раз сейчас , чтобы оценить производительность некоторых алгоритмов обучения, но я всегда был озадачен о том , как я должен выбрать значение .КKКKKКK Я часто видел и использовал значение , но мне это кажется совершенно произвольным, и теперь я...

machine-learning classification cross-validation

134

Какое влияние оказывает C на SVM с линейным ядром?

В настоящее время я использую SVM с линейным ядром для классификации моих данных. На тренировочном наборе ошибок нет. Я перепробовал несколько значений параметра ( 10 - 5 , … , 10 2 ). Это не изменило ошибку на тестовом наборе.СCC10- 5, … , 10210−5,…,10210^{-5}, \dots, 10^2 Теперь я задаюсь...

machine-learning svm libsvm

133

Список функций стоимости, используемых в нейронных сетях, наряду с приложениями

Какие функции общих затрат используются при оценке производительности нейронных сетей? подробности (не стесняйтесь пропустить остальную часть этого вопроса, мое намерение здесь состоит в том, чтобы просто дать пояснение по обозначению, которое ответы могут использовать, чтобы помочь им быть более...

machine-learning neural-networks

133

В чем разница между анализом главных компонентов и многомерным масштабированием?

Чем отличаются PCA и классический MDS? Как насчет МДС и неметрических МДС? Есть ли время, когда вы бы предпочли одно над другим? Чем отличаются

pca multidimensional-scaling pcoa

133

Как определить, какое распределение лучше всего подходит для моих данных?

У меня есть набор данных, и я хочу выяснить, какое распределение лучше всего подходит для моих данных. Я использовал fitdistr()функцию для оценки необходимых параметров для описания предполагаемого распределения (т. Е. Вейбулла, Коши, Нормаль). Используя эти параметры, я могу провести тест...

r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

132

Почему метод Ньютона не широко используется в машинном обучении?

Это то, что беспокоило меня какое-то время, и я не смог найти удовлетворительных ответов в Интернете, так что вот так: После рассмотрения ряда лекций по выпуклой оптимизации метод Ньютона, по-видимому, является гораздо более совершенным алгоритмом, чем градиентный спуск, для поиска глобально...

machine-learning optimization gradient-descent hessian

131

Каппа Коэна на простом английском

Я читаю книгу по интеллектуальному анализу данных, в которой упоминается статистика Каппа как средство оценки эффективности прогнозирования классификаторов. Однако я просто не могу этого понять. Я также проверил Википедию, но это тоже не помогло: https://en.wikipedia.org/wiki/Cohen's_kappa . Как...

classification data-mining cohens-kappa

129

Являются ли большие наборы данных неподходящими для проверки гипотез?

В недавней статье в Amstat Новости , авторы (Марк ван дер Лан и Шерри Роуз) заявил , что «Мы знаем , что для достаточно больших размеров выборки, каждое исследование, в том числе те , в которых нулевая гипотеза об отсутствии эффекта верно - будет объявить статистически значимый эффект. Ну, я,...

hypothesis-testing sample-size dataset large-data

127

Получение знаний из случайного леса

Случайные леса считаются черными ящиками, но недавно я подумал, какие знания можно получить из случайного леса? Наиболее очевидной вещью является важность переменных, в простейшем варианте это можно сделать, просто рассчитав количество вхождений переменной. Второе, о чем я думал, это...

machine-learning data-mining interaction random-forest cart

127

Объяснение расстояния Махаланобиса снизу вверх?

Я изучаю распознавание образов и статистику, и почти в каждой книге, которую я открываю на эту тему, я сталкиваюсь с концепцией расстояния Махаланобиса . Книги дают интуитивно понятные объяснения, но все еще недостаточно хороши для того, чтобы я действительно мог понять, что происходит. Если бы...

normal-distribution mathematical-statistics distance pattern-recognition intuition

127

Какая разница между дисперсией и стандартным отклонением?

Мне было интересно, какова разница между дисперсией и стандартным отклонением. Если вы рассчитываете два значения, становится ясно, что вы получаете стандартное отклонение от дисперсии, но что это означает с точки зрения распределения, которое вы наблюдаете? Кроме того, зачем вам стандартное...

variance mathematical-statistics standard-deviation

125

Помогите мне понять байесовские априорные и последующие распределения

В группе студентов 2 из 18 левши. Найти апостериорное распределение учеников-левшей в популяции, предполагая неинформативный априорный анализ. Подведите итоги. По данным литературы, 5-20% людей - левши. Примите эту информацию во внимание в вашем предыдущем и вычислите новое заднее. Я знаю, что...

distributions bayesian prior posterior

125

В чем разница между непротиворечивой оценкой и объективной оценкой?

Я действительно удивлен, что никто, кажется, не спросил это уже ... При обсуждении оценщиков часто используются два термина: «последовательный» и «беспристрастный». Мой вопрос прост: какая разница? Точные технические определения этих терминов довольно сложны, и сложно понять, что они означают . Я...

unbiased-estimator estimators consistency

123

В чем разница между сверточными нейронными сетями, ограниченными машинами Больцмана и автокодерами?

Недавно я читал о глубоком обучении, и я запутался в терминах (или, скажем, технологиях). В чем разница между Сверточные нейронные сети (CNN), Ограниченные машины Больцмана (RBM) и Авто-кодеры?...

neural-networks deep-learning conv-neural-network autoencoders rbm

123

Корреляции с неупорядоченными категориальными переменными

У меня есть датафрейм со многими наблюдениями и многими переменными. Некоторые из них являются категориальными (неупорядоченными), а другие числовыми. Я ищу ассоциации между этими переменными. Я был в состоянии вычислить корреляцию для числовых переменных (корреляция Спирмена), но: Я не знаю, как...

r correlation categorical-data continuous-data mixed-type-data