Вопросы с тегом «machine-learning»

21

Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

21

Перекрестная проверка (обобщение ошибок) после выбора модели

Примечание: регистр n >> p Я читаю Элементы статистического обучения, и есть различные упоминания о «правильном» способе перекрестной проверки (например, стр. 60, стр. 245). В частности, мой вопрос заключается в том, как оценить итоговую модель (без отдельного набора тестов) с использованием...

machine-learning model-selection data-mining cross-validation

21

Как выбрать между алгоритмами обучения

Мне нужно реализовать программу, которая будет классифицировать записи на 2 категории (истина / ложь) на основе некоторых обучающих данных, и мне было интересно, какой алгоритм / методология мне следует рассмотреть. Кажется, из них есть из чего выбирать - искусственная нейронная сеть, генетический...

machine-learning bayesian optimization genetic-algorithms

21

Являются ли деревья решений почти всегда бинарными деревьями?

Почти каждый пример дерева решений, с которым я сталкивался, является двоичным деревом. Это в значительной степени универсально? Поддерживает ли большинство стандартных алгоритмов (C4.5, CART и т. Д.) Только двоичные деревья? Из того, что я понял , CHAID не ограничивается бинарными деревьями, но...

machine-learning data-mining cart

21

Как предсказать результат только с положительными случаями в качестве обучения?

Ради простоты, скажем, я работаю над классическим примером писем со спамом / без спама. У меня есть набор из 20000 писем. Из них я знаю, что 2000 являются спамом, но у меня нет примеров писем, не являющихся спамом. Я хотел бы предсказать, являются ли оставшиеся 18000 спамом или нет. В идеале,...

machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

21

В какой степени различие между корреляцией и причинностью имеет отношение к Google?

контекст Популярный вопрос на этом сайте: « Каковы общие статистические грехи? ». Один из грехов упоминалось при условии , что «корреляция подразумевает причинно - следственную связь ...» ссылка Затем в комментариях с 5 ответами предлагается: «Google зарабатывает 65 миллиардов долларов в год, не...

machine-learning causality

21

Должен ли я принимать решения на основе микро-усредненных или макро-усредненных мер оценки?

Я провел 10-кратную перекрестную проверку по различным алгоритмам двоичной классификации с одним и тем же набором данных и получил результаты, усредненные как на микро-, так и на макроуровне. Следует отметить, что это была проблема классификации по нескольким меткам. В моем случае истинные негативы...

machine-learning cross-validation

21

Как узнать, являются ли данные линейно разделимыми?

Данные имеют много функций (например, 100), а количество экземпляров равно 100 000. Данные редки. Я хочу соответствовать данным, используя логистическую регрессию или SVM. Как я узнаю, являются ли объекты линейными или нелинейными, чтобы я мог использовать трюк ядра, если он...

machine-learning logistic svm data-mining

21

Разница между скрытыми марковскими моделями и фильтром частиц (и фильтром Калмана)

Вот мой старый вопрос Я хотел бы спросить, знает ли кто-нибудь разницу (если есть какая-либо разница) между скрытыми марковскими моделями (HMM) и Particle Filter (PF), и, как следствие, Kalman Filter, или при каких обстоятельствах мы используем какой алгоритм. Я студент, и я должен сделать проект,...

machine-learning self-study hidden-markov-model kalman-filter particle-filter

21

Каковы преимущества использования ReLU по сравнению с softplus в качестве функций активации?

Часто упоминается, что выпрямленные линейные единицы (ReLU) вытеснили единицы softplus, потому что они линейны и быстрее вычисляются. Есть ли у softplus преимущество в том, что оно вызывает редкость или оно ограничено ReLU? Причина, по которой я спрашиваю, заключается в том, что я задаюсь вопросом...

machine-learning neural-networks

21

Как и почему Пакетная нормализация использует скользящие средние для отслеживания точности модели во время обучения?

Я читал статью о пакетной нормализации (BN) (1) и не понимал необходимости использовать скользящие средние для отслеживания точности модели, и даже если я признал, что это было правильно, я не понимаю что они делают точно. Насколько я понимаю (что я могу ошибаться), в статье упоминается, что она...

machine-learning neural-networks deep-learning conv-neural-network batch-normalization

21

Ограниченная машина Больцмана: как она используется в машинном обучении?

Задний план: Да, Restricted Boltzmann Machine (RBM) МОЖЕТ использоваться для инициации весов нейронной сети. Также он МОЖЕТ использоваться «послойным» способом для построения сети глубокого убеждения (то есть для обучения уровня на вершине ( n - 1 ) -го уровня, а затем для обучения n + 1-й слой...

machine-learning neural-networks deep-learning deep-belief-networks rbm

21

Сравнение кластеров: индекс Рэнда и вариация информации

Мне было интересно, есть ли у кого-нибудь понимание или интуиция, стоящие за разницей между вариацией информации и индексом Рэнда для сравнения кластеризаций. Я прочитал статью Марины Мелии « Сравнение кластеризаций - расстояние, основанное на информации » (Журнал многомерного анализа, 2007), но,...

machine-learning clustering metric

21

Потеря обучения увеличивается со временем [дубликат]

На этот вопрос уже есть ответы здесь : Как изменение функции стоимости может быть положительным? (1 ответ) Что мне делать, если моя нейронная сеть не учится? (5 ответов) Закрыто в прошлом месяце . Я тренирую модель (Recurrent Neural Network), чтобы классифицировать 4 типа последовательностей. Во...

machine-learning neural-networks loss-functions rnn training-error

21

Первый шаг для больших данных ( , )

Предположим, вы анализируете огромный набор данных из миллиардов наблюдений в день, где каждое наблюдение имеет несколько тысяч разреженных и, возможно, избыточных числовых и категориальных переменных. Скажем, есть одна проблема регрессии, одна проблема неуравновешенной двоичной классификации и...

r machine-learning data-mining large-data

21

Могут ли быть использованы алгоритмы машинного обучения или глубокого обучения, чтобы «улучшить» процесс выборки техники MCMC?

Основываясь на небольшом знании о методах MCMC (цепочка Маркова, Монте-Карло), я понимаю, что отбор проб является важной частью вышеупомянутой техники. Наиболее часто используемые методы отбора проб - это гамильтониан и метрополис. Есть ли способ использовать машинное обучение или даже глубокое...

machine-learning mcmc monte-carlo markov-process

21

Переоснащение: нет серебряной пули?

Насколько я понимаю, даже при соблюдении процедур перекрестной проверки и выбора модели может произойти переоснащение , если поискать модель будет достаточно сложно , если только он не налагает ограничения на сложность модели, период. Более того, часто люди пытаются узнать штрафы за сложность...

machine-learning cross-validation goodness-of-fit scikit-learn caret

21

Я только что изобрел байесовский метод для анализа кривых ROC?

преамбула Это длинный пост. Если вы перечитываете это, обратите внимание, что я пересмотрел часть вопроса, хотя исходные материалы остались прежними. Кроме того, я считаю, что разработал решение проблемы. Это решение появляется в нижней части поста. Спасибо CliffAB за то, что он указал, что мое...

machine-learning bayesian sampling roc auc

21

Что происходит, когда вы применяете SVD к проблеме совместной фильтрации? Какая разница между двумя?

В совместной фильтрации у нас есть значения, которые не заполняются. Предположим, что пользователь не смотрел фильм, тогда мы должны добавить туда «na». Если я собираюсь взять SVD этой матрицы, то я должен добавить туда некоторое число - скажем, 0. Теперь, если я разложу матрицу, у меня есть метод...

machine-learning svd recommender-system

21

«Полу-контролируемое обучение» - это переобучение?

Я читал отчет о победившем решении конкурса Kaggle ( Malware Classification ). Отчет можно найти в этом сообщении на форуме . Эта проблема была проблемой классификации (девять классов, метрика - логарифмическая потеря) с 10000 элементами в наборе поездов, 10000 элементов в наборе испытаний. Во...

machine-learning random-forest boosting overfitting semi-supervised