Вопросы с тегом «data-mining»

14
Как начать читать о майнинге данных?

Я новичок, который собирается начать читать о интеллектуальном анализе данных. У меня есть базовые знания по ИИ и статистике. Поскольку многие говорят, что машинное обучение также играет важную роль в интеллектуальном анализе данных, нужно ли читать о машинном обучении, прежде чем я смогу...

14
Блок-схемы, помогающие выбрать правильную методику анализа и тестирования

Как человек, который нуждается в статистических знаниях, но не является формально обученным статистиком, я бы счел полезным иметь блок-схему (или какое-то дерево решений), чтобы помочь мне выбрать правильный подход для решения конкретной проблемы (например, " нужно ли это и знать то и то и считать...

13
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?

Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных...

13
Случайный лес и усиление являются параметрическими или непараметрическими?

Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...). Брейман критикует...

13
Каковы известные, существующие практические применения теории хаоса в интеллектуальном анализе данных?

Случайно читая некоторые работы массового рынка по теории хаоса за последние несколько лет, я начал задаваться вопросом, как различные аспекты этого могут быть применены к интеллектуальному анализу данных и смежным областям, таким как нейронные сети, распознавание образов, управление...

13
Пакетирование с передискретизацией для моделей с редкими событиями

Кто-нибудь знает, было ли описано следующее (и так или иначе), если это звучит как правдоподобный метод изучения прогностической модели с очень несбалансированной целевой переменной? Часто в CRM-приложениях интеллектуального анализа данных мы будем искать модель, в которой положительное событие...

13
Исследовательский анализ пространственно-временных ошибок прогноза

Данные: я недавно работал над анализом стохастических свойств пространственно-временного поля ошибок прогноза производства энергии ветра. Формально можно сказать, что это процесс индексируются дважды во времени (сtиh) и один раз в пространстве (p), гдеH- это количество времени просмотра вперед...

13
Как далеко зайдет самообучение?

Я никогда не участвовал в официальных или структурированных курсах анализа данных или машинного обучения (кроме недавних онлайн-предложений) и узнал большую часть того, что я знаю, читая и пробуя что-то. Я знаю, что далеко от возможности устроиться на работу. Мой вопрос не в том, что лучше (...

13
Лучшие способы агрегирования и анализа данных

Совсем недавно начав учить себя машинному обучению и анализу данных, я сталкиваюсь с необходимостью создавать и запрашивать большие наборы данных. Я хотел бы взять данные, которые я собирал в своей профессиональной и личной жизни, и проанализировать их, но я не уверен, как лучше сделать следующее:...

12
Термин частота / обратная частота документа (TF / IDF): взвешивание

У меня есть набор данных, который представляет 1000 документов и все слова, которые появляются в нем. Таким образом, строки представляют документы, а столбцы представляют слова. Так, например, значение в ячейке обозначает время, когда слово встречается в документе(i,j)(i,j)(i,j)jjj . Теперь я...

12
Связь между гессенской матрицей и ковариационной матрицей

Пока я изучаю оценку максимального правдоподобия, чтобы сделать вывод в оценке максимального правдоподобия, нам нужно знать дисперсию. Чтобы выяснить разницу, мне нужно знать нижнюю границу Рао Крамера, которая выглядит как гессианская матрица со вторым производным по кривизне. Я вроде как...

12
Математическая база для интеллектуального анализа данных и алгоритмов искусственного интеллекта

Не могли бы вы дать мне некоторые разъяснения об алгоритмах интеллектуального анализа данных и искусственного интеллекта? Какую математическую базу они использовали? Не могли бы вы дать мне отправную точку в математике, чтобы понять эти типы...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

12
Идея сделать данные имеют среднее значение

Я часто вижу людей, делающих измерение / особенность набора данных нулевым средним, удаляя среднее из всех элементов. Но я так и не понял, зачем это делать? Каков эффект от этого в качестве шага предварительной обработки? Улучшает ли это эффективность классификации? Помогает ли это что-то ответить...

12
Как сформировать кривую Precision-Recall, когда у меня есть только одно значение для PR?

У меня есть задание по извлечению данных, где я создаю систему поиска изображений на основе контента. У меня 20 изображений 5 животных. Итак, всего 100 изображений. Моя система возвращает 10 наиболее релевантных изображений для входного изображения. Теперь мне нужно оценить производительность моей...

11
Кластеризация как средство разделения данных для логистической регрессии

Я пытаюсь предсказать успех или неудачу студентов, основываясь на некоторых особенностях модели логистической регрессии. Чтобы улучшить производительность модели, я уже думал о том, чтобы разделить учащихся на разные группы на основе очевидных различий и создать отдельные модели для каждой группы....

11
Хорошие книги, посвященные методам предварительной обработки данных и обнаружения выбросов

Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов? Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не...

11
Практическое пособие по PCA с данными

Поиск в Интернете учебника PCA дает тысячи результатов (даже видео). Многие учебники очень хороши. Но я не могу найти практического примера, где PCA объясняется с использованием некоторых наборов данных, которые я могу использовать для демонстрации. Мне нужен учебник, который предоставляет...

11
Когда использовать примеси Джини, а когда использовать получение информации?

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать...

11
Является ли f-мера синонимом точности?

Я понимаю, что f-мера (основанная на точности и отзыве) - это оценка точности классификатора. Кроме того, f-мера предпочтительнее точности, когда у нас есть несбалансированный набор данных. У меня есть простой вопрос (который больше об использовании правильной терминологии, чем о технологии). У...