Наука о данных

9
Распознавание человеческой деятельности с помощью набора данных смартфона

Я новичок в этом сообществе, и, надеюсь, мой вопрос вполне уместится здесь. В рамках моего курса по анализу данных для студентов я выбрал проект по распознаванию человеческой деятельности с использованием наборов данных смартфона. Что касается меня, то эта тема касается машинного обучения и опорных...

9
Реляционный Data Mining без ILP

У меня есть огромный набор данных из реляционной базы данных, для которого мне нужно создать модель классификации. Обычно для этой ситуации я бы использовал индуктивное логическое программирование (ILP), но из-за особых обстоятельств я не могу этого сделать. Другой способ решения этой проблемы -...

9
Кодирование обучающего сигнала

У меня есть большое количество выборок, которые представляют битовые потоки, закодированные в Манчестере, в виде аудиосигналов. Частота, на которой они кодируются, является основной составляющей частоты, когда она высокая, и на заднем плане присутствует постоянный уровень белого шума. Я вручную...

9
Предложить наборы учебных текстовых классификаторов

Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее...

9
Есть ли различия в регуляризации в MLP между пакетными и индивидуальными обновлениями?

Я только что узнал о регуляризации как о подходе к управлению перетеканием, и я хотел бы включить эту идею в простую реализацию обратного распространения и многослойного персептрона (MLP), которую я собрал. В настоящее время, чтобы избежать чрезмерной подгонки, я проверяю и сохраняю сеть с лучшими...

9
Карьерный переход на Big Data Analytics

Я 35-летний ИТ-специалист, чисто технический специалист. Я хорош в программировании, изучаю новые технологии, понимаю их и внедряю. Я не любил математику в школе, поэтому у меня не было хороших результатов по математике. Я очень заинтересован в карьере аналитика больших данных. Меня больше...

9
Кластеризация документов с использованием тем, полученных из скрытого распределения Дирихле

Я хочу использовать скрытое выделение дирихле для проекта, и я использую Python с библиотекой gensim. После нахождения тем я хотел бы кластеризовать документы, используя алгоритм, такой как k-means (в идеале я хотел бы использовать хороший для перекрывающихся кластеров, поэтому любая рекомендация...

9
R случайный лес на Amazon ec2 Ошибка: невозможно выделить вектор размером 5,4 Гб

Я тренирую модели случайных лесов на R, используя randomForest()1000 деревьев и фреймы данных с примерно 20 предикторами и 600К строк. На моем ноутбуке все работает нормально, но когда я перехожу на amazon ec2, чтобы запустить то же самое, я получаю ошибку: Error: cannot allocate vector of size 5.4...

9
Как создать хороший список стоп-слов

Я ищу несколько советов о том, как составить список стоп-слов. Кто-то знает / кто-то может порекомендовать хороший метод для извлечения списков стоп-слов из самого набора данных для предварительной обработки и фильтрации? Данные: огромное количество вводимого человеком текста различной длины...

9
Существуют ли какие-либо неконтролируемые алгоритмы обучения для последовательных данных?

Каждое наблюдение в моих данных было собрано с разницей в 0,1 секунды. Я не называю это временным рядом, потому что у него нет даты и времени. В примерах алгоритмов кластеризации (я нашел онлайн) и PCA данные выборки имеют 1 наблюдение на случай и не рассчитаны по времени. Но мои данные содержат...

9
Использование Vowpal Wabbit для NER

Vowpal Wabbit (VW), очевидно, поддерживает функцию маркировки последовательности через SEARN . Проблема в том, что я нигде не могу найти подробный список параметров с пояснениями и некоторыми примерами. Лучшее, что я смог найти - это запись в блоге Зинкова с очень коротким примером. Главная...

9
Реализовать дополнительный наивный байесовский в python?

проблема Я пытался использовать наивный байесовский код на помеченном наборе данных о преступности, но получил очень плохие результаты (точность 7%). Наивный Байес работает намного быстрее, чем другие алгоритмы, которые я использовал, поэтому я хотел попытаться выяснить, почему счет был таким...

9
Есть ли метод, противоположный уменьшению размерности?

Я новичок в области машинного обучения, но сделал свою долю обработки сигналов. Пожалуйста, дайте мне знать, если этот вопрос был неправильно маркирован. У меня есть двумерные данные, которые определяются как минимум тремя переменными, а модель с сильно нелинейной моделью слишком сложна для...

9
Выбор функции для опорных векторных машин

Мой вопрос в три раза В контексте «Kernelized» поддержка векторных машин Желателен ли выбор переменной / функции - тем более, что мы упорядочиваем параметр C, чтобы предотвратить переоснащение, и основной причиной внедрения ядер в SVM является увеличение размерности проблемы, в таком случае...

9
Книги по усиленному обучению

Я уже довольно давно пытаюсь понять обучение с подкреплением, но каким-то образом я не могу представить, как написать программу для обучения подкреплению для решения проблемы мира сетки. Можете ли вы предложить мне несколько учебников, которые помогли бы мне составить четкую концепцию обучения в...

9
Есть идеи о применении глубокого сна?

Недавно Google опубликовал интересную глубокую мечту. Помимо создания произведений искусства, таких как http://deepdreamgenerator.com/ , видите ли вы какие-либо потенциальные применения глубокого сна в компьютерном зрении или машинном...

9
Как двоично кодировать многозначную категориальную переменную из кадра данных Pandas?

Предположим, у нас есть следующий фрейм данных с несколькими значениями для определенного столбца: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] Как мы можем получить такой стол? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 1 0 1 Примечание: мне не обязательно нужен новый фрейм...

9
Классификация векторных последовательностей

Мой набор данных состоит из векторных последовательностей. Каждый вектор имеет 50 вещественных измерений. Количество векторов в последовательности колеблется от 3-5 до 10-15. Другими словами, длина последовательности не является фиксированной. Некоторое значительное количество последовательностей...

9
Учебник по анализу настроений

Я пытаюсь понять анализ настроений и как применять его на любом языке (R, Python и т. Д.). Я хотел бы знать, есть ли хорошее место в Интернете для учебника, которому я могу следовать. Я гуглил, но я не очень доволен, потому что они были не учебниками, а скорее теорией. Я хочу теорию и практические...