Наука о данных - страница 25

11

Интуиция для параметра регуляризации в SVM

Как изменение параметра регуляризации в SVM изменяет границу решения для неразделимого набора данных? Визуальный ответ и / или некоторый комментарий об ограничивающем поведении (для большой и маленькой регуляризации) был бы очень...

svm

11

LinkedIn веб-соскоб

Недавно я обнаружил новый пакет R для подключения к LinkedIn API. К сожалению, API LinkedIn кажется довольно ограниченным для начала; Например, вы можете получить только базовые данные о компаниях, а это отдельно от данных о физических лицах. Я хотел бы получить данные обо всех сотрудниках данной...

data-mining social-network-analysis crawling scraping

11

Как преобразовать категориальные данные в числовые данные в Pyspark

Я использую ноутбук Ipython для работы с приложениями pyspark. У меня есть файл CSV с множеством категориальных столбцов, чтобы определить, находится ли доход ниже или выше диапазона 50 КБ. Я хотел бы выполнить алгоритм классификации, используя все входные данные для определения диапазона доходов....

python apache-spark categorical-data pyspark

11

Как избежать переобучения в случайном лесу?

Я хочу избежать переобучения в случайном лесу. В связи с этим я намерен использовать mtry, nodeize, maxnodes и т. Д. Не могли бы вы помочь мне выбрать значения для этих параметров? Я использую R. Также, если возможно, скажите, пожалуйста, как я могу использовать перекрестную проверку в k-кратном...

machine-learning data-mining r predictive-modeling random-forest

11

Проблема с IPython / Jupyter на Spark (Нераспознанный псевдоним)

Я работаю над настройкой набора виртуальных машин для экспериментов со Spark, прежде чем потратить деньги и потратить деньги на создание кластера с некоторым оборудованием. Краткое примечание: я академик с опытом работы в области прикладного машинного обучения и немного бросил работу в науке о...

python apache-spark pyspark ipython

11

Несбалансированные классы - Как минимизировать ложные негативы?

У меня есть набор данных, который имеет атрибут бинарного класса. Имеется 623 случая с классом +1 (рак положительный) и 101 671 случай с классом -1 (рак отрицательный). Я пробовал различные алгоритмы (Наивный Байес, Случайный лес, AODE, C4.5), и все они имеют недопустимые ложноотрицательные...

classification random-forest decision-trees unbalanced-classes

11

Могут ли деревья регрессии предсказывать непрерывно?

Предположим, у меня есть гладкая функция типа е( х , у) = х2+ у2е(Икс,Y)знак равноИкс2+Y2f(x, y) = x^2+y^2 . У меня есть тренировочный набор и, конечно, я не знаю f, хотя я могу оценить f где угодно.D ⊊ { ( ( х , у) , ф(х , у) ) |( х , у) ∈ R2}D⊊{((Икс,Y),е(Икс,Y))|(Икс,Y)∈р2}D \subsetneq \{((x,...

predictive-modeling regression decision-trees

11

Как word2vec может быть использован для выявления невидимых слов и соотнести их с уже подготовленными данными

Я работал на word2vec gensim модели и нашел, что это действительно интересно. Меня интересует, как неизвестное / невидимое слово при проверке с моделью сможет получить аналогичные термины от обученной модели. Это возможно? Может word2vec быть переделаны для этого? Или учебный корпус должен иметь...

nlp deep-learning word-embeddings unsupervised-learning

11

применяя word2vec к небольшим текстовым файлам

Я совершенно новичок в word2vec, так что, пожалуйста, несите это со мной. У меня есть набор текстовых файлов, каждый из которых содержит набор твитов, между 1000-3000. Я выбрал общее ключевое слово ("kw1") и хочу найти семантически релевантные термины для "kw1", используя word2vec. Например, если...

machine-learning nlp text-mining

11

Переоснащение / Подгонка с размером набора данных

На графике ниже ось x => Размер набора данных ось у => Оценка перекрестной проверки Красная линия для данных обучения Зеленая линия для тестирования данных В учебнике, на который я ссылаюсь, автор говорит, что точка, где красная линия и зеленая линия перекрываются, означает, Сбор большего...

machine-learning cross-validation

11

Какой из них первый: бенчмаркинг алгоритмов, выбор функций, настройка параметров?

При попытке сделать, например, классификацию, мой подход в настоящее время заключается в сначала попробуйте различные алгоритмы и сравните их выполнить выбор функции по лучшему алгоритму из 1 выше настроить параметры, используя выбранные функции и алгоритм Однако я часто не могу убедить себя, что...

feature-selection parameter-estimation

11

Как «намерение recognisers» работу?

Амазонка Alexa , Nuance в Mix и Facebook, Wit.ai все используют подобную систему , чтобы указать , как преобразовать текстовую команду в умысел - то есть что - то компьютер поймет. Я не уверен, что это за «официальное» название, но я называю это «признание намерений». В основном путь от «пожалуйста...

machine-learning nlp

11

Классификация документов с использованием сверточной нейронной сети

Я пытаюсь использовать CNN (сверточная нейронная сеть) для классификации документов. CNN для коротких текстовых / предложений было изучено во многих работах. Тем не менее, кажется, что ни один документ не использовал CNN для длинного текста или документа. Моя проблема заключается в том , что...

classification neural-network text-mining convnet word2vec

11

Как определить, является ли последовательность символов английским словом или шумом

Какие функции вы будете пытаться извлечь из списка слов для будущего предсказания, это уже существующее слово или просто беспорядок символов? Там есть описание задачи, которую я там нашел . Вы должны написать программу, которая может ответить, является ли данное слово английским. Это было бы легко...

machine-learning nlp text-mining algorithms

11

Вопрос о смещении в сверточных сетях

Я пытаюсь выяснить, сколько весов и уклонов необходимо для CNN. Скажем, у меня есть (3, 32, 32) -изображение и я хочу применить (32, 5, 5) -фильтр. Для каждой карты объектов у меня есть веса 5x5, поэтому у меня должно быть 3 x (5x5) x 32 параметра. Теперь мне нужно добавить уклон. Я считаю, что у...

deep-learning convnet backpropagation

11

Как создать интерактивную диаграмму рассеяния PCA на Python?

Библиотека matplotlib очень способна, но ей не хватает интерактивности, особенно внутри Jupyter Notebook. Я хотел бы хороший автономные черчения инструмента , как plot.ly...

python visualization pca jupyter

11

Показатель эффективности: почему это называется отзывом?

Точность - это доля извлеченных экземпляров, которые имеют отношение, в то время как отзыв (также известный как чувствительность) - это доля соответствующих извлекаемых экземпляров. Я знаю их значение, но я не знаю, почему это называется отзыв ? Я не являюсь носителем английского языка. Я знаю,...

performance terminology

11

Определение модели в машинном обучении

Это определение не совсем применимо, так как мы не всегда предполагаем базовое распределение. Так что же такое модель на самом деле? Может ли GBM с указанными гиперпараметрами считаться моделью? Является ли модель набором...

machine-learning

11

Является ли TensorFlow полной библиотекой машинного обучения?

Я новичок в TensorFlow, и мне нужно понять возможности и недостатки TensorFlow, прежде чем я смогу его использовать. Я знаю, что это основа глубокого обучения, но помимо той, которую другие алгоритмы машинного обучения мы можем использовать с тензорным потоком. Например, можем ли мы использовать...

machine-learning

11

Нейронные сети - соотношение потерь и точности

Меня немного смущает сосуществование метрик потерь и точности в нейронных сетях. Оба должны оказывать «точность» из сравнения yyy и у , не так ли? Так не является ли применение двух излишних в эпоху обучения? Кроме того, почему они не...

neural-network evaluation