Наука о данных

11
Интуиция для параметра регуляризации в SVM

Как изменение параметра регуляризации в SVM изменяет границу решения для неразделимого набора данных? Визуальный ответ и / или некоторый комментарий об ограничивающем поведении (для большой и маленькой регуляризации) был бы очень...

11
LinkedIn веб-соскоб

Недавно я обнаружил новый пакет R для подключения к LinkedIn API. К сожалению, API LinkedIn кажется довольно ограниченным для начала; Например, вы можете получить только базовые данные о компаниях, а это отдельно от данных о физических лицах. Я хотел бы получить данные обо всех сотрудниках данной...

11
Как преобразовать категориальные данные в числовые данные в Pyspark

Я использую ноутбук Ipython для работы с приложениями pyspark. У меня есть файл CSV с множеством категориальных столбцов, чтобы определить, находится ли доход ниже или выше диапазона 50 КБ. Я хотел бы выполнить алгоритм классификации, используя все входные данные для определения диапазона доходов....

11
Как избежать переобучения в случайном лесу?

Я хочу избежать переобучения в случайном лесу. В связи с этим я намерен использовать mtry, nodeize, maxnodes и т. Д. Не могли бы вы помочь мне выбрать значения для этих параметров? Я использую R. Также, если возможно, скажите, пожалуйста, как я могу использовать перекрестную проверку в k-кратном...

11
Проблема с IPython / Jupyter на Spark (Нераспознанный псевдоним)

Я работаю над настройкой набора виртуальных машин для экспериментов со Spark, прежде чем потратить деньги и потратить деньги на создание кластера с некоторым оборудованием. Краткое примечание: я академик с опытом работы в области прикладного машинного обучения и немного бросил работу в науке о...

11
Несбалансированные классы - Как минимизировать ложные негативы?

У меня есть набор данных, который имеет атрибут бинарного класса. Имеется 623 случая с классом +1 (рак положительный) и 101 671 случай с классом -1 (рак отрицательный). Я пробовал различные алгоритмы (Наивный Байес, Случайный лес, AODE, C4.5), и все они имеют недопустимые ложноотрицательные...

11
Могут ли деревья регрессии предсказывать непрерывно?

Предположим, у меня есть гладкая функция типа е( х , у) = х2+ у2е(Икс,Y)знак равноИкс2+Y2f(x, y) = x^2+y^2 . У меня есть тренировочный набор и, конечно, я не знаю f, хотя я могу оценить f где угодно.D ⊊ { ( ( х , у) , ф(х , у) ) |( х , у) ∈ R2}D⊊{((Икс,Y),е(Икс,Y))|(Икс,Y)∈р2}D \subsetneq \{((x,...

11
Как word2vec может быть использован для выявления невидимых слов и соотнести их с уже подготовленными данными

Я работал на word2vec gensim модели и нашел, что это действительно интересно. Меня интересует, как неизвестное / невидимое слово при проверке с моделью сможет получить аналогичные термины от обученной модели. Это возможно? Может word2vec быть переделаны для этого? Или учебный корпус должен иметь...

11
применяя word2vec к небольшим текстовым файлам

Я совершенно новичок в word2vec, так что, пожалуйста, несите это со мной. У меня есть набор текстовых файлов, каждый из которых содержит набор твитов, между 1000-3000. Я выбрал общее ключевое слово ("kw1") и хочу найти семантически релевантные термины для "kw1", используя word2vec. Например, если...

11
Переоснащение / Подгонка с размером набора данных

На графике ниже ось x => Размер набора данных ось у => Оценка перекрестной проверки Красная линия для данных обучения Зеленая линия для тестирования данных В учебнике, на который я ссылаюсь, автор говорит, что точка, где красная линия и зеленая линия перекрываются, означает, Сбор большего...

11
Какой из них первый: бенчмаркинг алгоритмов, выбор функций, настройка параметров?

При попытке сделать, например, классификацию, мой подход в настоящее время заключается в сначала попробуйте различные алгоритмы и сравните их выполнить выбор функции по лучшему алгоритму из 1 выше настроить параметры, используя выбранные функции и алгоритм Однако я часто не могу убедить себя, что...

11
Как «намерение recognisers» работу?

Амазонка Alexa , Nuance в Mix и Facebook, Wit.ai все используют подобную систему , чтобы указать , как преобразовать текстовую команду в умысел - то есть что - то компьютер поймет. Я не уверен, что это за «официальное» название, но я называю это «признание намерений». В основном путь от «пожалуйста...

11
Классификация документов с использованием сверточной нейронной сети

Я пытаюсь использовать CNN (сверточная нейронная сеть) для классификации документов. CNN для коротких текстовых / предложений было изучено во многих работах. Тем не менее, кажется, что ни один документ не использовал CNN для длинного текста или документа. Моя проблема заключается в том , что...

11
Как определить, является ли последовательность символов английским словом или шумом

Какие функции вы будете пытаться извлечь из списка слов для будущего предсказания, это уже существующее слово или просто беспорядок символов? Там есть описание задачи, которую я там нашел . Вы должны написать программу, которая может ответить, является ли данное слово английским. Это было бы легко...

11
Вопрос о смещении в сверточных сетях

Я пытаюсь выяснить, сколько весов и уклонов необходимо для CNN. Скажем, у меня есть (3, 32, 32) -изображение и я хочу применить (32, 5, 5) -фильтр. Для каждой карты объектов у меня есть веса 5x5, поэтому у меня должно быть 3 x (5x5) x 32 параметра. Теперь мне нужно добавить уклон. Я считаю, что у...

11
Показатель эффективности: почему это называется отзывом?

Точность - это доля извлеченных экземпляров, которые имеют отношение, в то время как отзыв (также известный как чувствительность) - это доля соответствующих извлекаемых экземпляров. Я знаю их значение, но я не знаю, почему это называется отзыв ? Я не являюсь носителем английского языка. Я знаю,...

11
Определение модели в машинном обучении

Это определение не совсем применимо, так как мы не всегда предполагаем базовое распределение. Так что же такое модель на самом деле? Может ли GBM с указанными гиперпараметрами считаться моделью? Является ли модель набором...

11
Является ли TensorFlow полной библиотекой машинного обучения?

Я новичок в TensorFlow, и мне нужно понять возможности и недостатки TensorFlow, прежде чем я смогу его использовать. Я знаю, что это основа глубокого обучения, но помимо той, которую другие алгоритмы машинного обучения мы можем использовать с тензорным потоком. Например, можем ли мы использовать...

11
Нейронные сети - соотношение потерь и точности

Меня немного смущает сосуществование метрик потерь и точности в нейронных сетях. Оба должны оказывать «точность» из сравнения yyy и у , не так ли? Так не является ли применение двух излишних в эпоху обучения? Кроме того, почему они не...