Наука о данных - страница 19

13

Почему в алгоритме SVM вектор w ортогонален разделяющей гиперплоскости?

Я новичок в машинном обучении. В SVM разделяющая гиперплоскость определяется как . Почему мы говорим, что вектор w ортогонален разделяющей гиперплоскости?Y= шTх + бy=wTx+by = w^T x +...

machine-learning svm

13

Как рассчитать среднее значение столбца данных и найти верхние 10%

Я очень новичок в Scala и Spark и работаю над некоторыми самостоятельными упражнениями, используя бейсбольную статистику. Я использую класс наблюдений, создаю RDD и назначаю схему данным, а затем превращаю ее в DataFrame, чтобы я мог использовать SparkSQL для выбора групп игроков по их статистике,...

apache-spark scala

13

Я программист, как мне попасть в область науки о данных?

Прежде всего, этот термин звучит так неясно. В любом случае .. Я программист. Одним из языков, которые я могу кодировать, является Python. Говоря о данных, я могу использовать SQL и выполнять очистку данных. То, что я понял до сих пор после прочтения множества статей, в которых Data Science хороша:...

beginner career

13

Эффективный алгоритм для вычисления кривой ROC для классификатора, состоящего из множества непересекающихся классификаторов

Предположим, у меня есть классификаторы C_1 ... C_n, которые не пересекаются в том смысле, что никакие два не вернут истину на одном входе (например, узлы в дереве решений). Я хочу создать новый классификатор, который объединяет некоторые их подмножества (например, я хочу решить, какие листья...

algorithms

13

Должен ли я использовать несбалансированный класс в рамках выборки в моих наборах данных для проверки / тестирования?

Я новичок в машинном обучении и сталкиваюсь с ситуацией. Я работаю над проблемой ставок в реальном времени с набором данных IPinYou и пытаюсь сделать прогноз клика. Дело в том, что, как вы, возможно, знаете, набор данных очень несбалансирован: около 1300 отрицательных примеров (без кликов) на 1...

machine-learning dataset sampling

13

Линейная регрессия с несимметричной функцией стоимости?

Я хочу предсказать некоторое значение и я пытаюсь получить некоторое предсказание которое оптимизирует между минимально возможным, но все же большим, чем . Другими словами: У ( х ) У ( х ) стоимость { Y ( х ) ≳ Y ( х ) } > > Стоимость { Y ( х ) ≳ Y ( х ) }Y( х )Y(Икс)Y(x)Y^( х )Y^(Икс)\hat...

machine-learning logistic-regression

13

Можем ли мы извлечь выгоду из использования трансферного обучения при обучении моделям word2vec?

Я ищу, чтобы найти предварительно обученные веса уже обученных моделей, таких как данные Новостей Google и т. Д. Мне было трудно обучать новую модель с достаточным количеством данных (10 ГБ и т. Д.) Для себя. Итак, я хочу извлечь выгоду из трансферного обучения, в котором я смог бы получить...

machine-learning bigdata word2vec

13

В чем разница между одной горячей кодировкой и одной внешней кодировкой?

Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между...

machine-learning data-mining feature-selection feature-extraction feature-engineering

13

AlphaGo (и другие игровые программы, использующие обучение с подкреплением) без базы данных людей

Я не специалист в данной области, и мой вопрос, вероятно, очень наивный. Это вытекает из эссе, чтобы понять возможности и ограничения обучения подкрепления, как используется в программе AlphaGo. Программа AlphaGo была построена с использованием, среди прочего (исследование деревьев в Монте-Карло и...

reinforcement-learning

13

Что означает «линейный по параметрам»?

Модель линейной регрессии является линейной по параметрам. Что это на самом деле

regression linear-regression

13

Импорт содержимого файла CSV в фреймы данных pyspark

Как я могу импортировать файл .csv в фреймы данных pyspark? Я даже пытался прочитать CSV-файл в Pandas, а затем преобразовать его в искровой фрейм данных, используя createDataFrame, но он все еще показывает некоторую ошибку. Может ли кто-нибудь провести меня через это? Кроме того, скажите,...

pyspark

13

Распознать грамматику в последовательности нечетких токенов

У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на...

data-mining clustering text-mining time-series correlation

13

Обратное распространение через максимальные слои пула

У меня есть небольшой подвопрос к этому вопросу . Я понимаю, что при обратном распространении через слой максимального пула градиент направляется обратно таким образом, что нейрон в предыдущем слое, который был выбран как максимальный, получает весь градиент. В чем я не уверен на 100%, так это как...

machine-learning neural-network convnet backpropagation

13

Важность функции с помощью scikit-learn Random Forest показывает очень высокое стандартное отклонение

Я использую scikit-learn Random Forest Classifier и хочу показать важность функции, как в этом примере . Однако мой результат совершенно другой, в том смысле, что стандартное отклонение важности объекта почти всегда больше, чем значение самого свойства (см. Прилагаемое изображение). Возможно ли...

python random-forest

13

Как выбрать классификатор после перекрестной проверки?

Когда мы проводим перекрестную проверку в k-кратном порядке, должны ли мы просто использовать классификатор, который имеет самую высокую точность теста? Каков обычно лучший подход в получении классификатора от перекрестной...

machine-learning cross-validation

13

Как глубоко обучение NNS различного сейчас (2016) от тех, которые я изучал только 4 года назад (2012)?

В Википедии и deeplearning4j сказано, что NN с глубоким обучением (DLNN) - это NN, которые имеют> 1 скрытый слой. Подобные NN были стандартными в университете для меня, в то время как DLNN сейчас очень популярны. Был там, сделал это - в чем дело? Я также слышал, что сложенные NN считаются...

neural-network deep-learning

13

Преобразование столбца панд int в тип данных timestamp

У меня есть датафрейм, который среди прочего содержит столбец количества миллисекунд, прошедших с 1970-1-1. Мне нужно преобразовать этот столбец целых чисел в данные метки времени, чтобы затем я мог в конечном итоге преобразовать его в столбец данных даты и времени, добавив серию столбцов метки...

python time-series data-cleaning pandas

13

Тепловая карта на карте в Python

В Mode Analytics есть отличная функция тепловых карт ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Но это не способствует сравнению карт (только одна на отчет). То, что они делают, - это то, что данные легко переносятся в завернутый блокнот Python. И тогда любое изображение...

python visualization geospatial

13

Что такое 1D сверточный слой в глубоком обучении?

У меня есть хорошее общее представление о роли и механизме сверточных слоев в Deep Learning для обработки изображений в случае реализации 2D или 3D - они «просто» пытаются поймать 2D-шаблоны в изображениях (в 3 каналах в случае 3D). Но недавно я столкнулся с одномерными сверточными слоями в...

deep-learning nlp convolution

13

XGBRegressor против xgboost.train огромная разница в скорости?

Если я тренирую свою модель, используя следующий код: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns]...

machine-learning python decision-trees xgboost efficiency