Наука о данных

13
Как рассчитать среднее значение столбца данных и найти верхние 10%

Я очень новичок в Scala и Spark и работаю над некоторыми самостоятельными упражнениями, используя бейсбольную статистику. Я использую класс наблюдений, создаю RDD и назначаю схему данным, а затем превращаю ее в DataFrame, чтобы я мог использовать SparkSQL для выбора групп игроков по их статистике,...

13
Я программист, как мне попасть в область науки о данных?

Прежде всего, этот термин звучит так неясно. В любом случае .. Я программист. Одним из языков, которые я могу кодировать, является Python. Говоря о данных, я могу использовать SQL и выполнять очистку данных. То, что я понял до сих пор после прочтения множества статей, в которых Data Science хороша:...

13
Эффективный алгоритм для вычисления кривой ROC для классификатора, состоящего из множества непересекающихся классификаторов

Предположим, у меня есть классификаторы C_1 ... C_n, которые не пересекаются в том смысле, что никакие два не вернут истину на одном входе (например, узлы в дереве решений). Я хочу создать новый классификатор, который объединяет некоторые их подмножества (например, я хочу решить, какие листья...

13
Должен ли я использовать несбалансированный класс в рамках выборки в моих наборах данных для проверки / тестирования?

Я новичок в машинном обучении и сталкиваюсь с ситуацией. Я работаю над проблемой ставок в реальном времени с набором данных IPinYou и пытаюсь сделать прогноз клика. Дело в том, что, как вы, возможно, знаете, набор данных очень несбалансирован: около 1300 отрицательных примеров (без кликов) на 1...

13
Линейная регрессия с несимметричной функцией стоимости?

Я хочу предсказать некоторое значение и я пытаюсь получить некоторое предсказание которое оптимизирует между минимально возможным, но все же большим, чем . Другими словами: У ( х ) У ( х ) стоимость { Y ( х ) ≳ Y ( х ) } > > Стоимость { Y ( х ) ≳ Y ( х ) }Y( х )Y(Икс)Y(x)Y^( х )Y^(Икс)\hat...

13
Можем ли мы извлечь выгоду из использования трансферного обучения при обучении моделям word2vec?

Я ищу, чтобы найти предварительно обученные веса уже обученных моделей, таких как данные Новостей Google и т. Д. Мне было трудно обучать новую модель с достаточным количеством данных (10 ГБ и т. Д.) Для себя. Итак, я хочу извлечь выгоду из трансферного обучения, в котором я смог бы получить...

13
В чем разница между одной горячей кодировкой и одной внешней кодировкой?

Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между...

13
AlphaGo (и другие игровые программы, использующие обучение с подкреплением) без базы данных людей

Я не специалист в данной области, и мой вопрос, вероятно, очень наивный. Это вытекает из эссе, чтобы понять возможности и ограничения обучения подкрепления, как используется в программе AlphaGo. Программа AlphaGo была построена с использованием, среди прочего (исследование деревьев в Монте-Карло и...

13
Импорт содержимого файла CSV в фреймы данных pyspark

Как я могу импортировать файл .csv в фреймы данных pyspark? Я даже пытался прочитать CSV-файл в Pandas, а затем преобразовать его в искровой фрейм данных, используя createDataFrame, но он все еще показывает некоторую ошибку. Может ли кто-нибудь провести меня через это? Кроме того, скажите,...

13
Распознать грамматику в последовательности нечетких токенов

У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на...

13
Обратное распространение через максимальные слои пула

У меня есть небольшой подвопрос к этому вопросу . Я понимаю, что при обратном распространении через слой максимального пула градиент направляется обратно таким образом, что нейрон в предыдущем слое, который был выбран как максимальный, получает весь градиент. В чем я не уверен на 100%, так это как...

13
Важность функции с помощью scikit-learn Random Forest показывает очень высокое стандартное отклонение

Я использую scikit-learn Random Forest Classifier и хочу показать важность функции, как в этом примере . Однако мой результат совершенно другой, в том смысле, что стандартное отклонение важности объекта почти всегда больше, чем значение самого свойства (см. Прилагаемое изображение). Возможно ли...

13
Как выбрать классификатор после перекрестной проверки?

Когда мы проводим перекрестную проверку в k-кратном порядке, должны ли мы просто использовать классификатор, который имеет самую высокую точность теста? Каков обычно лучший подход в получении классификатора от перекрестной...

13
Как глубоко обучение NNS различного сейчас (2016) от тех, которые я изучал только 4 года назад (2012)?

В Википедии и deeplearning4j сказано, что NN с глубоким обучением (DLNN) - это NN, которые имеют> 1 скрытый слой. Подобные NN были стандартными в университете для меня, в то время как DLNN сейчас очень популярны. Был там, сделал это - в чем дело? Я также слышал, что сложенные NN считаются...

13
Преобразование столбца панд int в тип данных timestamp

У меня есть датафрейм, который среди прочего содержит столбец количества миллисекунд, прошедших с 1970-1-1. Мне нужно преобразовать этот столбец целых чисел в данные метки времени, чтобы затем я мог в конечном итоге преобразовать его в столбец данных даты и времени, добавив серию столбцов метки...

13
Тепловая карта на карте в Python

В Mode Analytics есть отличная функция тепловых карт ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Но это не способствует сравнению карт (только одна на отчет). То, что они делают, - это то, что данные легко переносятся в завернутый блокнот Python. И тогда любое изображение...

13
Что такое 1D сверточный слой в глубоком обучении?

У меня есть хорошее общее представление о роли и механизме сверточных слоев в Deep Learning для обработки изображений в случае реализации 2D или 3D - они «просто» пытаются поймать 2D-шаблоны в изображениях (в 3 каналах в случае 3D). Но недавно я столкнулся с одномерными сверточными слоями в...