Наука о данных

21
Являются ли алгоритмы дерева решений линейными или нелинейными

Недавно моего друга спросили, являются ли алгоритмы дерева решений линейными или нелинейными алгоритмами в интервью. Я пытался найти ответы на этот вопрос, но не смог найти удовлетворительного объяснения. Может кто-нибудь ответить и объяснить решение этого вопроса? Кроме того, каковы некоторые...

21
Каков хороший способ преобразовать циклические порядковые атрибуты?

У меня есть поле «час» в качестве моего атрибута, но оно принимает циклические значения. Как я мог преобразовать функцию, чтобы сохранить информацию, как '23' и '0' час близки. Один способ, которым я мог бы подумать, - это сделать преобразование: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13...

21
Прогнозирование временных рядов с использованием LSTM: важность обеспечения устойчивости временных рядов

В этой ссылке на Стационарность и разность было упомянуто, что модели, подобные ARIMA, требуют стационарного временного ряда для прогнозирования, поскольку его статистические свойства, такие как среднее значение, дисперсия, автокорреляция и т. Д., Постоянны во времени. Поскольку RNN обладают лучшей...

21
Какая польза от torch.no_grad в pytorch?

Я новичок в Pytorch и начал с этим кодом GitHub . Я не понимаю комментарий в строке 60-61 в коде "because weights have requires_grad=True, but we don't need to track this in autograd". Я понял, что мы упоминаем requires_grad=Trueпеременные, которые нам нужны для вычисления градиентов для...

21
Существуют ли правила выбора размера мини-партии?

При обучении нейронных сетей одним гиперпараметром является размер мини-пакета. Обычный выбор - 32, 64 и 128 элементов в каждой партии. Существуют ли какие-либо правила / рекомендации, какими большими должны быть мини-партии? Какие-нибудь публикации, которые исследуют влияние на...

21
Всегда ли градиентный спуск сходится к оптимальному?

Мне интересно, есть ли сценарий, при котором градиентный спуск не сходится к минимуму. Я осознаю, что градиентный спуск не всегда может привести к глобальному оптимуму. Я также знаю, что он может отличаться от оптимального, если, скажем, размер шага слишком велик. Тем не менее, мне кажется, что...

21
train_test_split () ошибка: найдены входные переменные с непоследовательным количеством сэмплов

Довольно плохо знаком с Python, но строю свою первую модель RF на основе некоторых классификационных данных. Я преобразовал все метки в числовые данные int64 и загрузил их в X и Y в виде пустого массива, но у меня возникает ошибка, когда я пытаюсь обучить модели. Вот как выглядят мои массивы:...

21
Нейронная сеть для множественной выходной регрессии

У меня есть набор данных, содержащий 34 входных столбца и 8 выходных столбцов. Один из способов решения этой проблемы - взять 34 входа и построить индивидуальную модель регрессии для каждого выходного столбца. Мне интересно, если эта проблема может быть решена с помощью только одной модели,...

21
Объединение нескольких фреймов данных построчно в PySpark

У меня есть 10 фреймов данных pyspark.sql.dataframe.DataFrame, полученных randomSplitкак. (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Теперь я хочу объединить 9 tdфреймов в один фрейм данных, как мне это сделать? Я уже...

20
Конференции по науке о данных?

Этот вопрос похож на вопрос Статистических конференций в CrossValidated. Каковы наиболее значимые ежегодные конференции по науке о данных? Правила: Включить ссылку на конференцию Пожалуйста, включите ссылки для выступлений (будь то YouTube, сайт конференции или какой-либо другой сайт потокового...

20
Использование TensorFlow с Intel GPU

Я новичок в углубленном изучении. Есть ли способ использовать TensorFlow с графическими процессорами Intel? Если да, пожалуйста, укажите мне в правильном направлении. Если нет, пожалуйста, дайте мне знать, какую платформу (Keras, Theano и т. Д.) Можно использовать для моего интегрированного...

20
StandardScaler до и после разделения данных

Когда я читал об использовании StandardScaler, большинство рекомендаций говорили, что вы должны использовать StandardScaler перед разбивать данные на обучающие / тестовые данные, но когда я проверял некоторые коды, размещенные в сети (используя sklearn), было два основных применения. 1-...

20
Sparse_categorical_crossentropy vs категорическая_кросентропия (керас, точность)

Что лучше для точности или они одинаковые? Конечно, если вы используете categoryorical_crossentropy, вы используете одну горячую кодировку, а если вы используете sparse_categorical_crossentropy, вы кодируете как обычные целые числа. Кроме того, когда один лучше...

20
Начинаю ли я свою карьеру в качестве Data Scientist, нужен ли опыт разработки ПО? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Я студент магистратуры в Университете Эдинбурга, специализируюсь на машинном обучении и обработке...

20
В чем разница между классификацией текста и тематическими моделями?

Я знаю разницу между кластеризацией и классификацией в машинном обучении, но я не понимаю разницу между классификацией текста и тематическим моделированием для документов. Могу ли я использовать моделирование темы поверх документов, чтобы определить тему? Могу ли я использовать методы классификации...

20
Если один горячий вектор масштабируется с числовыми атрибутами

В случае наличия комбинации категориальных и числовых атрибутов я обычно конвертирую категориальные атрибуты в один горячий вектор. Мой вопрос заключается в том, чтобы оставить эти векторы как есть и масштабировать числовые атрибуты посредством стандартизации / нормализации, или мне следует...

20
Предсказание слова с использованием модели Word2vec

Принимая во внимание предложение: «Когда я открываю ?? дверь он начинает нагрев автоматически» Я хотел бы получить список возможных слов в ?? с вероятностью. Основная концепция, используемая в модели word2vec, заключается в том, чтобы «предсказать» слово в заданном окружающем контексте. Как только...

20
Как я могу получить меру семантического сходства слов?

Каков наилучший способ выяснить семантическое сходство слов? Word2Vec хорошо, но не идеально: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot',...