Наука о данных

14
Количество эпох в реализации Gensim Word2Vec

В реализации Word2Vec есть iterпараметрgensim класс gensim.models.word2vec.Word2Vec (предложения = нет, размер = 100, альфа = 0,025, окно = 5, min_count = 5, max_vocab_size = нет, образец = 0, семя = 1, рабочие = 1, min_alpha = 0,0001, сг. = 1, hs = 1, отрицательный = 0, cbow_mean = 0, hashfxn =,...

14
В чем разница между (динамической) байесовской сетью и HMM?

Я читал, что HMM, Particle Filters и Kalman - особые случаи динамических байесовских сетей. Однако я знаю только HMM и не вижу разницы с динамическими байесовскими сетями. Может кто-нибудь объяснить, пожалуйста? Было бы неплохо, если бы ваш ответ мог быть похож на следующий, но для байесовских...

14
Как подходят попарно ранжирования моделей в xgBoost?

Насколько я знаю, обучать обучение моделей ранга, вам нужно иметь три вещи в наборе данных: ярлык или релевантность идентификатор группы или запроса характерный вектор Например, набор данных Microsoft Learning to Rank использует этот формат (метка, идентификатор группы и функции). 1 qid:10...

14
Doc2vec (gensim) - Как я могу вывести ярлык невидимых предложений?

https://radimrehurek.com/gensim/models/doc2vec.html Например, если мы обучили doc2vec с "aaaaaAAAAAaaaaaa" - "ярлык 1" «BbbbbbBBBBBbbbb» - «метка 2» мы можем сделать вывод, что «aaaaAAAAaaaaAA» - это метка 1 с использованием Doc2vec? Я знаю, что Doc2vec может обучать векторы слов и метить векторы....

14
Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?

Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь...

14
Можно ли считать более близкие точки более похожими в визуализации T-SNE?

Из статьи Хинтона я понимаю, что T-SNE хорошо справляется с сохранением локального сходства и достойной работой по сохранению глобальной структуры (кластеризация). Однако я не уверен, можно ли считать точки, появляющиеся ближе в 2D-визуализации t-sne, «более похожими» точками данных. Я использую...

14
Как сделать нечеткое совпадение почтовых адресов?

Я хотел бы знать, как сопоставить почтовые адреса, когда их формат отличается или когда один из них введен неправильно. Пока я нашел разные решения, но думаю, что они довольно старые и не очень эффективные. Я уверен, что существуют лучшие методы, так что если у вас есть ссылки для чтения, я уверен,...

14
Почему ансамбли так неоправданно эффективны?

Кажется, стало аксиоматичным, что ансамбль учащихся приводит к наилучшим возможным результатам модели - и это становится все более редким, например, для отдельных моделей, чтобы выиграть соревнования, такие как Kaggle. Есть ли теоретическое объяснение, почему ансамбли так чертовски...

14
Pandas Dataframe для DMatrix

Я пытаюсь запустить xgboost в scikit learn. И я использую только Pandas для загрузки данных в dataframe. Как я должен использовать панд DF с xgboost. Меня смущает процедура DMatrix, необходимая для запуска алгоритма...

14
Зачем замышлять, если Max Pooling все равно собирается уменьшить изображение?

Идея применения фильтров для идентификации чего-либо, например, для идентификации ребер, является довольно крутой идеей Например, вы можете получить изображение 7. С некоторыми фильтрами вы можете получить преобразованные изображения, которые подчеркивают различные характеристики исходного...

14
Хорошие пакеты для «частого анализа последовательности» в Python?

Кто-нибудь использовал (и любил) какие-либо хорошие пакеты для "частого анализа последовательности" в Python, кроме FPM в MLLib? Я ищу стабильную посылку, предпочтительнее для тех, кто поддерживается....

14
Как обработать нулевой фактор в расчете наивного байесовского классификатора?

Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то...

14
Нужна ли стратифицированная выборка (случайный лес, Python)?

Я использую Python для запуска модели случайного леса на моем несбалансированном наборе данных (целевой переменной был двоичный класс). Разделяя набор данных обучения и тестирования, я боролся, использовать ли стратифицированную выборку (как показано в коде) или нет. До сих пор я наблюдал в своем...

14
Делают ли современные библиотеки R и / или Python SQL устаревшим?

Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до очистки. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих данных, чтобы их можно было стандартизировать и использовать в проектах отчетов,...

14
Можем ли мы сгенерировать огромный набор данных с помощью генерирующих состязательных сетей?

Я имею дело с проблемой, когда я не мог найти достаточно набора данных (изображений) для подачи в мою глубокую нейронную сеть для обучения. Я был так вдохновлен работой « Генеративный состязательный текст в синтез изображения», опубликованной Скоттом Ридом и соавт. о порождающих состязательных...

14
RNN с использованием нескольких временных рядов

Я пытаюсь создать нейронную сеть, используя временные ряды в качестве входных данных, чтобы обучать ее на основе типа каждой серии. Я читал, что, используя RNN, вы можете разделить входные данные на пакеты и использовать каждую точку временного ряда в отдельных нейронах и, в конечном итоге, обучить...

14
Как выбрать точку разделения для непрерывных переменных в деревьях решений?

У меня есть два вопроса, связанных с деревьями решений: Если у нас есть непрерывный атрибут, как мы выбираем значение разделения? Пример: возраст = (20,29,50,40 ....) Представьте себе , что мы имеем непрерывный атрибут , которые имеют значение в . Как я могу написать алгоритм, который находит точку...

14
PyTorch против Tensorflow стремятся

Google недавно включил в ночной сборку tenorflow свой режим Eager , обязательный API для доступа к возможностям вычисления tenorflow. Как тензор потока готовы сравнивать с PyTorch? Некоторые аспекты, которые могут повлиять на сравнение: Преимущества и недостатки стремления из-за его статического...

14
GAN (генеративные состязательные сети) также возможны для текста?

Являются ли ГАН - порождающие состязательные сети - хорошими только для изображений или могут использоваться также и для текста? Мол, обучите сеть генерировать значимые тексты из резюме. UPD - цитаты изобретателя GAN Яна Гудфеллоу. GAN не были применены к NLP, потому что GAN определены только для...