Вопросы с тегом «python»

17
В чем преимущество разделения файла tfrecord на осколки?

Я работаю над распознаванием речи с Tensorflow и планирую тренировать LSTM NN с массивом массивных волн. Из-за увеличения производительности я планирую использовать tfrecords. В Интернете есть несколько примеров (Inception for ex.), Где файлы tfrecords разбиты на фрагменты. У меня такой вопрос:...

17
Как посчитать количество пропущенных значений в каждой строке в кадре данных Pandas?

Как я могу получить число недостающего значения в каждой строке в панде dataframe. Я хотел бы разделить фреймы данных на различные фреймы данных, которые имеют одинаковое количество пропущенных значений в каждой строке. Любое...

17
Пример Keras Callback для сохранения модели после каждой эпохи?

Может кто-нибудь опубликовать простой пример использования Keras обратного вызова для сохранения модели после каждой эпохи? Я могу найти примеры экономии веса, но я хочу иметь возможность сохранять полностью функционирующую модель после каждой тренировочной...

17
Ищете хороший пакет для обнаружения аномалий во временных рядах

Существует ли комплексный пакет с открытым исходным кодом (предпочтительно на python или R), который можно использовать для обнаружения аномалий во временных рядах? В scikit-learn есть один класс SVM-пакета, но он не предназначен для данных временных рядов. Я ищу более сложные пакеты, которые,...

16
Панды теперь быстрее, чем data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если...

16
Где в рабочем процессе мы должны иметь дело с отсутствующими данными?

Я строю рабочий процесс для создания моделей машинного обучения (в моем случае, с использованием Python pandasи sklearnпакетов) из данных, извлеченных из очень большой базы данных (здесь, Vertica посредством SQL и pyodbc), и критический шаг в этом процессе включает в себя отсутствие значения...

16
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?

Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

16
Рекомендовать фильмы с дополнительными функциями, используя совместную фильтрацию

Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую ​​как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы....

16
Как получить прогнозы с помощьюgnast_generator для потоковых тестовых данных в Keras?

В блоге Keras, посвященном обучению пользователей с нуля , код показывает только сеть, работающую с данными обучения и проверки. Как насчет тестовых данных? Являются ли данные проверки такими же, как данные испытаний (я думаю, что нет). Если в строках, похожих на папки с поездами и валидацией, была...

16
В чем причина лог-преобразования нескольких непрерывных переменных?

Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.logили logнепрерывные переменные, такие как loan_amountили applicant_incomeт. Я просто хочу понять причину этого. Помогает ли это улучшить точность...

15
Библиотека Python для реализации скрытых марковских моделей

Какую стабильную библиотеку Python я могу использовать для реализации скрытых марковских моделей? Мне нужно, чтобы это было достаточно хорошо задокументировано, потому что я никогда раньше не использовал эту модель. В качестве альтернативы, есть ли более прямой подход к выполнению анализа временных...

15
Как работает SelectKBest?

Я смотрю на этот учебник: https://www.dataquest.io/mission/75/improving-your-submission В разделе 8, найдя лучшие функции, он показывает следующий код. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare",...

15
Предсказание сходства предложений

Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox"...

15
Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?

Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не...

14
Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?

Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь...

14
Модель двоичной классификации для несбалансированных данных

У меня есть набор данных со следующими спецификациями: Учебный набор данных с 193 176 пробами с 2821 положительным результатом Тестовый набор данных с 82 887 образцами с 673 положительными Есть 10 функций. Я хочу выполнить двоичную классификацию (0 или 1). Проблема, с которой я сталкиваюсь,...

14
Подходит ли Python для больших данных

В этом посте я прочитал, подходит ли язык R для больших данных, из которых состоят большие данные 5TB, и хотя он хорошо справляется с предоставлением информации о возможности работы с данными такого типа, Rон предоставляет очень мало информации Python. Мне было интересно, Pythonможно ли работать с...

14
Что означает вывод функции model.predict из Keras?

Я построил модель LSTM для прогнозирования повторяющихся вопросов в официальном наборе данных Quora. Метки теста - 0 или 1. 1 означает, что пара вопросов дублируется. После построения модели с использованием model.fit, я тестирую модель, используя model.predictданные теста. Вывод представляет собой...