Я использую нейронные сети для решения различных задач машинного обучения. Я использую Python и Pybrain, но эта библиотека почти прекращена. Есть ли другие хорошие альтернативы в...
Используйте для данных науки вопросы, связанные с языком программирования Python. Не предназначен для общих вопросов кодирования (-> stackoverflow).
Я использую нейронные сети для решения различных задач машинного обучения. Я использую Python и Pybrain, но эта библиотека почти прекращена. Есть ли другие хорошие альтернативы в...
Я новичок в науке данных , и я не понимаю разницу между fitи fit_transformметоды в scikit-учиться. Кто-нибудь может просто объяснить, почему нам может понадобиться преобразовать данные? Что означает подгонка модели к тренировочным данным и преобразование в тестовые данные? Означает ли это,...
Я только начинаю разрабатывать приложение машинного обучения для академических целей. В настоящее время я использую R и тренируюсь в этом. Тем не менее, во многих местах я видел людей, использующих Python . Что люди используют в научных кругах и промышленности, и какова...
Я пытаюсь запустить SVR, используя scikit learn (python) для обучающего набора данных, имеющего 595605 строк и 5 столбцов (функций), и тестового набора данных, имеющего 397070 строк. Данные были предварительно обработаны и упорядочены. Я могу успешно запустить тестовые примеры, но, выполнив мой...
Я уже давно пользуюсь пандами. Но я не понял, в чем разница между isna()и isnull()в пандах. И, что более важно, какой из них использовать для определения пропущенных значений в кадре данных. Какова основная разница в том, как значение определяется как naили...
Я пытаюсь начать изучать RNN и использую Keras. Я понимаю основную предпосылку ванильных слоев RNN и LSTM, но у меня возникают проблемы с пониманием определенного технического аспекта обучения. В документации keras говорится, что входные данные для слоя RNN должны иметь форму (batch_size,...
Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так...
Проблема: я работаю над проектом, в котором используются файлы журналов, аналогичные тем, которые находятся в пространстве мониторинга ИТ (насколько я понимаю, пространство ИТ). Эти файлы журнала представляют собой данные временных рядов, организованные в сотни / тысячи строк с различными...
Каков правильный подход и алгоритм кластеризации для геолокации? Я использую следующий код для кластеризации координат геолокации: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x,...
Я работаю над проектом данных науки с использованием Python. Проект имеет несколько этапов. Каждый этап состоит из взятия набора данных, использования скриптов Python, вспомогательных данных, конфигурации и параметров и создания другого набора данных. Я храню код в git, так что эта часть покрыта. Я...
Я использую TensorFlow для экспериментов в основном с нейронными сетями. Хотя я провел довольно много экспериментов (XOR-Problem, MNIST, некоторые вещи регрессии, ...), я борюсь с выбором «правильной» функции стоимости для конкретных задач, потому что в целом я мог бы считаться новичком. До прихода...
Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка:...
У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый...
Как вы можете программировать в библиотеке keras (или тензорном потоке), чтобы разделить обучение на несколько графических процессоров? Допустим, вы находитесь в экземпляре Amazon ec2 с 8 графическими процессорами, и вы хотели бы использовать их все для ускорения обучения, но ваш код предназначен...
В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер файла составляет 18 ГБ, а объем оперативной памяти - 32 ГБ, но я получаю ошибки памяти. Из вашего опыта это возможно? Если нет, знаете...
Я работаю на исследования, где необходимо классифицировать один из WINNER три события = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя текущая модель: def...
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и 2 секунды :( Я не стал...
XGBoost проделал большую работу, когда речь идет о работе как с категориальными, так и с непрерывно зависимыми переменными. Но как выбрать оптимизированные параметры для проблемы XGBoost? Вот как я применил параметры для недавней проблемы Kaggle: param <- list( objective = "reg:linear", booster...
Я использую стандартную линейную регрессию, используя scikit-learn в python. Тем не менее, я хотел бы, чтобы веса были положительными для каждой функции (не отрицательной), есть ли способ, которым я могу это сделать? Я искал в документации, но не мог найти способ сделать это. Я понимаю, что я не...
Как PyTorch, так и Tensorflow Fold являются средами глубокого обучения, предназначенными для работы в ситуациях, когда входные данные имеют неодинаковую длину или измерения (то есть ситуации, когда динамические графики полезны или необходимы). Я хотел бы знать, как они сравниваются, в смысле...