Наука о данных

12
Загрузка большого набора данных в Интернете непосредственно в AWS S3

Кто-нибудь знает, возможно ли импортировать большой набор данных в Amazon S3 с URL? По сути, я хочу избежать загрузки огромного файла и последующей его загрузки на S3 через веб-портал. Я просто хочу указать URL-адрес загрузки для S3 и подождать, пока они загрузят его в свою файловую систему. Это...

12
Тарифы авиакомпаний - Какой анализ следует использовать для выявления конкурентного поведения при установлении цен и ценовых корреляций?

Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов. Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о...

12
MinHashing vs SimHashing

Предположим, у меня есть пять наборов, которые я бы хотел сгруппировать. Я понимаю, что техника SimHashing описана здесь: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ может привести к трем кластерам ( {A}, {B,C,D}и {E}), например, если его результаты были: A ->...

12
Выбор объектов с использованием значений функций в случайных лесах с помощью scikit-learn

Я нанесены художественные важности в случайных лесах с scikit учиться . Как улучшить прогнозирование с использованием случайных лесов, как я могу использовать информацию о графике для удаления объектов? Т.е. как определить, является ли объект бесполезным или, что еще хуже, снижение...

12
Лучшая библиотека Юлии для нейронных сетей

Я использую эту библиотеку для базового построения и анализа нейронной сети. Однако он не поддерживает построение многослойных нейронных сетей и т. Д. Итак, я хотел бы знать о каких-либо хороших библиотеках для продвинутых нейронных сетей и Deep Learning в...

12
Классификация клиентов на основе 2 функций и временных рядов событий

Мне нужна помощь в том, что должно быть моим следующим шагом в алгоритме, который я разрабатываю. Из-за NDA я не могу раскрыть многое, но постараюсь быть обобщенным и понятным. В основном, после нескольких шагов в алгоритмах, у меня есть это: Для каждого имеющегося у меня клиента и событий, которые...

12
Как я могу динамически различать категориальные данные и числовые данные?

Я знаю кого-то, кто работает над проектом, который включает в себя прием файлов данных без учета столбцов или типов данных. Задача состоит в том, чтобы взять файл с любым количеством столбцов и различных типов данных и вывести сводную статистику по числовым данным. Однако он не уверен в том, как...

12
Глубокое обучение с помощью спектрограмм для распознавания звука

Я искал возможность классифицировать звук (например, звуки животных), используя спектрограммы. Идея состоит в том, чтобы использовать глубоко сверточные нейронные сети, чтобы распознавать сегменты в спектрограмме и выводить одну (или несколько) меток классов. Это не новая идея (см., Например,...

12
Сколько измерений нужно уменьшить при выполнении PCA?

Как выбрать K для PCA? K - количество измерений, на которое нужно спроецировать. Единственное требование - не терять слишком много информации. Я понимаю, что это зависит от данных, но я больше ищу простой общий обзор о том, какие характеристики следует учитывать при выборе...

12
Как объединить два фрейма данных в Python Pandas?

У меня есть два фрейма данных df1 и df2, и я хотел бы объединить их в один фрейм данных. Это как если бы df1 и df2 были созданы путем разделения одного фрейма данных по центру по вертикали, подобно разрыву листа бумаги, который содержит список пополам, так что половина столбцов идет на одной...

12
Нужна помощь в понимании приблизительного предложения точек разделения xgboost

фон: в xgboost в итерационным подгоняет дерево ф т по всему п примерам , которые сводят к минимуму следующей цели:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] где сначала порядок и производные второго порядка над нашей...

12
Обучение под присмотром против обучения с подкреплением для простого самостоятельного вождения автомобиля

Я строю автомобиль с дистанционным управлением для удовольствия. Я использую Raspberry Pi в качестве бортового компьютера; и я использую различные плагины, такие как камера Raspberry Pi и датчики расстояния, для обратной связи по окружению автомобиля. Я использую OpenCV, чтобы превратить видеокадры...

12
Функция корректировки ценового потока для несбалансированных данных

У меня проблема классификации с сильно несбалансированными данными. Я прочитал, что снова и Undersampling, а также изменения стоимости на недостаточно категоричные результаты приведут к лучшей подгонке. До того, как это было сделано, тензорный поток классифицировал бы каждый вход как группу...

12
Сколько изображений в классе достаточно для обучения CNN

Я начинаю проект, где задача состоит в том, чтобы идентифицировать типы кроссовок по изображениям. В настоящее время я читаю в реализации TensorFlow и Torch . Мой вопрос: сколько изображений на класс требуется для достижения разумной эффективности классификации?...

12
Потери и точность проверки остаются постоянными

Я пытаюсь реализовать эту статью на множестве медицинских изображений. Я делаю это в Керасе. Сеть по существу состоит из 4 слоев conv и max-pool, за которыми следуют полностью связанный слой и программный классификатор max. Насколько я знаю, я следовал архитектуре, упомянутой в статье. Однако...

12
Массовое преобразование категориальных столбцов в Pandas (не одноразовое кодирование)

У меня есть панды dataframe с тоннами категоричных колонн, которые я планирую использовать в дерево решений с scikit учиться. Мне нужно преобразовать их в числовые значения (не один горячий вектор). Я могу сделать это с LabelEncoder из scikit учиться. Проблема в том, что их слишком много, и я не...

12
Как использовать RBM для классификации?

В данный момент я играю с Restricted Boltzmann Machines, и, поскольку я в нем, я хотел бы попытаться классифицировать рукописные цифры по ним. Модель, которую я создал, теперь является довольно модной генеративной моделью, но я не знаю, как дальше с ней работать. В этой статье автор говорит, что...

12
Заменить все числовые значения в фрейме данных pyspark на постоянное значение

Рассмотрим фрейм данных pyspark, состоящий из нулевых и числовых элементов. Как правило, числовые элементы имеют разные значения. Как можно заменить все числовые значения кадра данных постоянным числовым значением (например, значением 1)? Заранее спасибо! Пример для фрейма данных pyspark:...

12
Может ли перенастройка произойти, даже если потеря проверки все еще падает?

У меня есть сверточная модель + LSTM в Керасе, похожая на эту (ссылка 1), которую я использую для конкурса Kaggle. Архитектура показана ниже. Я обучил его на своем маркированном наборе из 11000 образцов (два класса, начальная распространенность ~ 9: 1, поэтому я увеличил выборку с 1 до примерно...

12
Альтернативы TF-IDF и Cosine Similarity при сравнении документов разных форматов

Я работал над небольшим, личным проектом, который берет навыки работы пользователя и предлагает наиболее идеальную карьеру для них на основе этих навыков. Я использую базу данных списков вакансий для достижения этой цели. На данный момент код работает следующим образом: 1) Обработайте текст каждого...