Наука о данных

10
Тестирование программного обеспечения для Data Science в R

Я часто использую Nose, Tox или Unittest при тестировании моего кода на Python, особенно когда он должен быть интегрирован с другими модулями или другими частями кода. Однако теперь, когда я обнаружил, что использую R больше, чем python, для моделирования и разработки ML. Я понял, что на самом деле...

10
Построение модели машинного обучения для прогнозирования урожайности на основе экологических данных

У меня есть набор данных, содержащий данные о температуре, количестве осадков и урожайности сои для фермы за 10 лет (2005 - 2014). Я хотел бы прогнозировать урожайность на 2015 год на основе этих данных. Обратите внимание, что набор данных имеет ЕЖЕДНЕВНЫЕ значения для температуры и осадков, но...

10
Сходимость в методе К-средних Хартиган-Вонга и других алгоритмах

Я пытался понять различные алгоритмы кластеризации k-средних, которые в основном реализованы в statsпакете Rязыка. Я понимаю алгоритм Ллойда и онлайн-алгоритм МакКуина. Я понимаю их следующим образом: Алгоритм Ллойда: Первоначально выбираются случайные наблюдения «k», которые будут служить...

10
ggvis vs. ggplot2 + Shiny; какой выбрать для интерактивной визуализации?

В CrossValidated есть похожий вопрос, и я прочитал ответы. Мой вопрос немного другой. Я не хочу просто визуализировать свои данные, и на самом деле то, что я хочу визуализировать, нелегко визуализировать с помощью любого пакета. У меня есть два набора точек ( координаты ) на моем графике. Я хочу...

10
Является ли направление ребер в байесовской сети нерелевантным?

Сегодня на лекции было заявлено, что направление ребер в байесовской сети не имеет большого значения. Они не должны представлять причинность. Очевидно, что вы не можете переключить ни одного ребра в байесовской сети. Например, пусть с и . Если вы переключите на , то больше не будет ациклическим и,...

10
Машинное обучение Python / Структура проекта Data Science

Я ищу информацию о том, как организовать проект машинного обучения Python. Для обычных проектов Python есть Cookiecutter, а для R ProjectTemplate . Это моя текущая структура папок, но я смешиваю ноутбуки Jupyter с реальным кодом Python, и это не очень понятно. . ├── cache ├── data ├── my_module ├──...

10
Инструменты для автоматического обнаружения аномалий в таблице SQL?

У меня есть большая таблица SQL, которая по сути является журналом. Данные довольно сложные, и я пытаюсь найти способ идентифицировать аномалии без понимания всех данных. Я нашел много инструментов для обнаружения аномалий, но большинство из них требует своего рода «среднего человека», то есть...

10
Являются ли Word2Vec и Doc2Vec распределенным представлением или распределенным представлением?

Я читал, что представление о распределении основано на гипотезе о том, что слова, встречающиеся в сходном контексте, имеют сходное значение. Word2Vec и Doc2Vec оба смоделированы в соответствии с этой гипотезой. Но в оригинальной статье даже они названы как Distributed representation of words and...

10
КАК: Инициализация веса глубоких нейронных сетей

Учитывая сложную задачу обучения (например, высокую размерность, сложность данных), глубокие нейронные сети становятся сложными для обучения. Чтобы облегчить многие из проблем, можно: Нормализовать && данные качества отобранных вручную выберите другой алгоритм обучения (например, RMSprop...

10
Как сгруппировать одинаковые значения и посчитать их частоту в Python?

Новичок в аналитике с Python, поэтому, пожалуйста, будьте осторожны :-) Я не смог найти ответ на этот вопрос - извинения, если на него уже ответили в другом формате в другом формате. У меня есть набор данных транзакций для торговой точки. Переменные вместе с объяснением: раздел: раздел магазина,...

10
У Relu есть градиент 0 по определению, тогда почему исчезновение градиента не является проблемой для x <0?

По определению, Relu есть max(0,f(x)). Затем ее градиент определяется как: 1 if x > 0 and 0 if x < 0. Не означает ли это, что градиент всегда равен 0 (исчезает), когда x <0? Тогда почему мы говорим, что Relu не страдает от проблемы градиентного...

10
Изменение формы данных для глубокого обучения с использованием Keras

Я новичок в Keras, и я начал с примера MNIST, чтобы понять, как на самом деле работает библиотека. Фрагмент кода проблемы MNIST в папке примера Keras имеет вид: import numpy as np np.random.seed(1337) # for reproducibility from keras.datasets import mnist from keras.models import Sequential from...

10
Когда мы должны считать набор данных несбалансированным?

Я сталкиваюсь с ситуацией, когда количество положительных и отрицательных примеров в наборе данных несбалансировано. Мой вопрос заключается в том, есть ли какие-то практические правила, которые говорят нам, когда нам следует отбирать большую категорию, чтобы навязать некоторый баланс в наборе...

10
Скачкообразное изменение в машинном обучении

Какова проблема скачкообразного изменения размеров в машинном обучении (возникающая в сверточных нейронных сетях и распознавании изображений)? Я гуглил об этом, но все, что я получаю, это информация о физике деформации формы материала. Для меня будет более полезным, если кто-нибудь объяснит это...

10
Как нормализовать данные для нейронной сети и леса принятия решений

У меня есть набор данных с 20000 сэмплами, каждый имеет 12 различных функций. Каждая выборка относится к категории 0 или 1. Я хочу обучить нейронную сеть и лес решений для классификации выборок, чтобы можно было сравнить результаты и оба метода. Первое, на что я наткнулся, это правильная...

10
Каково значение слияния моделей в Керасе?

Я узнал, что Keras обладает функциональностью для «объединения» двух моделей в соответствии со следующим: from keras.layers import Merge left_branch = Sequential() left_branch.add(Dense(32, input_dim=784)) right_branch = Sequential() right_branch.add(Dense(32, input_dim=784)) merged =...

10
Как экспортировать одну ячейку ноутбука Jupyter?

В настоящее время я работаю / создаю прототип в ноутбуке Jupyter . Я хочу запустить часть своего кода в отдельной оболочке iPython . Сейчас я экспортирую свой код iPython (file -> download as), а затем выполняю его на своем iPython (с% run). Это работает, но я хотел бы экспортировать только одну...

10
Предсказать лучшее время звонка

У меня есть набор данных, включающий набор клиентов в разных городах Калифорнии, время вызова для каждого клиента и статус вызова (True, если клиент отвечает на вызов, и False, если клиент не отвечает). Я должен найти подходящее время звонка для будущих клиентов, так что вероятность ответа на...

10
Визуализация предметов, часто покупаемых вместе

У меня есть набор данных в следующей структуре, вставленной в файл CSV: Banana Water Rice Rice Water Bread Banana Juice Каждая строка указывает коллекцию предметов, которые были куплены вместе. Например, первая строка обозначает, что элементыBanana , Waterи Riceбыли приобретены вместе. Я хочу...