Вопросы с тегом «bigdata»

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

12
Компромиссы между Storm и Hadoop (MapReduce)

Может ли кто-нибудь любезно рассказать мне о компромиссах, возникающих при выборе между Storm и MapReduce в Hadoop Cluster для обработки данных? Конечно, помимо очевидного, что Hadoop (обработка с помощью MapReduce в кластере Hadoop) является системой пакетной обработки, а Storm - системой...

12
Как запрос в огромную базу данных возвращает с незначительной задержкой?

Например, при поиске в Google результаты возвращаются практически мгновенно. Я понимаю, что Google сортирует и индексирует страницы с помощью алгоритмов и т. Д., Но я считаю невозможным индексировать результаты каждого отдельного запроса (и результаты персонализируются, что делает это еще более...

12
Что такое «старое имя» специалиста по данным?

Такие термины, как «наука о данных» и «ученый данных» все чаще используются в наши дни. Многие компании нанимают «ученого данных». Но я не думаю, что это совершенно новая работа. Данные существовали из прошлого, и кто-то должен был иметь дело с данными. Я думаю, что термин «ученый данных»...

12
Алгоритм сопоставления предпочтений

Есть этот побочный проект, над которым я работаю, где мне нужно структурировать решение следующей проблемы. У меня есть две группы людей (клиентов). Группа Aнамеревается купить, и группа Bнамеревается продать определенный продукт X. Продукт имеет ряд атрибутов x_i, и моя цель состоит в том, чтобы...

11
Работа с кластерами HPC

В моем университете у нас есть вычислительный кластер HPC. Я использую кластер для обучения классификаторов и так далее. Поэтому, обычно для отправки задания в кластер (например, сценарий python scikit-learn) мне нужно написать сценарий Bash, который содержит (среди прочего) такую ​​команду qsub...

10
Избегайте перезагрузки DataFrame между разными ядрами Python

Есть ли способ сохранить переменную (большой стол / фрейм данных) в памяти и разделить ее между несколькими ноутбуками ipython? Я бы искал что-то, что концептуально похоже на постоянные переменные MATLAB. Там можно вызывать пользовательскую функцию / библиотеку из нескольких отдельных редакторов...

10
Как различные статистические методы (регрессия, PCA и т. Д.) Масштабируются в зависимости от размера и размера выборки?

Существует ли известная общая таблица статистических методов, объясняющих, как они масштабируются в зависимости от размера и размера выборки? Например, мой друг сказал мне на днях, что время вычисления простой быстрой сортировки одномерных данных размера n равно n * log (n). Так, например, если мы...

10
Что быстрее: PostgreSQL против MongoDB на больших наборах данных JSON?

У меня есть большой набор данных с 9-метровыми объектами JSON по ~ 300 байт каждый. Это сообщения из агрегатора ссылок: в основном ссылки (URL, заголовок и идентификатор автора) и комментарии (текст и идентификатор автора) + метаданные. Они вполне могут быть реляционными записями в таблице, за...

10
Масштабируемый выброс / обнаружение аномалий

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов,...

10
Почему трудно обеспечить эффективность при использовании библиотек?

Любая небольшая обработка базы данных может быть легко решена с помощью скриптов Python / Perl / ..., которые используют библиотеки и / или даже утилиты из самого языка. Тем не менее, когда дело доходит до производительности, люди склонны обращаться к языкам C / C ++ / низкого уровня. Кажется, что...

10
Обработка регулярно растущего набора функций

Я работаю над системой обнаружения мошенничества. В этом поле регулярно появляются новые случаи мошенничества, поэтому новые функции необходимо добавлять в модель на постоянной основе. Интересно, как лучше всего справиться с этим (с точки зрения процесса разработки)? Простое добавление новой...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

9
Распознавание человеческой деятельности с помощью набора данных смартфона

Я новичок в этом сообществе, и, надеюсь, мой вопрос вполне уместится здесь. В рамках моего курса по анализу данных для студентов я выбрал проект по распознаванию человеческой деятельности с использованием наборов данных смартфона. Что касается меня, то эта тема касается машинного обучения и опорных...