Вопросы с тегом «efficiency»

Эффективность алгоритмической обработки обычно связана с использованием ресурсов. Метрики для оценки эффективности процесса обычно учитывают время выполнения, требования к памяти / диску или хранилищу, использование сети и энергопотребление.

86
Насколько велики большие данные?

Многие люди используют термин « большие данные» довольно коммерческим способом, чтобы показать, что в вычислениях участвуют большие наборы данных, и поэтому потенциальные решения должны иметь хорошую производительность. Конечно, большие данные всегда имеют связанные термины, такие как...

56
Когда модель недостаточно подходит?

Логика часто утверждает, что при недостаточном подборе модели ее способность к обобщению увеличивается. Тем не менее, в какой-то момент недооценка модели приводит к ухудшению моделей независимо от сложности данных. Как узнать, когда ваша модель достигла правильного баланса и не соответствует...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

14
Нужны, например, инфраструктурные стеки / рабочие процессы / конвейеры

Я пытаюсь понять, как все компоненты «больших данных» играют вместе в реальном случае, например, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, что это довольно широкий спектр инструментов, используемых для разные типы, но я хотел бы узнать больше об их взаимодействии в приложениях, например,...

12
Компромиссы между Storm и Hadoop (MapReduce)

Может ли кто-нибудь любезно рассказать мне о компромиссах, возникающих при выборе между Storm и MapReduce в Hadoop Cluster для обработки данных? Конечно, помимо очевидного, что Hadoop (обработка с помощью MapReduce в кластере Hadoop) является системой пакетной обработки, а Storm - системой...

12
Является ли FPGrowth по-прежнему «современным» в частом поиске паттернов?

Насколько мне известно, разработка алгоритмов для решения проблемы Frequen Pattern Mining (FPM), путь улучшения имеет несколько основных контрольных точек. Во-первых, алгоритм Apriori был предложен в 1993 году Agrawal et al. наряду с формализацией проблемы. Алгоритм был в состоянии убрать некоторые...

10
Почему трудно обеспечить эффективность при использовании библиотек?

Любая небольшая обработка базы данных может быть легко решена с помощью скриптов Python / Perl / ..., которые используют библиотеки и / или даже утилиты из самого языка. Тем не менее, когда дело доходит до производительности, люди склонны обращаться к языкам C / C ++ / низкого уровня. Кажется, что...

10
Какой метод индексирования данных наиболее эффективен?

Как все мы знаем, существуют некоторые методы индексации данных, использующиеся известными приложениями индексирования, такими как Lucene (для java) или Lucene.NET (для .NET), MurMurHash, B + Tree и т. Д. Для No-Sql / Object Ориентированная база данных (которую я пытаюсь написать / немного поиграть...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Как различные статистические методы (регрессия, PCA и т. Д.) Масштабируются в зависимости от размера и размера выборки?

Существует ли известная общая таблица статистических методов, объясняющих, как они масштабируются в зависимости от размера и размера выборки? Например, мой друг сказал мне на днях, что время вычисления простой быстрой сортировки одномерных данных размера n равно n * log (n). Так, например, если мы...