Вопросы с тегом «large-data»

191

Как мне преобразовать неотрицательные данные, включая нули?

Если у меня сильно искажены положительные данные, я часто беру логи. Но что мне делать с сильно искаженными неотрицательными данными, которые содержат нули? Я видел два использованных преобразования: журнал( х + 1 )log⁡(x+1)\log(x+1) который имеет аккуратную особенность, которая 0 отображается на...

data-transformation large-data

129

Являются ли большие наборы данных неподходящими для проверки гипотез?

В недавней статье в Amstat Новости , авторы (Марк ван дер Лан и Шерри Роуз) заявил , что «Мы знаем , что для достаточно больших размеров выборки, каждое исследование, в том числе те , в которых нулевая гипотеза об отсутствии эффекта верно - будет объявить статистически значимый эффект. Ну, я,...

hypothesis-testing sample-size dataset large-data

107

Какие навыки необходимы для проведения крупномасштабного статистического анализа?

Многие статистические работы требуют опыта работы с крупномасштабными данными. Какие виды статистических и вычислительных навыков понадобятся для работы с большими наборами данных. Например, как насчет построения регрессионных моделей с учетом набора данных с 10 миллионами...

regression machine-learning multivariate-analysis large-data

56

Проблемы промышленности и Kaggle. Собирать больше наблюдений и иметь доступ к большему количеству переменных важнее, чем модное моделирование?

Я надеюсь, что название говорит само за себя. В Kaggle большинство победителей используют стеки с иногда сотнями базовых моделей, чтобы выжать несколько лишних% MSE, точность ... В целом, по вашему опыту, насколько важно модное моделирование, такое как стекирование, а не просто сбор большего...

large-data stacking collecting-data kaggle

54

Актуальна ли выборка во время «больших данных»?

Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки. Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой...

sampling data-mining large-data

48

Каков хороший алгоритм для оценки медианы огромного набора данных с однократным чтением?

Я ищу хороший алгоритм (подразумевающий минимальные вычисления, минимальные требования к хранилищу) для оценки медианы набора данных, который слишком велик для хранения, так что каждое значение может быть прочитано только один раз (если вы явно не сохраните это значение). На данных, которые можно...

algorithms median large-data

44

Что такое большие данные?

Мне несколько раз задавали вопрос: Что такое Big-Data? И студентами, и моими родственниками, которые накапливают шум вокруг статистики и ML. Я нашел это резюме . И я чувствую, что согласен с единственным ответом там. На странице Википедии также есть некоторые комментарии, но я не уверен,...

large-data

40

Как сделать правильные выводы из «больших данных»?

«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь из. Но...

data-mining dataset large-data validation

37

Размер эффекта как гипотеза для проверки значимости

Сегодня в клубе Cross Validated Journal (почему вас там не было?) @Mbq спросил: Как вы думаете, мы (современные исследователи данных) знаем, что означает значение? И как это связано с нашей уверенностью в наших результатах? @Michelle ответил так, как обычно делают некоторые (включая меня): Я нахожу...

hypothesis-testing p-value large-data

35

Свободный набор данных для очень высокой размерной классификации [закрыто]

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который...

machine-learning classification dataset large-data

29

Полиномиальная регрессия с использованием scikit-learn

Я пытаюсь использовать scikit-learn для полиномиальной регрессии. Из того, что я прочитал, полиномиальная регрессия является частным случаем линейной регрессии. Я прыгал, что, возможно, одна из обобщенных линейных моделей Scikit может быть параметризована для соответствия полиномам более высокого...

regression machine-learning large-data polynomial scikit-learn

27

Программное обеспечение для статистики и интеллектуального анализа данных для работы с большими наборами данных

В настоящее время мне нужно проанализировать около 20 миллионов записей и построить модели прогнозирования. До сих пор я опробовал Statistica, SPSS, RapidMiner и R. Среди них Statistica кажется наиболее подходящим для работы с интеллектуальным анализом данных, а пользовательский интерфейс...

large-data software data-mining

25

Состояние потокового обучения

В последнее время я работал с большими наборами данных и нашел много статей о потоковых методах. Назвать несколько: Follow-the-Regularized-Leader и зеркальный спуск: теоремы об эквивалентности и регуляризация L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Потоковое...

machine-learning references large-data online

24

Как визуализировать огромную разреженную таблицу непредвиденных обстоятельств?

У меня есть две переменные: название лекарственного средства (DN) и соответствующие нежелательные явления (AE), которые находятся в отношении многих ко многим. Есть 33 556 наименований лекарств и 9 516 побочных эффектов. Размер выборки составляет около 5,8 миллиона наблюдений. Я хочу изучить и...

r categorical-data data-visualization large-data association-measure

21

Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

21

Первый шаг для больших данных ( , )

Предположим, вы анализируете огромный набор данных из миллиардов наблюдений в день, где каждое наблюдение имеет несколько тысяч разреженных и, возможно, избыточных числовых и категориальных переменных. Скажем, есть одна проблема регрессии, одна проблема неуравновешенной двоичной классификации и...

r machine-learning data-mining large-data

18

Действительно ли мы проводим многомерный регрессионный анализ с * миллионами * коэффициентов / независимых переменных?

Я провожу некоторое время, изучая машинное обучение (извините за рекурсию :), и я не мог не заинтриговать эмпирическое правило выбора градиентного спуска вместо прямого решения уравнений для вычисления коэффициентов регрессии, в случае многомерной линейной регрессии. 10 , 000 - 1 , 000 ,...

machine-learning multiple-regression large-data

18

Опции анализа неосновных данных

Я профессионально использую SAS около 5 лет. Он установлен на моем ноутбуке, и мне часто приходится анализировать наборы данных с 1000-2000 переменных и сотнями тысяч наблюдений. Я искал альтернативы SAS, которые позволили бы мне проводить анализ наборов данных аналогичного размера. Мне любопытно,...

r sas large-data

17

Пуассоновская регрессия с большими данными: неправильно ли менять единицу измерения?

Из-за факториала в распределении Пуассона становится непрактичным оценивать модели Пуассона (например, с использованием максимальной вероятности), когда наблюдения велики. Так, например, если я пытаюсь оценить модель для объяснения количества самоубийств в конкретном году (доступны только годовые...

modeling poisson-distribution large-data

16

Онлайн алгоритм для среднего абсолютного отклонения и большого набора данных

У меня есть небольшая проблема, которая заставляет меня волноваться. Я должен написать процедуру для онлайн-процесса приобретения многомерного временного ряда. На каждом временном интервале (например, 1 секунда) я получаю новую выборку, которая в основном представляет собой вектор с плавающей...

algorithms quantiles online large-data