Статистика и большие данные

55

Более определенное обсуждение выбора переменных

Фон Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного...

regression feature-selection model-selection

55

Кто частые?

У нас уже была ветка, спрашивающая, кто такие байесовцы, и одна, спрашивающая, являются ли частые лица байесовскими , но не было ветки, спрашивающей, кто такие частые ? Этот вопрос был задан @whuber в качестве комментария к этой теме, и он требует ответа. Существуют ли они (есть ли...

bayesian frequentist

55

Что такое глобальный уровень максимального пула и в чем его преимущество перед уровнем максимального пула?

Может кто-нибудь объяснить, что такое глобальный уровень максимального пула и почему и когда мы используем его для обучения нейронной сети. Есть ли у них какое-либо преимущество перед обычным максимальным слоем...

neural-networks conv-neural-network pooling

54

Введение в статистику для математиков

Что такое хорошее введение в статистику для математика, который уже хорошо разбирается в вероятности? У меня есть две разные причины для того, чтобы спрашивать, что может привести к различным предложениям: Я хотел бы лучше понять мотивацию статистики, стоящую за многими проблемами, рассмотренными...

references

54

Математическая статистика Видео

Вопрос ранее искал рекомендации для учебников по математической статистике Кто-нибудь знает какие-нибудь хорошие онлайн видео лекции по математической статистике ? Самые близкие, которые я нашел: Машинное обучение эконометрия ОБНОВЛЕНИЕ: Ряд предложений, упомянутых ниже, являются хорошими...

mathematical-statistics references

54

Стандартное отклонение стандартного отклонения

Что такое оценка стандартного отклонения стандартного отклонения, если можно предположить нормальность

estimation standard-deviation normality-assumption

54

Лучший алгоритм PCA для огромного количества функций (> 10K)?

Ранее я спрашивал об этом в StackOverflow, но кажется, что это может быть более уместным, учитывая, что он не получил никаких ответов по SO. Это своего рода на пересечении статистики и программирования. Мне нужно написать код для PCA (Анализ основных компонентов). Я просмотрел известные алгоритмы и...

pca algorithms model-evaluation high-dimensional

54

Является ли корректной корректировка значений p в множественной регрессии для множественных сравнений?

Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых...

regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

54

Нужны ли нам глобальные тесты перед специальными тестами?

Я часто слышу, что специальные тесты после ANOVA можно использовать только в том случае, если сам ANOVA был значительным. Тем не менее, после специальных испытаний корректируют чтобы поддерживать общий уровень ошибок типа I на уровне 5%, не так ли?ppp Итак, зачем нам сначала нужен глобальный тест?...

anova statistical-significance post-hoc

54

Ковариантность и независимость?

Я прочитал из своего учебника, что не гарантирует, что X и Y независимы. Но если они независимы, их ковариация должна быть 0. Я пока не мог придумать ни одного правильного примера; кто-то может предоставить...

independence covariance

54

Справочник по линейной алгебре применительно к статистике?

Я немного работал в R и сталкивался с такими вещами, как PCA, SVD, QR-разложения и многими такими результатами линейной алгебры (при проверке оценки взвешенных регрессий и т. Д.), Поэтому я хотел знать, есть ли у кого-нибудь рекомендации относительно хорошего всеобъемлющая книга по линейной...

references matrix linear-algebra weighted-regression

54

Как определиться с правильным количеством кластеров?

Мы находим центры кластеров и присваиваем точки k различным блокам кластеров в кластеризации k-средних, которая является очень хорошо известным алгоритмом и встречается почти в каждом пакете машинного обучения в сети. Но пропущенная и самая важная часть, на мой взгляд, это выбор правильного k....

clustering k-means

54

Использование анализа основных компонентов (PCA) для выбора функций

Я новичок в выборе функций, и мне было интересно, как вы будете использовать PCA для выбора функций. Вычисляет ли PCA относительную оценку для каждой входной переменной, которую можно использовать для фильтрации неинформативных входных переменных? По сути, я хочу иметь возможность упорядочивать...

r pca feature-selection

54

Актуальна ли выборка во время «больших данных»?

Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки. Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой...

sampling data-mining large-data

54

Многомерная линейная регрессия против нейронной сети?

Похоже, что в некоторых случаях можно получить результаты, аналогичные нейронной сети с многомерной линейной регрессией, а многомерная линейная регрессия супер быстрая и простая. При каких обстоятельствах нейронные сети могут давать лучшие результаты, чем многомерная линейная...

regression multiple-regression neural-networks

54

Примеры байесовского и частотного подхода, дающего разные ответы

Примечание: Я нахожусь в курсе философских различий между Байесом и частотной статистикой. Например, «какова вероятность того, что монета на столе - это головы» не имеет смысла в статистике частых случаев, поскольку у нее уже есть приземленные головы или хвосты - в этом нет ничего вероятностного....

bayesian frequentist

54

Реальные примеры процессов скользящих средних

Можете ли вы привести некоторые примеры из реальной жизни временных рядов, для которых процесс скользящего среднего порядка : есть какая- то априорная причина быть хорошей моделью? По крайней мере, для меня авторегрессионные процессы кажутся интуитивно понятными, в то время как процессы МА не...

time-series arima interpretation moving-average

54

Основной вопрос о информационной матрице Фишера и связи с гессианскими и стандартными ошибками

Хорошо, это довольно простой вопрос, но я немного запутался. В своей диссертации я пишу: Стандартные ошибки могут быть найдены путем вычисления обратного корня квадратного из диагональных элементов (наблюдаемой) информационной матрицы Фишера: Так как команда оптимизации в R...

maximum-likelihood fisher-information

54

Использование глубокого обучения для прогнозирования временных рядов

Я новичок в области глубокого обучения, и для меня первым шагом было прочитать интересные статьи с сайта deeplearning.net. В статьях о глубоком обучении Хинтон и другие в основном говорят о применении его к проблемам изображения. Может кто-нибудь попытаться ответить мне, может ли это быть применено...

time-series machine-learning prediction deep-learning deep-belief-networks

54

Удерживающая проверка против перекрестной проверки

Мне кажется, что проверка не нужна. То есть разделение исходного набора данных на две части (обучение и тестирование) и использование результатов тестирования в качестве обобщающей меры несколько бесполезны. K-кратная перекрестная проверка, кажется, дает лучшие приближения к обобщению (поскольку...

machine-learning cross-validation validation