Статистика и большие данные

55
Более определенное обсуждение выбора переменных

Фон Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного...

55
Кто частые?

У нас уже была ветка, спрашивающая, кто такие байесовцы, и одна, спрашивающая, являются ли частые лица байесовскими , но не было ветки, спрашивающей, кто такие частые ? Этот вопрос был задан @whuber в качестве комментария к этой теме, и он требует ответа. Существуют ли они (есть ли...

55
Что такое глобальный уровень максимального пула и в чем его преимущество перед уровнем максимального пула?

Может кто-нибудь объяснить, что такое глобальный уровень максимального пула и почему и когда мы используем его для обучения нейронной сети. Есть ли у них какое-либо преимущество перед обычным максимальным слоем...

54
Введение в статистику для математиков

Что такое хорошее введение в статистику для математика, который уже хорошо разбирается в вероятности? У меня есть две разные причины для того, чтобы спрашивать, что может привести к различным предложениям: Я хотел бы лучше понять мотивацию статистики, стоящую за многими проблемами, рассмотренными...

54
Математическая статистика Видео

Вопрос ранее искал рекомендации для учебников по математической статистике Кто-нибудь знает какие-нибудь хорошие онлайн видео лекции по математической статистике ? Самые близкие, которые я нашел: Машинное обучение эконометрия ОБНОВЛЕНИЕ: Ряд предложений, упомянутых ниже, являются хорошими...

54
Лучший алгоритм PCA для огромного количества функций (> 10K)?

Ранее я спрашивал об этом в StackOverflow, но кажется, что это может быть более уместным, учитывая, что он не получил никаких ответов по SO. Это своего рода на пересечении статистики и программирования. Мне нужно написать код для PCA (Анализ основных компонентов). Я просмотрел известные алгоритмы и...

54
Является ли корректной корректировка значений p в множественной регрессии для множественных сравнений?

Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых...

54
Нужны ли нам глобальные тесты перед специальными тестами?

Я часто слышу, что специальные тесты после ANOVA можно использовать только в том случае, если сам ANOVA был значительным. Тем не менее, после специальных испытаний корректируют чтобы поддерживать общий уровень ошибок типа I на уровне 5%, не так ли?ppp Итак, зачем нам сначала нужен глобальный тест?...

54
Ковариантность и независимость?

Я прочитал из своего учебника, что не гарантирует, что X и Y независимы. Но если они независимы, их ковариация должна быть 0. Я пока не мог придумать ни одного правильного примера; кто-то может предоставить...

54
Справочник по линейной алгебре применительно к статистике?

Я немного работал в R и сталкивался с такими вещами, как PCA, SVD, QR-разложения и многими такими результатами линейной алгебры (при проверке оценки взвешенных регрессий и т. Д.), Поэтому я хотел знать, есть ли у кого-нибудь рекомендации относительно хорошего всеобъемлющая книга по линейной...

54
Как определиться с правильным количеством кластеров?

Мы находим центры кластеров и присваиваем точки k различным блокам кластеров в кластеризации k-средних, которая является очень хорошо известным алгоритмом и встречается почти в каждом пакете машинного обучения в сети. Но пропущенная и самая важная часть, на мой взгляд, это выбор правильного k....

54
Использование анализа основных компонентов (PCA) для выбора функций

Я новичок в выборе функций, и мне было интересно, как вы будете использовать PCA для выбора функций. Вычисляет ли PCA относительную оценку для каждой входной переменной, которую можно использовать для фильтрации неинформативных входных переменных? По сути, я хочу иметь возможность упорядочивать...

54
Актуальна ли выборка во время «больших данных»?

Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки. Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой...

54
Многомерная линейная регрессия против нейронной сети?

Похоже, что в некоторых случаях можно получить результаты, аналогичные нейронной сети с многомерной линейной регрессией, а многомерная линейная регрессия супер быстрая и простая. При каких обстоятельствах нейронные сети могут давать лучшие результаты, чем многомерная линейная...

54
Примеры байесовского и частотного подхода, дающего разные ответы

Примечание: Я нахожусь в курсе философских различий между Байесом и частотной статистикой. Например, «какова вероятность того, что монета на столе - это головы» не имеет смысла в статистике частых случаев, поскольку у нее уже есть приземленные головы или хвосты - в этом нет ничего вероятностного....

54
Реальные примеры процессов скользящих средних

Можете ли вы привести некоторые примеры из реальной жизни временных рядов, для которых процесс скользящего среднего порядка : есть какая- то априорная причина быть хорошей моделью? По крайней мере, для меня авторегрессионные процессы кажутся интуитивно понятными, в то время как процессы МА не...

54
Основной вопрос о информационной матрице Фишера и связи с гессианскими и стандартными ошибками

Хорошо, это довольно простой вопрос, но я немного запутался. В своей диссертации я пишу: Стандартные ошибки могут быть найдены путем вычисления обратного корня квадратного из диагональных элементов (наблюдаемой) информационной матрицы Фишера: Так как команда оптимизации в R...

54
Использование глубокого обучения для прогнозирования временных рядов

Я новичок в области глубокого обучения, и для меня первым шагом было прочитать интересные статьи с сайта deeplearning.net. В статьях о глубоком обучении Хинтон и другие в основном говорят о применении его к проблемам изображения. Может кто-нибудь попытаться ответить мне, может ли это быть применено...

54
Удерживающая проверка против перекрестной проверки

Мне кажется, что проверка не нужна. То есть разделение исходного набора данных на две части (обучение и тестирование) и использование результатов тестирования в качестве обобщающей меры несколько бесполезны. K-кратная перекрестная проверка, кажется, дает лучшие приближения к обобщению (поскольку...