Статистика и большие данные

110
Обнаружение данного лица в базе данных изображений лица

Я работаю над небольшим проектом с участием лиц пользователей твиттера через их фотографии в профиле. Проблема, с которой я столкнулся, заключается в том, что после того, как я отфильтрую все, кроме изображений, которые являются четкими портретными фотографиями, небольшой, но значительный процент...

110
Что если остатки нормально распределены, а у нет?

У меня странный вопрос. Предположим, что у вас есть небольшая выборка, в которой зависимая переменная, которую вы собираетесь анализировать с помощью простой линейной модели, сильно искажена. Таким образом, вы предполагаете, что не является нормально распределенным, потому что это приведет к...

110
Градиентное дерево против случайного леса

Повышение градиентного дерева, предложенное Фридманом, использует деревья решений в качестве базовых учеников. Мне интересно, должны ли мы сделать базовое дерево решений настолько сложным, насколько это возможно (полностью выросло) или проще? Есть ли объяснение выбора? Случайный лес - это еще один...

109
Как бы вы объяснили разницу между корреляцией и ковариацией?

В продолжение этого вопроса: Как бы вы объяснили ковариацию тому, кто понимает только среднее? , который касается вопроса об объяснении ковариации для непрофессионала, поднял аналогичный вопрос в моей голове. Как объяснить статистику-новичку разницу между ковариацией и корреляцией ? Кажется, что...

108
Результаты выборов в США 2016: что пошло не так с моделями прогнозирования?

Сначала это был Brexit , теперь выборы в США. Многие модельные прогнозы были отклонены с большой разницей, и есть ли уроки, которые нужно здесь извлечь? Вчера в 16:00 по тихоокеанскому времени рынки ставок по-прежнему предпочитали Хиллари 4: 1. Я полагаю, что рынки ставок с реальными деньгами на...

107
Существует ли интуитивная интерпретация для матрицы данных ?

Для данной матрицы данных (с переменными в столбцах и точками данных в строках) кажется, что играет важную роль в статистике. Например, это важная часть аналитического решения обычных наименьших квадратов. Или, для PCA, его собственные векторы являются основными компонентами данных.AAAATAATAA^TA Я...

107
Что такое правило .632+ в начальной загрузке?

Здесь @gung ссылается на правило .632+. Быстрый поиск в Google не дает простого для понимания ответа о том, что означает это правило и для какой цели оно используется. Кто-нибудь, пожалуйста, проясните правило...

107
Какие навыки необходимы для проведения крупномасштабного статистического анализа?

Многие статистические работы требуют опыта работы с крупномасштабными данными. Какие виды статистических и вычислительных навыков понадобятся для работы с большими наборами данных. Например, как насчет построения регрессионных моделей с учетом набора данных с 10 миллионами...

107
Почему точность не является наилучшей мерой для оценки моделей классификации?

Это общий вопрос, который косвенно задавался здесь несколько раз, но в нем нет ни одного авторитетного ответа. Было бы здорово иметь подробный ответ на этот вопрос для справки. Точность , доля правильных классификаций среди всех классификаций, является очень простой и очень «интуитивно понятной»...

106
Что означает свертка 1x1 в нейронной сети?

В настоящее время я занимаюсь учебником по углубленному изучению Udacity. В уроке 3 они говорят о свертке 1x1. Эта свертка 1x1 используется в начальном модуле Google. У меня проблемы с пониманием, что такое свертка 1x1. Я также видел этот пост от Янн Лекун. Может ли кто-нибудь любезно объяснить это...

104
Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания

Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза. Работает ли лучше для небольших наборов данных или больших наборов...

104
Какие неправильно используемые статистические термины стоит исправить?

Статистика везде; однако, часто используются статистические термины, которые не всегда ясны. Термины вероятность и шансы используются взаимозаменяемо в английском языке, несмотря на их четкие и разные математические выражения. Отсутствие разделения термина « вероятность и вероятность» обычно...

102
Как раздражать статистического судью?

Недавно я задал вопрос об общих принципах рассмотрения статистики в документах . Теперь я хотел бы спросить, что особенно раздражает вас при просмотре статьи, то есть, как лучше всего раздражать статистического судью! Один пример за ответ,...

101
Пакетный градиентный спуск против стохастического градиентного спуска

Предположим, у нас есть некоторый обучающий набор ( х( я ), у( я ))(x(i),y(i))(x_{(i)}, y_{(i)}) для я = 1 , … , мi=1,…,mi = 1, \dots, m . Также предположим, что мы запускаем некоторый тип контролируемого алгоритма обучения на тренировочном наборе. Гипотезы представлены в виде часθ( х( я )) = θ0+...

101
Удаление статистически значимого члена перехвата увеличивает в линейной модели

В простой линейной модели с одной объясняющей переменной αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Я считаю, что удаление члена перехвата значительно улучшает соответствие (значение идет от 0,3 до 0,9). Однако термин «перехват» представляется статистически...

100
ASA обсуждает ограничения

У нас уже есть несколько потоков, помеченных как p-значения, которые показывают много недоразумений о них. Десять месяцев назад мы имели нить о психологическом журнале , что «запрещено» -значенияпpp р , в настоящее время Американской статистической ассоциации (2016) говорит , что с нашим анализом...

99
Книги для самостоятельного изучения временных рядов?

Я начал с анализа временных рядов Гамильтона, но безнадежно потерян. Эта книга действительно слишком теоретическая, чтобы я мог учиться сам. У кого-нибудь есть рекомендации для учебника по анализу временных рядов, который подходит для самостоятельного изучения?...