Статистика и большие данные

73
Почему нейронные сети становятся глубже, а не шире?

В последние годы сверточные нейронные сети (или, возможно, глубокие нейронные сети в целом) стали глубже и глубже: современные сети переходят от 7 уровней ( AlexNet ) до 1000 слоев ( остаточных сетей) в пространстве 4 года. Причиной повышения производительности в более глубокой сети является то,...

73
Как следует учитывать выбросы в линейном регрессионном анализе?

Часто статистическому аналитику передают набор данных и просят соответствовать модели, используя метод, такой как линейная регрессия. Очень часто набор данных сопровождается заявлением об отказе, похожем на «О, да, мы испортили сбор некоторых из этих точек данных - делай, что можешь». Эта ситуация...

73
Психологический журнал запретил р-значения и доверительные интервалы; действительно ли разумно прекратить их использование?

25 февраля 2015 года журнал « Базовая и прикладная социальная психология» опубликовал редакционную статью, запрещающую и доверительные интервалы во всех будущих статьях.ppp В частности, они говорят (форматирование и акцент мои): [...] перед публикацией авторы должны будут удалить все остатки NHSTP...

73
Модель для прогнозирования количества просмотров Youtube стиля Gangnam

Музыкальный клип PSY "Gangnam style" популярен, и спустя немногим более 2 месяцев его смотрят около 540 миллионов человек. Я узнал об этом от моих детей в возрасте до обеда на прошлой неделе, и вскоре дискуссия пошла в направлении того, можно ли сделать какое-то предсказание, сколько зрителей будет...

73
Работать в области интеллектуального анализа данных без PhD

Некоторое время я был очень заинтересован в интеллектуальном анализе данных и машинном обучении , отчасти потому, что я специализировался в этой области в школе, а также потому, что я действительно гораздо более взволнован, пытаясь решить проблемы, которые требуют немного больше размышлений, чем...

73
Выбор метода кластеризации

При использовании кластерного анализа в наборе данных для группировки аналогичных случаев необходимо выбирать из большого числа методов кластеризации и измерений расстояния. Иногда один выбор может влиять на другой, но существует множество возможных комбинаций методов. Кто-нибудь есть какие-либо...

73
Когда использовать рамки Фишера и Неймана-Пирсона?

В последнее время я много читал о различиях между методом проверки гипотез Фишера и школой мысли Неймана-Пирсона. Мой вопрос, игнорируя философские возражения на мгновение; когда мы должны использовать подход статистического моделирования Фишера, а когда следует использовать метод уровней...

73
Что такое «ограниченная максимальная вероятность» и когда ее следует использовать?

Я прочитал в реферате этой статьи, что: «Процедура максимального правдоподобия (ML) в Hartley aud Rao модифицируется путем адаптации преобразования Паттерсона и Томпсона, которое делит нормальность правдоподобия на две части, одна из которых не имеет фиксированных эффектов. Максимизация этой части...

73
Что такое «неинформативный априор»? Можем ли мы когда-нибудь иметь действительно без информации?

Вдохновленный комментарием к этому вопросу : Что мы считаем «неинформативным» в априоре - и какая информация все еще содержится в предположительно неинформативном априоре? Я обычно вижу приору в анализе, где это либо анализ по типу частых, пытающийся заимствовать некоторые хорошие части из...

73
Как простая модель логистической регрессии достигает 92% точности классификации по MNIST?

Несмотря на то, что все изображения в наборе данных MNIST центрированы с одинаковым масштабом и обращены вверх без поворотов, у них есть существенный разброс рукописного текста, который удивляет меня, как линейная модель достигает такой высокой точности классификации. Насколько я могу...

72
Связь между пуассоном и экспоненциальным распределением

Время ожидания для распределения Пуассона является экспоненциальным распределением с параметром лямбда. Но я этого не понимаю. Например, Пуассон моделирует количество прибывших за единицу времени. Как это связано с экспоненциальным распределением? Допустим, вероятность k прибытий в единицу времени...

72
Как вычислить точность / отзыв для классификации мультикласса и мультиметки?

Мне интересно, как рассчитать точность и вспомнить меры для мультиклассовой классификации с несколькими метками, то есть классификации, где существует более двух меток, и где каждый экземпляр может иметь несколько...

72
Эмпирические правила для минимального размера выборки для множественной регрессии

В рамках предложения по исследованию социальных наук мне был задан следующий вопрос: Я всегда использовал 100 + m (где m - количество предикторов) при определении минимального размера выборки для множественной регрессии. Это уместно? Я часто получаю похожие вопросы, часто с разными правилами. Я...

72
Каков полный список обычных предположений для линейной регрессии?

Каковы обычные предположения для линейной регрессии? Они включают в себя: линейная зависимость между независимой и зависимой переменной независимые ошибки нормальное распределение ошибок гомоскедастичность Есть ли...

72
Когда (если вообще когда-либо) подход с частыми подходами существенно лучше, чем байесовский?

Справочная информация : у меня нет официальной подготовки по байесовской статистике (хотя я очень заинтересован в получении дополнительной информации), но я знаю достаточно - я думаю - чтобы понять суть, почему многие считают, что они предпочтительнее, чем статистика Frequentist. Даже магистранты в...

72
Евклидово расстояние обычно не хорошо для разреженных данных?

Я где-то видел, что классические расстояния (например, евклидово расстояние) становятся слабо дискриминирующими, когда у нас имеются многомерные и разреженные данные. Почему? У вас есть пример двух разреженных векторов данных, где евклидово расстояние не работает хорошо? В этом случае какое...

72
Какова роль логарифма в энтропии Шеннона?

Энтропия Шеннона является отрицательной суммой вероятностей каждого результата, умноженной на логарифм вероятностей для каждого результата. Какой цели служит логарифм в этом уравнении? Интуитивно понятный или визуальный ответ (в отличие от глубоко математического ответа) получит бонусные...