Каковы отрасли статистики?

30

В математике есть такие отрасли, как алгебра, анализ, топология и т. Д. В машинном обучении есть обучение под присмотром, без присмотра и подкрепление. В каждой из этих ветвей есть более тонкие ветви, которые еще больше разделяют методы.

У меня проблемы с проведением параллели со статистикой. Какими будут основные отрасли статистики (и подотрасли)? Идеальный раздел, вероятно, не возможен, но все же лучше, чем большая пустая карта.

Наглядные примеры: введите описание изображения здесь введите описание изображения здесь

silly.deer
источник
6
Чтобы предложить еще одну причину, по которой этот вопрос не может быть решен (и почему, возможно, предпосылка неуместна): плохо понимается, что цель сложной теоретической науки (например, математики) состоит в том, чтобы обобщать, а не специализировать . Поэтому, если бы мы могли визуализировать траекторию успешного исследования в этой области, мы бы не увидели, что она разветвляется на более мелкие, более утонченные ветви, а скорее представляют собой линзу, постоянно расширяющуюся в более абстрактные концепции и мысли.
AdamO
Ответ @Rob Hyndman все еще кажется мне удачным. Я очень скептически отношусь к любой классификации здесь. Кроме того, это такое же хорошее место, как и любое другое, чтобы указать, что список тем, которые встречаются с кем-то, далеко не соответствует древовидной классификации. И хотя дендрограммы или репелленты мягко заинтриговывают, какую реальную пользу или интерес они приносят помимо демонстрации разнообразной природы поля?
Ник Кокс

Ответы:

52

Я считаю эти системы классификации крайне бесполезными и противоречивыми. Например:

  • нейронные сети является формой контролируемого обучения
  • Исчисление используется в дифференциальной геометрии
  • Теория вероятностей может быть формализована как часть теории множеств

и так далее. В математике нет однозначных «ветвей» и статистики не должно быть.

Роб Хиндман
источник
11
«Нейронные сети - это форма контролируемого обучения». Это не совсем верно, не так ли? Я имею в виду, что можно использовать (и использовать) NN в обучении под наблюдением, в обучении без присмотра и даже в обучении с подкреплением! Ну, по крайней мере, концепция нейронных сетей (это просто огромная нелинейная функция, которая может быть оптимизирована с помощью различных методов оптимизации, среди которых SL, UL и RL). Но, возможно, терминология просто используется так, как вы ее используете, в этом случае ... любой может быть прав.
BlueRine S
7
Конечно, нет правды, но это не очень полезно. Есть ли модель, которая удовлетворяет потребности ОП?
Джей Шайлер Раадт
3
Роб прав. Деревья решений используются в регрессии, и AdaBoost является методом классификации, но карта не показывает этого.
Дзен
4
Признаюсь, я не очень понимаю эту точку зрения. В учебнике по статистике также должна быть организована определенная последовательность глав, и страница содержания отражает эту организацию. Структура страницы содержимого передает, по крайней мере, некоторую информацию о том, как организованы концепции поля, и это происходит гораздо более ограниченным образом, чем допускает визуализация. Если ни у кого нет проблем с существованием страниц содержания учебника, даже если они не отражают сложность поля, я не понимаю, почему можно было бы возражать против визуализации, подобной той, на которую надеется ОП.
mkt - Восстановить Монику
4
Учебники не структурированы иерархически, они структурированы линейно. Позже в книге часто развиваются связи между ранними главами, показывающие, что темы, представленные ранее отдельно, на самом деле связаны между собой. Возьмем для примера мой собственный учебник по прогнозированию, в котором мы представим модели динамической регрессии в следующей главе, связывающие модели регрессии и ARIMA, представленные ранее.
Роб Хиндман
29

Это незначительный контрапункт ответа Роба Хиндмана. Это началось как комментарий, а затем стало слишком сложным для одного. Если это слишком далеко от решения основного вопроса, я прошу прощения и удалю его.


Биология изображает иерархические отношения задолго до первого дарвиновского рисунка (см. Комментарий Ника Кокса). Большинство эволюционных отношений все еще показаны с этим типом красивого, чистого, ветвящегося «филогенетического дерева»:

введите описание изображения здесь Однако в конце концов мы поняли, что биология сложнее, чем эта. Иногда происходит генетический обмен (посредством скрещивания и других процессов) между различными видами и генами, присутствующими в одной части дерева, «прыгают» в другую часть дерева. Горизонтальный перенос генов перемещает гены таким образом, что делает простое изображение дерева выше неточным. Однако мы не отказались от деревьев, а просто создали модификации для этого типа визуализации:

То же, что и на предыдущем рисунке, но с переносом гена в разных ветвях

За этим труднее следовать, но он дает более точную картину реальности.

Другой пример:

введите описание изображения здесь

Тем не менее, мы никогда не представляем эти более сложные фигуры, потому что их трудно понять без понимания основных понятий. Вместо этого мы учим основную идею простой фигуре, а затем представляем им более сложную фигуру и новые сложности в истории.

Любая «карта» статистики также будет и неточной, и ценным учебным пособием. Визуализации в форме, которую предлагает OP, очень полезны для студентов и не должны игнорироваться только потому, что они не в состоянии охватить реальность в целом. Мы можем добавить больше сложности к картине, как только у них будет базовая структура.

mkt - восстановить монику
источник
4
FWIW, древовидные представления об отношениях между организмами, предшествовавшие Дарвину. Я добавлю ссылку позже.
Ник Кокс
2
jhupbooks.press.jhu.edu/title/trees-life является научным, но привлекательным.
Ник Кокс
3
Не столько контрапункт, сколько вспомогательный аргумент: ставить под сомнение действительность деревьев. По крайней мере, с филогенией мы используем данные для создания такой структуры, будь то ископаемые записи, экспрессия генов, что угодно. Без данных мы серьезно спрашиваем, кто имеет полномочия выбирать блоки и стрелки, которые распространяют дезинформацию.,
AdamO
2
@AdamO Я не ожидаю существования единой универсальной статистики. Совершенно разумно, чтобы два человека использовали разные структуры и разные наборы связей, хотя можно было бы ожидать, что широкая структура будет достаточно устойчивой (различия между уровнями также возникают между филогенетическими деревьями, построенными из одного и того же набора данных, хотя на этом этапе мы растягивая метафору слишком далеко). Я бы сказал, что опыт (за исключением понятий авторитета на данный момент) существует среди многих людей, которые написали учебники по общей статистике или даже преподавали общую статистику.
mkt - Восстановить Монику
2
Мне понравились диаграммы здесь достаточно, чтобы выразить это, но это действительно не отвечает на вопрос.
Ник Кокс
24

Вы можете посмотреть ключевые слова / теги на веб-сайте Cross Validated.


Филиалы как сеть

Один из способов сделать это - построить его как сеть, основанную на отношениях между ключевыми словами (как часто они совпадают в одном и том же сообщении).

Когда вы используете этот sql-скрипт для получения данных сайта с (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Затем вы получите список ключевых слов для всех вопросов с оценкой 2 или выше.

Вы можете изучить этот список, нарисовав что-то вроде следующего:

отношения между тегами

Обновление: то же самое с цветом (на основе собственных векторов матрицы отношений) и без тега самообучения

отношения между тегами

Вы можете очистить этот график немного дальше (например, убрать теги, которые не относятся к статистическим понятиям, такие как программные теги, на приведенном выше графике это уже сделано для тега 'r') и улучшить визуальное представление, но я думаю, что это изображение выше уже показывает хорошую отправную точку.

R-код:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Иерархические ветви

Я полагаю, что этот тип сетевых графиков выше относится к некоторым критическим замечаниям относительно чисто разветвленной иерархической структуры. Если вам нравится, я думаю, вы могли бы выполнить иерархическую кластеризацию, чтобы превратить ее в иерархическую структуру.

Ниже приведен пример такой иерархической модели. Еще нужно найти правильные имена групп для различных кластеров (но я не думаю, что эта иерархическая кластеризация является хорошим направлением, поэтому я оставляю ее открытой).

иерархическая кластеризация

Измерение расстояния для кластеризации было найдено методом проб и ошибок (внесение корректировок, пока кластеры не появятся хорошо.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Автор StackExchangeStrike

Секст Эмпирик
источник
2
Может быть, я приложу некоторые усилия, чтобы сделать графики более аккуратными. Было бы неплохо иметь четкие графики, которые отображают темы на этом сайте.
Секст Эмпирик
1
Это отличный подход! Красиво сделано.
Эндрю Бреза
Из вашего цветного графика три большие области - это вероятность, регрессия и машинное обучение.
Мэтт Ф.
@MattF. график на самом деле немного проблематичен и больше соответствует частоте использования. Я пытался масштабировать матрицу по частоте (например, переключение с ковариационной матрицы на матрицу корреляции), но она не сильно изменилась. 2D-график не очень хорошо показывает структуру, а физическая модель, которая рассматривает пути как строки, помещает узлы в шестиугольную / треугольную форму (что наиболее эффективно).
Секст Эмпирик
1
Я бы сказал, что на стековом потоке это пять основных категорий: вероятность, регрессия, машинное обучение, а также проверка гипотез и временные ряды.
Секст Эмпирик
9

Самый простой способ ответить на ваш вопрос - найти общие таблицы классификации. Например, Математическая предметная классификация 2010 года используется некоторыми публикациями для классификации статей. Они актуальны, потому что именно так многие авторы классифицируют свои собственные статьи. введите описание изображения здесь

Есть много примеров подобных классификаций, например , классификация arxiv или UDK (универсальная десятичная классификация) Министерства образования России, которая широко используется для всех публикаций и исследований.

введите описание изображения здесь

Другим примером является система JEL Claasification Американской экономической ассоциации. Статья Роба Хиндмана « Автоматическое прогнозирование временных рядов: пакет прогноза для R ". Это классифицируется как C53, C22, C52 в соответствии с JEL. Хотя Хиндман имеет смысл критиковать древовидные классификации. Лучшим подходом может быть тегирование, например, ключевые слова в его статье: «Модели ARIMA, автоматическое прогнозирование, экспоненциальное сглаживание, интервалы прогнозирования, модели пространства состояний, временные ряды, R.» Можно утверждать, что это лучший способ классифицировать статьи, так как они не являются иерархическими, и можно построить несколько иерархий.

@whuber отметил, что некоторые последние достижения, такие как машинное обучение, не будут включены в статистику в существующих классификациях. Например, посмотрите на статью « Глубокое обучение: введение для прикладных математиков » Кэтрин Ф. Хайам, Десмонд Дж. Хайам. Они классифицировали свою бумагу под вышеупомянутым MSC как 97R40, 68T01, 65K10, 62M45. они в области компьютерных наук, математического образования и численного анализа в дополнение к статистике

Аксакал
источник
3
Я думаю, что было бы точнее сказать, что именно так многие авторы просят классифицировать свои статьи. Я знаю, что меня никогда не удовлетворяют, когда меня просят использовать такие априорные категории для моей работы.
Алексис
6
Это хорошая основа для выявления отраслей математической статистики. Знание этого помогает нам определить, что было исключено, что включает в себя многие части машинного обучения. Действительно, было бы справедливо охарактеризовать классификацию предметов по математике 2010 года как описание «статистики по состоянию на 1950 год», а затем добавить все, что появилось позднее, например, геостатистику, геномику, начальную загрузку и т. Д. (Некоторые из которых могут подпадать под те старые категории, возможно).
uber
4

Одним из способов решения этой проблемы является поиск сетей цитирования и соавторства в журналах статистики, таких как Annals of Statistics, Biometrika, JASA и JRSS-B. Это было сделано:

Ji, P. & Jin, J. (2016). Сети соавторов и цитирования для статистиков. Анналы прикладной статистики, 10 (4), 1779-1812.

Они определили сообщества статистиков и использовали свое понимание предметной области, чтобы обозначить сообщества как:

  • Анализ многомерных данных (HDDA-Coau-A)
  • Теоретическое машинное обучение
  • Уменьшение размера
  • Джонс Хопкинс
  • герцог
  • Stanford
  • Квантильная регрессия
  • Экспериментальная дизайн
  • Объективный байесовский
  • Биостатистика
  • Анализ многомерных данных (HDDA-Coau-B)
  • Крупномасштабное многократное тестирование
  • Выбор переменной
  • Пространственная и полупараметрическая / непараметрическая статистика

Статья включает в себя подробное обсуждение сообществ наряду с разложением более крупных в дальнейшие сообщества.

Это может не полностью ответить на вопрос, так как он касается областей исследования статистиков, а не всех областей, включая те, которые больше не активны. Надеюсь, это, тем не менее, полезно. Конечно, есть и другие предостережения (например, только с учетом этих четырех журналов), которые обсуждаются далее в статье.

user257566
источник
2
Я думал о том, чтобы сделать это для этого сайта. Определение «соавторства» как людей, которые отвечают / отвечают на одни и те же вопросы.
Секст Эмпирик
@MartijnWeterings Да, ваш ответ, похоже, очень похож на этот подход!
user257566
2

Я вижу много удивительных ответов, и я не знаю, как можно получить скромную самодельную классификацию, но я не знаю ни одной всеобъемлющей книги всех статистических данных, чтобы показать краткое изложение, и я думаю, что, как @ mkt блестяще прокомментировал, классификация области исследования может быть полезной. Итак, вот мой выстрел:

  • описательная статистика
    • простой вывод
      • простая проверка гипотез
    • построение графиков / данных
  • дизайн выборки
    • Экспериментальная дизайн
    • дизайн опроса
  • многомерная статистика (без присмотра)
    • кластеризация
    • компонентный анализ
    • модели скрытых переменных
  • линейные модели (которые на самом деле также многомерны)
    • обычные наименьшие квадраты
    • обобщенные линейные модели
      • модель логита
    • другие линейные модели
      • Модель Кокса
      • квантильная регрессия
    • многомерный вывод
      • проверка нескольких гипотез
      • скорректированная проверка гипотез
    • модели для структурированных данных
      • модели со смешанными эффектами
      • пространственные модели
      • модели временных рядов
    • нелинейные расширения
      • обобщенные аддитивные модели
  • байесовская статистика (на самом деле байесовские методы существуют для многих вещей, которые я уже перечислил)
  • непараметрическая регрессия и классификация
    • многие методы машинного обучения подходят здесь

Конечно, это слишком упрощенно, оно предназначено только для того, чтобы донести идею до того, кто едва знаком с этой областью, каждый из нас здесь наверняка знает, что существует много методов между категориями, многие другие, которых я не знал ». т, потому что они менее известны или потому что я просто забыл. Надеюсь, вам понравится.

карло
источник
1

Один из способов упорядочить эту информацию - найти хорошую книгу и взглянуть на оглавление. Это парадокс, потому что вы специально спрашивали о статистике , в то время как большинство вводных текстов на уровне выпускников по этой теме предназначены для статистики и теории вероятностей вместе. Книга, которую я читаю по регрессии, теперь имеет следующее содержание:

  • Частый вывод
  • Байесовский вывод
  • Проверка гипотез и выбор переменных
  • Линейные модели
  • Модели общей регрессии
  • Модели двоичных данных

  • Модели общей регрессии

  • Предварительные условия для непараметрической регрессии [предшественник ...]
  • Сплайн и методы ядра
  • Непараметрическая регрессия с несколькими предикторами

(Остальные разделы поддерживают математику и теорию вероятностей)

  • Дифференцирование матричных выражений
  • Матрица Результаты
  • Некоторая линейная алгебра
  • Распределение вероятностей и порождающие функции
  • Функции нормальных случайных величин
  • Некоторые результаты из классической статистики
  • Основная теория больших образцов
Adamo
источник
2
Можно было бы рассмотреть такую книгу , чтобы передать часть из одной отрасли в дисциплинах. Если, конечно, он не станет энциклопедическим обзором всей статистики, заголовки его глав вряд ли можно считать основными ветвями отрасли!
uber
3
@whuber согласился. Я с осторожностью упомянул, что книга посвящена регрессии, и что я не считаю какую-либо книгу по теме «статистика» достаточно общей или на соответствующем уровне, чтобы статистик мог считать изложенные темы достаточными. Этот конкретный пример взят из текста Уэйкфилда и представляет собой замечательно общий подход (например, T-критерий с оценкой неравной дисперсии обсуждается в контексте линейной регрессии с бинарной ковариацией и надежной оценкой ошибок).
AdamO