Я читаю « Введение в статистическое обучение ». В главе 2 они обсуждают причину оценки функции .
2.1.1 Зачем оценивать ?
Есть две основные причины, по которым мы можем захотеть оценить f : прогноз и умозаключение . Мы обсуждаем каждый по очереди.
Я читал это несколько раз, но мне все еще неясно, в чем разница между предсказанием и выводом. Может ли кто-нибудь привести (практический) пример различий?
prediction
terminology
causality
user61629
источник
источник
Ответы:
Вывод: учитывая набор данных, вы хотите сделать вывод, как вывод генерируется как функция данных.
Предсказание: учитывая новое измерение, вы хотите использовать существующий набор данных для построения модели, которая надежно выбирает правильный идентификатор из набора результатов.
Вывод: Вы хотите узнать, как влияет возраст, класс пассажиров и пол на выживание после Титанического бедствия. Вы можете составить логистическую регрессию и сделать вывод о влиянии каждой характеристики пассажира на выживаемость.
Предсказание: учитывая некоторую информацию о пассажире Титаника, вы хотите выбрать из набора и быть точным как можно чаще. (См. Прогноз отклонения от смещения для прогноза на случай, если вам интересно, как правильно быть как можно чаще.){ живет , умирает }
Предсказание не вращается вокруг установления наиболее точной связи между входом и выходом, точный прогноз заботится о том, чтобы как можно чаще помещать новые наблюдения в правильный класс.
Таким образом, «практический пример» сводится к следующему различию: учитывая набор данных о пассажирах для одного пассажира, подход логического вывода дает вам вероятность выживания, классификатор дает вам выбор между жизнью или смертью.
Настройка классификаторов является очень интересной и важной темой, так же как и правильная интерпретация значений p и доверительных интервалов.
источник
Как правило, при анализе данных мы представляем, что существует некий «процесс генерирования данных», который порождает данные, и логический вывод относится к изучению структуры этого процесса, в то время как прогнозирование означает возможность на самом деле прогнозировать поступающие из него данные. , Часто они идут вместе, но не всегда.
Примером, где эти два идут рука об руку, будет простая модель линейной регрессии
Вывод в этом случае будет означать оценку параметров модели и и наши прогнозы будут просто рассчитываться на основе наших оценок этих параметров. Но есть другие типы моделей, в которых можно делать разумные прогнозы, но модель не обязательно приводит к осмысленному пониманию того, что происходит за кулисами. Некоторыми примерами таких моделей могут быть сложные ансамблевые методы, которые могут привести к хорошим прогнозам, но иногда их трудно или невозможно понять.β 1β0 β1
источник
На странице 20 книги авторы приводят прекрасный пример, который помог мне понять разницу.
Вот параграф из книги: Введение в статистическое обучение
« Например , в условиях недвижимости можно попытаться связать стоимость домов с такими факторами, как уровень преступности, зонирование, расстояние от реки, качество воздуха, школы, уровень дохода сообщества, размер домов и т. Д.». В этом случае может возникнуть интерес к тому, как отдельные входные переменные влияют на цены, т. Е. Сколько будет стоить дом, если он имеет вид на реку? Это проблема логического вывода . В качестве альтернативы можно просто заинтересоваться при прогнозировании стоимости дома с учетом его характеристик: этот дом недооценен или переоценен? Это проблема прогнозирования ».
источник
Прогнозирование использует предполагаемое f для прогноза на будущее. Предположим, вы наблюдаете переменную , возможно, это доход магазина. Вы хотите строить финансовые планы для своего бизнеса и должны прогнозировать доход в следующем квартале. Вы подозреваете, что доход зависит от доходов населения в этом квартале и времени года . Итак, вы утверждаете, что это функция: x 1 , t x 2 , t y t = f ( x 1 , t - 1 , x 2 , t - 1 ) + ε tyt x1,t x2,t
Теперь, если вы получите данные о доходах, скажем, ряд личных располагаемых доходов от BEA, и построите переменную времени года, вы можете оценить функцию f , а затем включить в нее последние значения дохода населения и времени года. функция. Это даст прогноз на следующий квартал выручки магазина.
источник
Представьте, вы врач в отделении интенсивной терапии. У вас есть пациент с сильной лихорадкой и определенным количеством клеток крови, с заданным весом тела и сотней различных данных, и вы хотите предсказать, выживет ли он или она. Если да, он собирается скрыть эту историю о своем другом ребенке своей жене, если нет, ему важно раскрыть ее, пока он может.
Врач может сделать этот прогноз, основываясь на данных бывших пациентов, которые он имел в своем отделении. Основываясь на своих знаниях программного обеспечения, он может прогнозировать, используя обобщенную линейную регрессию (glm) или через нейронную сеть (nn).
1. Обобщенная линейная модель
Существует много взаимосвязанных параметров для glm, поэтому, чтобы получить результат, врач должен будет сделать предположения (линейность и т. Д.) И решения о том, какие параметры могут оказать влияние. GLM вознаградит его t-тестом значимости для каждого из его параметров, чтобы он мог собрать убедительные доказательства того, что пол и лихорадка оказывают значительное влияние, а вес тела не обязательно так.
2. Нейронная сеть
Нейронная сеть проглотит и переварит всю информацию, которая есть в выборке бывших пациентов. Это не будет заботиться о том, коррелируют ли предикторы, и не будет раскрывать так много информации о том, кажется ли влияние массы тела важным только в имеющейся выборке или в целом (по крайней мере, не на уровне опыта, который врач может предложить). Это просто вычислит результат.
Что лучше
Какой метод выбрать, зависит от того, с какой точки зрения вы смотрите на проблему: как пациент, я бы предпочел нейронную сеть, которая использует все доступные данные для лучшего предположения о том, что произойдет со мной без сильных и явно ошибочных предположений, таких как линейность. Как врач, который хочет представить некоторые данные в журнале, ему нужны p-значения. Медицина очень консервативна: они будут просить р-значения. Поэтому врач хочет сообщить, что в такой ситуации пол оказывает существенное влияние. Для пациента это не имеет значения, просто используйте любое влияние, которое образец может быть наиболее вероятным.
В этом примере пациент хочет предсказания, ученая сторона доктора хочет умозаключения. Главным образом, когда вы хотите понять систему, тогда вывод это хорошо. Если вам нужно принять решение, когда вы не можете понять систему, прогнозирования будет достаточно.
источник
Вы не одиноки здесь. Прочитав ответы, я больше не растерялся - не потому, что я понимаю разницу, а потому, что я понимаю, что это в глазах смотрящего и словесно навязанного. Я уверен, что теперь эти два термина являются политическими определениями, а не научными. Возьмем, к примеру, объяснение из книги, которое колледжи пытались использовать как хорошее: «Сколько будет стоить дом, если у него будет вид на реку? Это проблема логического вывода». С моей точки зрения, это абсолютно прогнозируемая проблема. Вы являетесь владельцем строительной компании, и вы хотите выбрать лучший участок для строительства следующего набора домов. Вы должны выбрать между двумя местами в одном городе, один рядом с рекой, другой рядом с железнодорожной станцией. Вы хотите предсказатьцены на оба места. Или вы хотите сделать вывод . Вы собираетесь применять точные методы статистики, но вы называете процесс. :)
источник
Есть хорошие исследования, показывающие, что надежный прогноз того, будут ли заемщики погашать свои кредиты, заключается в том, используют ли они войлок, чтобы защитить свои полы от царапин на ножках мебели. Эта «чувствовавшая» переменная будет явным подспорьем для прогностической модели, в которой результатом является погашение вместо дефолта. Тем не менее, если кредиторы хотят получить больше рычагов воздействия на этот результат, они будут упущены, думая, что они могут сделать это, распределяя чувствовал как можно шире.
"Насколько вероятно, что этот заемщик погасит?" проблема прогнозирования; "Как я могу повлиять на результат?" проблема причинного вывода.
источник
y = f (x) тогда
прогноз (каково значение Y с заданным значением х: если конкретное значение х, что может быть значением Y
вывод (как у изменяется с изменением по х): что может повлиять на Y, если х изменится
Пример прогнозирования: предположим, что y представляет зарплату человека, тогда, если мы введем данные, такие как годы опыта, степень в качестве входных переменных, тогда наша функция прогнозирует зарплату сотрудника.
Пример логического вывода: предположим, что изменится стоимость жизни, а затем изменение зарплаты
источник