Какие хорошие примеры можно показать студентам бакалавриата?

9

Я собираюсь преподавать статистику в качестве помощника преподавателя во второй половине этого семестра студентам бакалавриата, ориентированным на CS. Большинство учеников, посещающих занятия, не имеют стимула изучать предмет и воспринимают его только по основным требованиям. Я хочу сделать предмет интересным и полезным, а не просто класс, который они учат, чтобы получить B +, чтобы пройти.

Будучи аспирантом по математике, я мало что знал о реальной прикладной сфере. Я хочу попросить некоторые реальные приложения студенческой статистики. Вот примеры, которые я ищу: (по духу):

1) Отображение центральной предельной теоремы полезно для некоторых больших выборочных данных.

2) Приведите контрпример, что центральная предельная теорема неприменима (скажем, те, которые следуют за распределением Коши).

3) Показ работы тестов гипотез в известных реальных примерах с использованием Z-теста, t-теста или чего-то еще.

4) Показано, как переоснащение или неправильная исходная гипотеза могут дать неверные результаты.

5) Показ того, как p-значение и доверительный интервал работали в (хорошо известных) реальных случаях и где они не работают так хорошо.

6) Аналогично тип I, ошибки типа II, статистическая мощность, уровень отклонения и т. Д.α

Моя проблема в том, что, хотя у меня есть много примеров на стороне вероятности (бросок монеты, бросок костей, разорение игрока, мартингейл, случайное блуждание, парадокс трех заключенных, проблема Монти-Холла, вероятностные методы в разработке алгоритмов и т. Д.), Я не знаю как много канонических примеров на стороне статистики. Я имею в виду серьезные, интересные примеры, которые имеют некоторую педагогическую ценность, и они не очень искусственно составлены, что кажется очень оторванным от реальной жизни. Я не хочу создавать у учеников ложное впечатление, что Z-тест и t-тест - это все. Но из-за моего чистого математического фона я не знаю достаточно примеров, чтобы сделать класс интересным и полезным для них. Поэтому я ищу помощь.

Уровень моего студента около исчисления I и исчисления II. Они даже не могут показать, что стандартная дисперсия нормали равна 1 по определению, поскольку они не знают, как оценить ядро ​​Гаусса. Таким образом, любые теоретические или практические вычисления (такие как гипергеометрическое распределение, закон арксинуса в одномерном случайном блуждании) не сработают. Я хочу показать некоторые примеры, которые они могут понять не только «как», но и «почему». В противном случае я не уверен, докажу ли я то, что сказал, путем запугивания.

Bombyx Mori
источник
2
Nзнак равно100Nзнак равно1000Nзнак равно1010
3
Теорема Берри-Эссеена (которую, я думаю, вы не преподаете на этом уровне) может быть использована с конечными выборками. Неофициально, конечно, средние значения выборок для конкретных распределений становятся все более и более нормальными с увеличением размеров выборки, но мы не можем действительно сказать «это центральная предельная теорема», поскольку CLT ничего об этом не говорит. Кроме того, чтобы показать, что дела неуклонно приближаются к нормальному распределению, вам нужна последовательность размеров выборки. При сборе данных в реальном мире это обычно только для данных, собранных во времени (поэтому, если вы принимаете iid, у вас могут возникнуть некоторые трудности).
Glen_b
2
Вот реальные данные (из эксперимента - если несколько искусственного) - 40000 бросков монет - отсюда
Glen_b -Восстановить Монику
1
Вы можете показать им кое-что о том, как средства выборки ведут себя в конкретных ситуациях с увеличением размера выборки - это весьма полезно; просто не совсем точно приписать это CLT. Для этого могут быть полезны данные о подбрасывании монет (как и данные, которые они генерируют сами подобным образом). Возможно, вы захотите прочитать информацию по ссылке, прежде чем получить данные, потому что есть важная особенность данных (которая также является мотивацией для их сбора в первую очередь).
Glen_b
1
Примеры почти каждой вещи, которую вы перечисляете, представлены в хороших вводных текстах статистики, таких как Freedman, Pisani и Purves . (Я связался с Третьим изданием, которое вы можете легко найти использованным менее чем за 10 долларов США. Любое издание подойдет; последнее издание может содержать больше актуальных примеров.)
whuber

Ответы:

1

Один хороший способ может быть установить R ( http://www.r-project.org/ ) и использовать его примеры для обучения. Вы можете получить доступ к справке в R с помощью команд «? T.test» и т. Д. В конце каждого файла справки приведены примеры. Для t.test, например:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

введите описание изображения здесь

rnso
источник
1

Я предлагаю применить центральную предельную теорему для предварительного определения размера выборки и найти ответ на такие вопросы, как «Я разослал достаточно анкет» и т. Д.

http://web.as.uky.edu/statistics/users/pbprey/580-F10/notes/9.pdf представляет собой прекрасный пример того, как применять центральную предельную теорему. Дидактическая стратегия может быть:

А) теория

* проясните разницу между распределением выборки и распределением оценки, например, по «плоскому» распределению броска кубика по сравнению с распределением среднего значения N кубиков (используйте R или позвольте ученикам даже поиграть сами с рисунком в Excel распределение значений по сравнению с распределением средств)

* показать расчет процентилей на основе формулы для распределения среднего значения (поскольку вы глубоко разбираетесь в математике, вам может потребоваться вывести формулу) - этот пункт соответствует слайдам 10-17 в презентации, связанной выше

и затем (как на слайде 20 из презентации, связанной выше):

Б) приложение

* показать, как центральная предельная теорема помогает определить размеры выборки для желаемых точных значений в оценках среднего

Это приложение B) - это то, что, по моему опыту, статистики ожидают от статистиков - отвечая на вопросы типа "у меня достаточно данных?"

Статос
источник
1

Так как вы обучаете студентов CS, хорошее применение Центральной теоремы о пределе может состоять в том, чтобы оценить среднее значение из массивных наборов данных (т.е.> 100 миллионов записей). Может быть полезно показать, что нет необходимости вычислять среднее значение для всего набора данных, а вместо этого производить выборку из набора данных и использовать среднее значение выборки для оценки среднего значения для всего набора данных / базы данных. Вы можете сделать этот шаг дальше, если хотите, и смоделировать набор данных, который имеет резко отличающиеся значения для разных подгрупп. Затем вы можете попросить студентов изучить стратифицированную выборку, чтобы получить более точные оценки.

Опять же, поскольку есть учащиеся CS, вы можете захотеть выполнить начальную загрузку, чтобы получить также доверительные интервалы или оценить дисперсию более сложной статистики. Это хорошее пересечение статистики и компьютера, так как, на мой взгляд, и может привести к большему интересу к предмету.

StatsStudent
источник
1

Я начал с того, что набрал комментарий, но он стал слишком длинным ...

σ

Так что, на мой взгляд, им понравится, если вы представите вывод с точки зрения «обучения», и если вы представите тесты с точки зрения «теории принятия решений» или «классификации» - короче говоря, они должны любить алгоритмы. Грок алгоритмы!

Кроме того, попробуйте найти наборы данных, связанные с CS; Например, продолжительность соединений и количество запросов в единицу времени к html-серверу могут помочь проиллюстрировать многие концепции.

Они будут любить изучать методы моделирования. Генераторы Lehmer просты в реализации. Покажите им, как имитировать другие распределения, инвертируя cdf. Если вам это нравится, покажите им алгоритм Зиггурата Марсальи. Да, и генератор MWC256 от Marsaglia - это маленький камень. Тесты Diehard, проведенные Marsaglia (тесты на справедливость равномерных генераторов), могут помочь проиллюстрировать многие понятия вероятности и статистики. Вы даже можете представить теорию вероятностей, основанную на «(независимых) потоках случайных двойников, взлетов, я имею в виду реалов» - это немного нахально, но может быть грандиозно.

T

Если вы овладеете своим предметом достаточно, не стесняйтесь быть оригинальным. «Классические» лекции хороши, когда вы учите чему-то, с чем не полностью знакомы. Удачи, и если вы выпустите некоторые конспекты, пожалуйста, дайте мне знать!

Элвис
источник
1

Вы говорите, что это студенты-информатики. Каковы их интересы, это в основном теоретическая информатика, или студенты в основном мотивированы подготовкой к работе? Вы также можете рассказать нам, что такое описание курса!

Но как бы вы ни ответили на эти вопросы, вы могли бы начать с некоторой практической статистики, возникающей в контексте информатики, такой как (например) веб-дизайн. На этом сайте время от времени возникают вопросы по этому поводу, например, коэффициент конверсии с течением времени или /stats/96853/comparing-sales-person-conversion-rates или AB Проверка других факторов, помимо коэффициента конверсии .

Здесь много вопросов, вроде тех, что, по-видимому, от людей, занимающихся веб-дизайном. Ситуация такова, что у вас есть веб-страница (например, вы что-то продаете). «Насколько я понимаю,« коэффициент конверсии »- это процент посетителей, которые переходят к какой-либо предпочтительной задаче (например, покупке или другой цели, которую вы ставите перед своими посетителями). Затем вы, как веб-дизайнер, спрашиваете, влияет ли ваш макет страницы на это поведение. Таким образом, вы программируете две (или более) версии веб-страницы, выбираете случайным образом, какую версию показывать какому-либо новому клиенту, и можете сравнивать коэффициенты конверсии, и, наконец, решаете внедрить версию с самым высоким коэффициентом конверсии.

Это проблема планирования эксперимента сравнения, и вам нужны статистические методы для сравнения процентов, или, может быть, напрямую таблица сопряженности проектов с преобразованием / без преобразования. Этот пример может показать им, что статистика может быть полезна для них в какой-то работе по веб-разработке! И, со стороны статистики, это открывает много интересных вопросов о достоверности предположений ...

Чтобы соединиться с тем, что вы говорите о центральной предельной теореме, вы можете спросить, сколько наблюдений вам нужно, прежде чем вы сможете рассматривать проценты как нормально распределенные, и попросить их изучить это с помощью моделирования ...

Вы можете искать на этом сайте другие статистические вопросы, задаваемые типами программистов ...

оборота къетил б халворсен
источник
-2

Я полагаю, что перед любыми хорошими примерами лучше сосредоточиться на четких определениях. По моему опыту, бакалавриат вероятности и статистики - это курс, наполненный словами, которые никто из студентов не понимает. В качестве эксперимента спросите студентов, которые только что закончили вероятностный курс, что такое «случайная величина». Они могут дать вам примеры, но я сомневаюсь, что большинство даст вам четкое определение этого. Что именно такое «вероятность»? Что такое «дистрибуция»? Терминология в статистике еще более запутанная. Большинство студенческих книг, которые я видел, очень плохо объясняют это. Примеры и вычисления хороши, но без четких определений это не так полезно, как можно подумать. Исходя из моего опыта, именно поэтому я ненавидел теорию вероятностей как студент. Несмотря на то, что мои интересы настолько далеки от вероятности, насколько это возможно, я теперь ценю этот предмет, потому что в конечном итоге я научился понимать, что на самом деле означает вся терминология. Я прошу прощения, что это не совсем то, что вы спросили, но, учитывая, что вы преподаете такой класс, я подумал, что это будет полезный совет.

Николас Бурбаки
источник
1
Я не уверен, что я согласен - по крайней мере, не в большинстве / всех случаях. Для некоторых концептуальное понимание может, как вы предполагаете, предшествовать применению к конкретным примерам, но для других студентов концептуальное понимание (особенно по сложным темам) может появиться только благодаря использованию особенно яркого примера.
jsakaluk
Когда я был студентом, у меня не было особых трудностей с чтением дипломной математики и решением проблем. Я знал, что я делал и что должен был сделать. Теория вероятностей, или статистика, «легче», чем предметы, которые я изучал. Но я понятия не имел, что я делаю или почему я должен был это сделать. Сами учебники были совершенно бесполезны для меня. Прочитав их, я не очень понял словарный запас. Конечно, я могу сделать вычисления, но в конце дня я просто увидел это как пустой предмет. Если бы у меня была эта путаница, al fortiorti, студенты, не склонные к математике, тоже.
Николас Бурбаки
5
Интересно, может ли это быть более полезным советом для обучения, вероятно, очень умным студентам на уровне чистой математики, чем для преподавания прикладной статистики по специальностям CS.
Серебряная рыбка
@ Silverfish Я не уверен, что мой совет применим только к студентам математики. Можно развить язык теории меры и показать, как в ней выражается вероятность, не вдаваясь в теорию. Это действительно ничем не отличается от базового исчисления. Большинство книг, по крайней мере, определяют свои термины, но они не входят в их теорию. Если студенты поняли, что статистика - это обратная проблема вероятности, и что, например, мы «заботимся» о среднем значении, поскольку оно приближается к ожидаемому значению случайной величины, тогда они могут оценить ее гораздо больше.
Николас Бурбаки