Я ищу некоторые статистические (и, вероятно, вероятностные) вопросы для интервью, от самых простых до более продвинутых. Ответы не обязательны (хотя ссылки на конкретные вопросы на этом сайте вполне подойдут).
(+1): Я не могу сосчитать, сколько раз я думал, что что-то понял, но потом мне не удалось объяснить это кому-то еще в простых словах. Пример: p-значение;)
Штеффен
6
«Если вы не можете объяснить это шестилетнему ребенку, то, вероятно, вы сами этого не понимаете», - Альберт Эйнштейн. Может быть, это не так уж и экстремально, но вы понимаете, в чем дело ... :)
JM не статистик
1
Мне нравится "Объяснить p-значение", с или без части "новичку".
Шаббычеф
Вот почему перекрестная проверка это здорово. много "дилетантских" вопросов и ответов.
Нил Макгиган
Действительно хороший совет, проводите ли вы собеседование или нет!
JMS
21
Стандарт Q, где я работаю, имеет вид:
Посмотрите на этот вывод множественной логистической регрессии из статистического пакета, который, как вы утверждаете, использовали (предпочтительно тот, который мы используем тоже). XXX является независимой переменной основного интереса. Насколько вы интерпретируете результаты для коллеги со знанием предмета, но без формальной статистической подготовки? (При необходимости запросите отдельную интерпретацию точечной оценки, CI, p-значения).
В более академических контекстах можно также спросить: «взгляните на результаты этой модели в этой статье, которую вы (со) создали . Скажи мне, что это значит. Тогда неутешительные ответы приводят к фатальным последствиям, потому что не существует никаких оправданий для незнакомых людей, но, к сожалению, они встречаются довольно часто.
сопряженный
4
@conjugateprior Не верно. До тех пор, пока есть хотя бы один соавтор, которого нет, это была зона, где не было соавтора. Основное использование этой техники на презентациях конференции.
Марк Л. Стоун
18
Вы также можете подумать о том, является ли собеседование лучшим средством для измерения интересующей конструкции. Если вы хотите измерить предшествующее знание вероятности или статистики, вам, возможно, лучше полагаться больше на письменный тест. Вы можете задать больше вопросов, и тем самым повысить достоверность измерений. Он более стандартизирован как в администрировании, так и в оценке. И как только инструмент будет разработан, он, вероятно, использует меньше ресурсов для администрирования.
Затем вы можете использовать интервью как более сфокусированный инструмент, рассматривая такие факторы, как устные и межличностные навыки.
Это хороший момент. В прошлом я обнаружил, что очень трудно сказать, сработает ли данный кандидат, если вы не работали с ним в прошлом.
Шаббычеф
15
Мне задали два вопроса:
1) Вы применяете множественную регрессию для изучения влияния конкретной переменной, которой заинтересован сотрудник в другом отделе. Переменная возвращается незначительной, но ваш коллега говорит, что это невозможно, так как известно, что это дает эффект. Что бы вы сказали / сделали?
2) У вас есть 1000 переменных и 100 наблюдений. Вы хотели бы найти значимые переменные для конкретного ответа. Чтобы ты делал?
Не могли бы вы также опубликовать ответы? Для 1) Я предполагаю, что могут быть некоторые зависимые переменные, вызывающие проблему. Для 2) я бы, вероятно, пошел на χ² (хи-квадрат) статистический тест
Риши Дуа
2
Есть много разумных ответов на оба, вот мои быстрые мысли: 1) регрессионная модель взята из выборки, эта выборка имеет случайное отклонение, и, следовательно, модель является только оценочной и может привести к ошибкам типа 1 или типа 2. Также может быть сильная коллинеарность среди предсказателей. Для 2) это проблема большого P против малого N. Есть много методов, чтобы справиться с этой ситуацией, таких как уменьшение размеров и лассо.
Глен
2) делать одномерные подстановки переменных и выявлять те, которые наиболее значимы для уменьшения набора переменных
Адам
11
Вот большой набор данных. Каков ваш план борьбы с выбросами? Как насчет пропущенных значений? Как насчет преобразований?
Уважаемый анонимный пользователь, пожалуйста, не используйте редактирование для комментариев (это не для вас, Нил).
10
Многие вопросы / ответы на этом сайте могут дать идеи для хороших вопросов. Я дам список с некоторыми такими ссылками, которые я считаю хорошими. Сообщения, на которые я отвечал, перепредставлены, потому что я знаю эти сообщения лучше, а не потому, что они обязательно являются лучшими! Я даю короткие комментарии к каждой ссылке, чтобы вы могли решить, хотите ли вы перейти по ссылке.
Достаточность соответствия и какую модель выбрать для линейной регрессии или Пуассона "У нас есть проблема регрессии, когда ответом является переменная подсчета. Что бы вы выбрали в этом контексте, обычные наименьшие квадраты или регрессию Пуассона (или, возможно, какую-то другую)? Объясните свой выбор В чем основные отличия этих моделей?
В чем разница между конечной и бесконечной дисперсией "Можете ли вы объяснить, на как можно более простом языке, что означает для случайной величины бесконечное ожидание или бесконечная дисперсия? Какова практическая важность этого различия? Объясните с помощью пример."
Однажды меня спросили, как бы я объяснил актуальность центральной предельной теоремы для класса первокурсников в социальных науках, которые едва знают статистику.
Актуальность центральной предельной теоремы заключается в том, чтобы заставить людей думать, что все нормально, тогда как на самом деле ничего нет. И поэтому приводит ко многим ошибочным выводам.
Марк Л. Стоун
8
Как вы оцифровываете что-то, что не является числовым?
Я часто спрашиваю "как бы вы определили / объяснили, что такое прогнозирование?"
Ответ на этот очень общий вопрос помогает мне увидеть, связаны ли люди с конкретным случаем прогнозирования. Нет правильного ответа, но ответить на него синтетически во время интервью не всегда просто :)
Рассмотрим регрессионную модель, примененную к этой основной проблеме. Что, если вообще, в этом можно истолковать причинно? [Дальнейшее исследование] Что бы вам нужно было узнать, чтобы изменить свое мнение?
Хороший вопрос. Я использовал версию этого в классе (деревья в парке). Они получают представление о выборке, но, как правило, упускают необходимость оперативного определения: когда вы начнете называть это деревом?
zbicyclist
4
Под заголовком Причинно-следственная связь :
Вовлечение клиентов / пользователей является обычным явлением в качестве функций прогнозирующей модели. Например, люди, которые нажимают на эту кнопку, чаще подписываются, чем люди, которые этого не делают. Люди, которые делают покупки по понедельникам, чаще делают покупки снова, чем те, кто делают покупки по вторникам.
Если мы примем это до крайности: пользователи, которые нажимают «купить», с большей вероятностью приобретают продукт, чем пользователи, которые не нажимают «купить».
Но, очевидно, это не очень помогает объяснить, почему некоторые пользователи подписываются, а некоторые нет.
Как бы вы поступили с балансировкой, используя функции клиентов, которые объясняют, почему они подписываются, по сравнению с теми, которые тесно связаны с подпиской, но необходимы для выполнения задачи?
Этот вопрос касается правила 80–20. Это общее правило в бизнесе; Например, «80% ваших продаж приходится на 20% ваших клиентов». Microsoft отметила, что, исправляя 20% самых распространенных ошибок, 80% ошибок и сбоев будут устранены. Таким образом, это означало бы создать FAQ, чтобы определить решение этих 20% проблем
Rishi Dua
3
Многие вопросы, которые мы задаем, похожи на те, которые уже были описаны. Но некоторые из них, которые я еще не читал, используются: вас могут попросить набросать программу на доске, чтобы сделать что-то вроде: симулировать бросок игральных костей или другие вероятностные проблемы, или вычислить ряд простых чисел (например, все простые числа, которые меньше 1 000 000) - вы сможете сделать это на любом языке, который хотите, но большинство людей выбирают R, а некоторые выбирают Python (я полагаю), но я думаю, что вы можете выбрать Stata, SAS, SPSS , Matlab и т. Д. Вам, вероятно, зададут вопросы, чтобы проверить глубину вашего знания языка программирования по вашему выбору - почему, например, используйте применение вместо цикла for в R.
Вас также могут попросить разработать эксперимент или другое исследование, чтобы исследовать что-то - обычно что-то практическое - иногда это будет связано с работой, которую мы делаем, но часто нет. (Вы не должны знать о работе, которую мы выполняем, но вы должны быть в состоянии понять суть проблемы, о которой вы не слышали, и рассуждать об этом разумно, даже если бы вы знали определенные области знаний, о которых вы знали бы это было неправильно - это нормально, вы не должны иметь знания предметной области). Вас могут попросить принять во внимание такие вещи, как сила.
Выполняя анализ дисперсии количественной переменной, иногда он обнаруживал, что частота переменной очень высока (> 5), тогда мы используем точный критерий Фишера, чтобы найти независимость переменной.
Включает ли правильный ответ на этот вопрос знание того, что существует спор о том, имеют ли смысл фиксированные маргинальные значения, и наличие обоснованного мнения по этому вопросу?
Бен Болкер
1
Средняя платная посещаемость игр Янки в прошлом году составила 55 000. Вы случайным образом спрашиваете группу людей в Нью-Йорке, ходили ли они на игру янки в прошлом сезоне, и если они это сделали, вы записываете платную посещаемость. Какова средняя платная посещаемость игр, которые посещали люди, которых вы спрашивали, которые ходили на игры?
Я дам вам подсказку для моего ответа (подсказка не была предоставлена): выборка смещения по длине. Я выиграл домашний заезд, но этого было недостаточно, чтобы выиграть игру, ха-ха. Примечание: я упомянул много предостережений, касающихся того, как была сделана выборка, и интервьюер сказал мне игнорировать их все.
Ответы:
Не уверен, что это за работа, но я думаю, что "Объяснить х новичку", вероятно, было бы хорошо
а) потому что они, вероятно, должны будут сделать это в работе
б) это хорошая проверка понимания, я считаю.
источник
Стандарт Q, где я работаю, имеет вид:
источник
Вы также можете подумать о том, является ли собеседование лучшим средством для измерения интересующей конструкции. Если вы хотите измерить предшествующее знание вероятности или статистики, вам, возможно, лучше полагаться больше на письменный тест. Вы можете задать больше вопросов, и тем самым повысить достоверность измерений. Он более стандартизирован как в администрировании, так и в оценке. И как только инструмент будет разработан, он, вероятно, использует меньше ресурсов для администрирования.
Затем вы можете использовать интервью как более сфокусированный инструмент, рассматривая такие факторы, как устные и межличностные навыки.
источник
Мне задали два вопроса:
1) Вы применяете множественную регрессию для изучения влияния конкретной переменной, которой заинтересован сотрудник в другом отделе. Переменная возвращается незначительной, но ваш коллега говорит, что это невозможно, так как известно, что это дает эффект. Что бы вы сказали / сделали?
2) У вас есть 1000 переменных и 100 наблюдений. Вы хотели бы найти значимые переменные для конкретного ответа. Чтобы ты делал?
источник
Могут ли они иметь дело с данными реального мира?
источник
Многие вопросы / ответы на этом сайте могут дать идеи для хороших вопросов. Я дам список с некоторыми такими ссылками, которые я считаю хорошими. Сообщения, на которые я отвечал, перепредставлены, потому что я знаю эти сообщения лучше, а не потому, что они обязательно являются лучшими! Я даю короткие комментарии к каждой ссылке, чтобы вы могли решить, хотите ли вы перейти по ссылке.
Какая интуиция стоит за СВД? «Можете ли вы объяснить одному из наших клиентов, как работает СВД?»
Оценка максимального правдоподобия (MLE) в терминах непрофессионала "Можете ли вы объяснить на нетехническом языке идею оценки максимального правдоподобия?"
Талеб и Черный лебедь "Скажите, что такое черный лебедь и почему это важно? Когда это актуально?"
Статистический вывод, когда выборка "представляет собой" совокупность "Что вы можете сказать о статистическом выводе, когда выборка представляет собой целую совокупность?"
Достаточность соответствия и какую модель выбрать для линейной регрессии или Пуассона "У нас есть проблема регрессии, когда ответом является переменная подсчета. Что бы вы выбрали в этом контексте, обычные наименьшие квадраты или регрессию Пуассона (или, возможно, какую-то другую)? Объясните свой выбор В чем основные отличия этих моделей?
В чем разница между конечной и бесконечной дисперсией "Можете ли вы объяснить, на как можно более простом языке, что означает для случайной величины бесконечное ожидание или бесконечная дисперсия? Какова практическая важность этого различия? Объясните с помощью пример."
Каковы современные, легко используемые альтернативы ступенчатой регрессии? «Как бы вы построили сложную регрессионную модель, когда существует много возможных предикторных переменных? Опишите различные возможные стратегии и расскажите о проблемах с каждой из них».
Как бороться с идеальным разделением в логистической регрессии? «В чем проблема разделения в логистической регрессии, ее причины, симптомы? Что вы можете сделать, чтобы решить ее, если это действительно проблема?»
Почему корреляционная матрица должна быть положительной полуопределенной и что значит быть или не быть положительной полуопределенной? и
Что мне говорит неположительная ковариационная матрица о моих данных? «Объясните, почему ковариационная матрица должна быть положительной (полу) определенной, и что это значит. Как этот факт можно использовать?»
Каковы многомерные версии медианы «Можете ли вы предложить какой-либо способ обобщить медиану для многомерных данных?»
Интерпретация терминов взаимодействия в логит-регрессии с категориальными переменными и каковы лучшие методы определения эффектов взаимодействия? и два отрицательных основных эффекта все же положительный эффект взаимодействия? и Включая взаимодействие, но не основные эффекты в модели и Как интерпретировать основные эффекты, когда эффект взаимодействия незначителен? «Объясните, что подразумевается под взаимодействием в регрессионных моделях. В частности, что это значит, если взаимодействие является значительным, а основные эффекты - нет?
В чем может быть причина использования преобразования квадратного корня в данных? и Соответствующее преобразование данных "Когда, как и почему вы преобразовываете переменную ответа в регрессионную (или ANOVA) модель? Есть ли альтернативы?
Могу ли я доверять результатам ANOVA для ненормально распределенного DV? «Как бы вы относились к ANOVA с ненормальными остатками?
Почему статистика полезна, когда многие важные вещи - одноразовые?
Как я могу эффективно смоделировать сумму случайных величин Бернулли?
Когда использовать обобщенные оценочные уравнения и модели со смешанными эффектами?
Что здесь происходит, когда я использую квадрат потерь в настройке логистической регрессии? «Почему мы используем максимальную вероятность для логистической регрессии? Почему не наименьших квадратов?»
источник
Однажды меня спросили, как бы я объяснил актуальность центральной предельной теоремы для класса первокурсников в социальных науках, которые едва знают статистику.
источник
Пример «Автоматическое извлечение признаков для классификации аудиоданных»
Обоснование: могут ли они понять, как статистически анализировать что-то, чего еще нет в большой таблице?
источник
Хороший ответ: перекрестная проверка
источник
Я часто спрашиваю "как бы вы определили / объяснили, что такое прогнозирование?"
Ответ на этот очень общий вопрос помогает мне увидеть, связаны ли люди с конкретным случаем прогнозирования. Нет правильного ответа, но ответить на него синтетически во время интервью не всегда просто :)
источник
Для контекста данных наблюдений:
Рассмотрим регрессионную модель, примененную к этой основной проблеме. Что, если вообще, в этом можно истолковать причинно? [Дальнейшее исследование] Что бы вам нужно было узнать, чтобы изменить свое мнение?
источник
Как вы будете считать количество сандаловых деревьев в Бангалоре?
источник
Под заголовком Причинно-следственная связь :
Вовлечение клиентов / пользователей является обычным явлением в качестве функций прогнозирующей модели. Например, люди, которые нажимают на эту кнопку, чаще подписываются, чем люди, которые этого не делают. Люди, которые делают покупки по понедельникам, чаще делают покупки снова, чем те, кто делают покупки по вторникам.
Если мы примем это до крайности: пользователи, которые нажимают «купить», с большей вероятностью приобретают продукт, чем пользователи, которые не нажимают «купить».
Но, очевидно, это не очень помогает объяснить, почему некоторые пользователи подписываются, а некоторые нет.
Как бы вы поступили с балансировкой, используя функции клиентов, которые объясняют, почему они подписываются, по сравнению с теми, которые тесно связаны с подпиской, но необходимы для выполнения задачи?
источник
Могут ли они объяснить, как работает статистика в физическом мире?
источник
У нас работает центр обслуживания клиентов. Мы получаем 1 миллион звонков в месяц. Как мы можем уменьшить его до десяти тысяч?
источник
Многие вопросы, которые мы задаем, похожи на те, которые уже были описаны. Но некоторые из них, которые я еще не читал, используются: вас могут попросить набросать программу на доске, чтобы сделать что-то вроде: симулировать бросок игральных костей или другие вероятностные проблемы, или вычислить ряд простых чисел (например, все простые числа, которые меньше 1 000 000) - вы сможете сделать это на любом языке, который хотите, но большинство людей выбирают R, а некоторые выбирают Python (я полагаю), но я думаю, что вы можете выбрать Stata, SAS, SPSS , Matlab и т. Д. Вам, вероятно, зададут вопросы, чтобы проверить глубину вашего знания языка программирования по вашему выбору - почему, например, используйте применение вместо цикла for в R.
Вас также могут попросить разработать эксперимент или другое исследование, чтобы исследовать что-то - обычно что-то практическое - иногда это будет связано с работой, которую мы делаем, но часто нет. (Вы не должны знать о работе, которую мы выполняем, но вы должны быть в состоянии понять суть проблемы, о которой вы не слышали, и рассуждать об этом разумно, даже если бы вы знали определенные области знаний, о которых вы знали бы это было неправильно - это нормально, вы не должны иметь знания предметной области). Вас могут попросить принять во внимание такие вещи, как сила.
источник
Выполняя анализ дисперсии количественной переменной, иногда он обнаруживал, что частота переменной очень высока (> 5), тогда мы используем точный критерий Фишера, чтобы найти независимость переменной.
источник
Средняя платная посещаемость игр Янки в прошлом году составила 55 000. Вы случайным образом спрашиваете группу людей в Нью-Йорке, ходили ли они на игру янки в прошлом сезоне, и если они это сделали, вы записываете платную посещаемость. Какова средняя платная посещаемость игр, которые посещали люди, которых вы спрашивали, которые ходили на игры?
Я дам вам подсказку для моего ответа (подсказка не была предоставлена): выборка смещения по длине. Я выиграл домашний заезд, но этого было недостаточно, чтобы выиграть игру, ха-ха. Примечание: я упомянул много предостережений, касающихся того, как была сделана выборка, и интервьюер сказал мне игнорировать их все.
источник