Оцените массу фруктов в сумке из только связанных итогов?

9

Преподаватель в моем университете задал такой вопрос (не для домашней работы, так как урок закончился, а меня там не было). Я не могу понять, как подойти к нему.

Речь идет о 2 пакетиках, каждый из которых содержит ассортимент разных видов фруктов:

Первая сумка содержит следующие случайно выбранные фрукты:

+ ------------- + -------- + --------- +
| диаметр см | масса г | гнилой? |
+ ------------- + -------- + --------- +
| 17.28 | 139,08 | 0 |
| 6.57 | 91,48 | 1 |
| 7.12 | 74,23 | 1 |
| 16,52 | 129,8 | 0 |
| 14,58 | 169,22 | 0 |
| 6.99 | 123,43 | 0 |
| 6,63 | 104,93 | 1 |
| 6,75 | 103,27 | 1 |
| 15,38 | 169.01 | 1 |
| 7,45 | 83.29 | 1 |
| 13.06 | 157,57 | 0 |
| 6,61 | 117,72 | 0 |
| 7.19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

Вторая сумка содержит 6 случайно выбранных фруктов из того же магазина, что и первая сумка. Сумма их диаметров составляет 64,2 см, а 4 - гнилые.

Дайте оценку для массы второй сумки.

Я вижу, что есть два разных вида фруктов с нормально распределенными диаметрами и массами, но я теряюсь в том, как поступить.

rutilusk
источник
6
Интересный вопрос - но странные данные: удельный вес колеблется от 0,78 до 0,05. Может быть, кто-то ошибочно принял украшения из пенопласта за настоящие фрукты? :-)
whuber
Вопрос не говорит, из чего был сделан фрукт. Я предполагаю, что вы можете предположить, что сами сумки тоже невесомы. Как мне решить проблему?
rutilusk
3
Суть моего комментария заключалась в том, что при анализе таких небольших объемов грязных данных мы полагаемся на знание того, что эти данные означают. Поскольку эти цифры, очевидно, не описывают ни одного известного вида «плодов», мы не можем апеллировать к таким предметным знаниям. (Например, у нас нет никаких оснований полагать, что любая часть этих данных должна быть «нормально распределенной».) Это затрудняет или делает невозможным выработку разумных ответов и может привести к противоречиям, поскольку ограничивает способы, с помощью которых Эффективность любого подхода может быть оценена.
whuber
Но фрукты из пенопласта не могут гнить. Возможно, плоды представляют собой вытянутые сфероиды с «диаметром», измеренным вдоль длинной оси. Кажется, что есть по крайней мере два вида фруктов: поэтому, принимая удельную плотность, близкую к единице, меньший размер будет примерно равным размеру и форме лимона; больше около половины фута в длину и менее 2 дюймов в поперечнике. Сложность этой идеи заключается в том, что более естественным является описание более короткой оси как «диаметра».
Scortchi - Восстановить Монику

Ответы:

1

Давайте начнем с построения данных и посмотрим на них. Это очень ограниченный объем данных, поэтому он будет несколько случайным с большим количеством предположений.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Итак, вот данные, красные точки обозначают гнилые фрукты:

фрукты на графике

Вы правы, полагая, что есть два вида фруктов. Я делаю следующие предположения:

  • Диаметр делит фрукты на две группы
  • Плоды диаметром более 10 находятся в одной группе, другие в меньшей группе.
  • В большой фруктовой группе есть только один гнилые фрукты. Давайте предположим, что если фрукт находится в большой группе, то гниение не влияет на вес. Это важно, поскольку в этой группе у нас есть только одна точка данных.
  • Если плод маленький, то гниение влияет на массу.
  • Предположим, что переменные diam и mass нормально распределены.

Поскольку считается, что сумма диаметров составляет 64,2 см, то, скорее всего, два плода большие, а четыре маленькие. Теперь есть 3 случая для веса. Есть 2, 3 или 4 маленьких гнилых плода ( большие гнилые плоды не влияют на массу по предположению ). Так что теперь вы можете получить оценку вашей массы, рассчитав эти значения.

Мы можем эмпирически оценить вероятность количества гнилых мелких плодов. Мы используем вероятности для взвешивания наших оценок массы в зависимости от количества гнилых плодов:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Дает нам окончательную оценку 691,5183г . Я думаю, что вы должны сделать большинство допущений, которые я сделал, чтобы прийти к выводу, но я думаю, что было бы возможно сделать это более разумным способом. Также я пробую эмпирически, чтобы получить вероятность количества гнилых маленьких плодов, то есть просто лень и это можно сделать «аналитически».

Gumeo
источник
Спасибо за ваш вклад. Мне кажется, что большинство утверждений, которые вы называете «предположениями», на самом деле являются выводами, основанными на вашем предварительном анализе. Было бы полезно проанализировать, как ваши результаты зависят от точности этих выводов. Несмотря на это, ясно, что такой маленький набор данных не может поддерживать результат с семью значащими цифрами! Было бы особенно полезно дать некоторую оценку его вероятной ошибки. Это будет относительно большой, что было бы важно знать.
whuber
@whuber спасибо за комментарий, я мог бы добавить кое-что еще для оценки изменения позже вечером. Самое простое, что можно сделать, - это получить оценки ошибок для массы трех групп, которые я использую для окончательного расчета, и рассчитать интервалы прогнозирования на основе этого. Но я вижу, что OP неактивен в течение года, поэтому я не ожидаю, что этот ответ будет принят. Я все еще думаю, что этот пример - хорошая «игрушечная» проблема, чтобы увидеть, как вы можете получить с таким небольшим количеством данных.
Gumeo
Я пытаюсь предположить, что вы на самом деле получаете гораздо меньше информации, чем предполагает ваш ответ, потому что это зависит от многих выводов, основанных на данных, которые сами по себе являются весьма неопределенными.
whuber
@whuber Да, это совершенно правильно. Но попытка оценить ошибку, основанную на всех сделанных мной предположениях / заключениях, не очень проста. На меня также сильно повлиял тот факт, что сумма диаметров плодов во втором пакете составляет 64,2 см, и что ОП упоминает, что может быть две группы плодов.
Gumeo
1
@whuber Я подумаю об этом и приму это за вызов. Я вернусь к этому вопросу позже!
Gumeo
0

Я бы предложил следующий подход:

  1. Генерация всех 6-ти кортежей, удовлетворяющих условиям на 4 гнилых. Это .(64)(72)
  2. Выбирайте из сгенерированных кортежей только те, которые удовлетворяют условию по диаметру.
  3. Рассчитайте средний вес выбранных кортежей (обычное среднее арифметическое).

Все это осуществляется простым скриптом.

Карел Мацек
источник
5
Почему этот подход должен работать? Какие предположения это делает? Вы пробовали это, чтобы видеть, может ли это вообще дать ответ?
whuber
0

Несколько подходов включают в себя, от самых простых до сложных,

  1. 6 (средняя масса)
  2. 6 (средний объем) (средняя плотность)
  3. 4 (средняя гнилая масса) + 2 (средняя не гнилая масса)
  4. 4 ((средний гнилой объем) + 2 (средний не гнилой объем)) (средняя плотность)
  5. 4 (средний гнилой объем) (средняя гнилая плотность) + 2 (средний не гнилой объем) (средняя не гнилая плотность)

, , ,

комбинаторные методы

Подходы расположены в порядке простоты расчета, а не в порядке, когда какой-либо подход лучше или вообще не годится. Выбор того, какой подход использовать, зависит от того, какие характеристики населения известны или предполагаются. Например, если массы фруктов в популяции магазина обычно распределяются и не зависят от диаметров и состояния гнили, можно использовать первый, самый простой подход без каких-либо преимуществ (или даже недостатков ошибки выборки из нескольких переменных) использования более сложных подходов. , Если не независимые одинаково распределенные случайные величины, то может быть лучше более сложный выбор в зависимости от известной или предполагаемой информации о населении.

Hax
источник
3
Почему все это хорошо? Какие предположения они делают? Как один выберет один над другим? (Являются ли они также в порядке возрастания благости в каком-то смысле?)
whuber