Estimativa da massa de frutas em uma sacola apenas a partir de totais relacionados?

9

Um instrutor da minha universidade fez uma pergunta como essa (não para trabalhos de casa, pois a aula terminou e eu não participei). Não consigo descobrir como abordar isso.

A questão diz respeito a 2 sacas cada uma contendo uma variedade de diferentes tipos de frutas:

A primeira sacola contém os seguintes frutos selecionados aleatoriamente:

+ ------------- + -------- + --------- +
| diâmetro cm | massa g | podre? |
+ ------------- + -------- + --------- +
| 17,28 | 139,08 | 0
| 6,57 | 91,48 | 1 |
| 7,12 | 74,23 | 1 |
| 16,52 | 129,8 | 0
| 14,58 | 169,22 | 0
| 6,99 | 123,43 | 0
| 6,63 | 104,93 | 1 |
| 6,75 | 103,27 | 1 |
| 15,38 169,01 1 |
| 7,45 | 83,29 | 1 |
| 13.06 157,57 | 0
| 6,61 | 117,72 | 0
| 7,19 | 128,63 | 0
+ ------------- + -------- + --------- +

A segunda sacola contém 6 frutas selecionadas aleatoriamente na mesma loja que a primeira sacola. A soma de seus diâmetros é de 64,2 cm e 4 estão podres.

Faça uma estimativa para a massa da segunda bolsa.

Vejo que parece haver dois tipos diferentes de frutas com diâmetros e massas normalmente distribuídos, mas estou perdido em como proceder.

rutilusk
fonte
6
Pergunta interessante - mas dados estranhos: as gravidades específicas variam de 0,78 a 0,05. Talvez alguém tenha confundido as decorações de isopor com frutas de verdade? :-)
whuber
A questão não diz do que a fruta foi feita. Eu acho que você pode assumir que as próprias sacolas também não têm peso. Como resolvo o problema?
Rutilusk
3
O ponto forte do meu comentário foi que, ao analisar quantidades tão pequenas de dados confusos, confiamos no conhecimento do significado dos dados. Como esses números obviamente não descrevem nenhum tipo conhecido de "fruto", não podemos apelar para esse conhecimento de domínio. (Por exemplo, não temos base alguma para supor que qualquer parte desses dados deva ser "normalmente distribuída".) Isso torna difícil ou impossível o desenvolvimento de respostas razoáveis ​​e pode levar à controvérsia, porque limita as maneiras pelas quais o o desempenho de qualquer abordagem pode ser avaliado.
whuber
Mas as frutas de isopor não apodrecem. Talvez os frutos sejam esferóides prolatados, com "diâmetro" medido ao longo do longo eixo. Parece haver pelo menos dois tipos de frutas: assim, assumindo gravidades específicas próximas a uma, a menor seria do tamanho e formato de um limão; Quanto maior, cerca de meio pé de comprimento e menos de 2 polegadas de diâmetro. A dificuldade com essa idéia é que parece mais natural descrever o eixo mais curto como o "diâmetro".
Scortchi - Restabelece Monica

Respostas:

1

Vamos começar plotando os dados e dar uma olhada neles. Como é uma quantidade muito limitada de dados, será um pouco ad hoc com muitas suposições.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Portanto, estes são os dados, pontos vermelhos representam frutos podres:

frutas plotadas

Você está certo ao supor que parece haver dois tipos de frutas. As suposições que faço são as seguintes:

  • O diâmetro divide os frutos em dois grupos
  • Frutas com diâmetro maior que 10 estão em um grupo, outras no grupo menor.
  • Há apenas uma fruta podre no grupo de frutas grandes. Vamos supor que, se uma fruta estiver no grupo grande, ficar podre não afeta o peso. Isso é essencial, pois só temos um ponto de dados nesse grupo.
  • Se a fruta é uma fruta pequena, ser podre afeta a massa.
  • Vamos assumir que as variáveis ​​diam e massa são normalmente distribuídas.

Como é dado que a soma do diâmetro é 64,2 cm, é mais provável que dois frutos sejam grandes e quatro pequenos. Agora existem 3 casos para o peso. Existem 2, 3 ou 4 frutos pequenos podres ( um fruto grande sendo podre não afeta a massa por suposição ). Então agora você pode obter limites em sua massa calculando esses valores.

Podemos estimar empiricamente a probabilidade de o número de frutos pequenos estar podre. Usamos as probabilidades para ponderar nossas estimativas de massa, dependendo do número de frutos podres:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Dando-nos uma estimativa final de 691.5183g . Eu acho que você precisa fazer a maioria das suposições que fiz para chegar a uma conclusão, mas acho que pode ser possível fazer isso de uma maneira mais inteligente. Também faço amostras empiricamente para obter a probabilidade de número de pequenos frutos podres, que é apenas preguiça e pode ser feito "analiticamente".

Gumeo
fonte
Obrigado pela sua contribuição. Parece-me que a maioria das afirmações que você chama de "suposições" são realmente conclusões baseadas em sua análise exploratória. Seria valioso analisar como seus resultados dependem da precisão dessas conclusões. Independentemente disso, é claro que um conjunto de dados tão pequeno não pode suportar um resultado com sete números significativos! Seria especialmente útil fornecer uma avaliação do seu provável erro. Será relativamente grande, o que seria importante saber.
whuber
@ whuber obrigado pelo comentário, posso acrescentar algo mais para estimar a variação mais tarde à noite. A coisa mais simples a fazer seria obter estimativas de erro para a massa dos três grupos que eu uso no cálculo final e calcular intervalos de previsão com base nisso. Mas vejo que o OP está inativo há um ano, portanto não espero que essa resposta seja aceita. Ainda acho que este exemplo é um bom problema de "brinquedo" para ver como você pode obter com tão poucos dados.
Gumeo 24/02
Estou tentando sugerir que você obtenha muito menos informações do que as sugeridas por sua resposta, porque depende de muitas conclusões derivadas de dados que são altamente incertas.
whuber
@ whuber Sim, isso está totalmente correto. Mas tentar estimar o erro propagado por todas as suposições / conclusões que faço não é muito simples. Também fui fortemente influenciado pelo fato de que a soma dos diâmetros das frutas na segunda sacola é de 64,2 cm e que o OP menciona que pode haver dois grupos de frutas.
Gumeo
11
@whuber Vou pensar sobre isso e encarar isso como um desafio. Vou revisitar esta questão mais tarde!
Gumeo
0

Eu proporia a seguinte abordagem:

  1. Gere todas as 6 tuplas que satisfazem as condições em 4 podres. Eles são .(64)(72)
  2. Selecione nas tuplas geradas apenas aquelas que satisfazem a condição no diâmetro.
  3. Calcule o peso médio das tuplas selecionadas (média aritmética usual).

Tudo isso é gerenciável por um script simples.

Karel Macek
fonte
5
Por que essa abordagem deve funcionar? Que suposições são feitas? Você já tentou ver se consegue produzir uma resposta?
whuber
0

Várias abordagens incluem, do mais simples ao complexo,

  1. 6 (massa média)
  2. 6 (volume médio) (densidade média)
  3. 4 (massa podre média) + 2 (massa não podre média)
  4. 4 ((volume podre médio) + 2 (volume não podre médio)) (densidade média)
  5. 4 (volume podre médio) (densidade podre média) + 2 (volume não podre médio) (densidade não podre média)

. . .

métodos combinatórios

As abordagens são organizadas em ordem de simplicidade de cálculo, não na ordem de qualquer abordagem ser melhor, ou de alguma forma boa. A seleção de qual abordagem usar depende de quais características da população são conhecidas ou assumidas. Por exemplo, se as massas de frutas na população da loja são normalmente distribuídas e independentes de diâmetros e status de podridão, pode-se usar a primeira abordagem mais simples, sem vantagens (ou mesmo desvantagens do erro de amostragem de várias variáveis) do uso de abordagens mais complexas . Se não forem variáveis ​​aleatórias distribuídas de forma idêntica independentes, uma escolha mais complexa, dependendo das informações conhecidas ou assumidas sobre a população, pode ser melhor.

Hax
fonte
3
Por que alguma dessas coisas é boa? Que suposições eles fazem? Como um selecionaria um sobre o outro? (Eles também estão em ordem de ascensão da bondade, em certo sentido?)
whuber