Esta não é uma questão de trabalho doméstico, mas um problema real enfrentado por nossa empresa.
Muito recentemente (há 2 dias), solicitamos a fabricação de 10000 etiquetas de produtos para um revendedor. Revendedor é uma pessoa independente. Ele recebe as etiquetas fabricadas de fora e a empresa faz o pagamento ao revendedor. Cada etiqueta custa exatamente US $ 1 para a empresa.
Ontem, o revendedor veio com etiquetas, mas as etiquetas foram empacotadas em um pacote de 100 etiquetas cada. Dessa maneira, havia um total de 100 pacotes e cada pacote continha 100 rótulos; portanto, um total de 10000 rótulos. Antes de efetuar o pagamento ao revendedor de US $ 10000, decidimos contar poucos pacotes para garantir que cada pacote contenha exatamente 100 etiquetas. Quando contamos os rótulos, encontramos pacotes com menos de 100 rótulos (encontramos 97 rótulos). Para garantir que isso não seja por acaso, mas foi intencional, contamos mais 5 pacotes e encontramos o seguinte número de etiquetas em cada pacote (incluindo o primeiro pacote):
Packet Number Number of labels
1 97
2 98
3 96
4 100
5 95
6 97
Como não era possível contar todos os pacotes, decidimos efetuar o pagamento em média. Portanto, o número médio de etiquetas em seis pacotes é 97.166, portanto, o pagamento total decidido foi de $ 9716.
Eu só quero saber como o estatístico deve lidar com esse tipo de problema .
Além disso, quero saber quanto devemos pagar para obter 95% de garantia de que não pagamos mais do que o número real de etiquetas inteiras.
Informação adicional:
P (qualquer pacote continha mais de 100 rótulos) = 0
P (qualquer pacote continha rótulos menores que 90) = 0 {rótulos menores que 90 seriam facilmente detectados ao contar pacotes porque os pacotes teriam menor peso}
EDIT: O revendedor simplesmente negou tais práticas ilícitas. Descobrimos que esse revendedor trabalha com uma comissão específica que recebe do fabricante sobre o que está sendo pago pela empresa. Quando nos comunicamos diretamente ao fabricante, descobrimos que não é culpa do fabricante nem do revendedor. O fabricante disse: "As etiquetas ficam curtas porque as folhas não têm tamanho padronizado e, independentemente do número que for cortado da folha única, elas as juntam em um pacote".
Além disso, validamos nossa primeira afirmação fornecida em informações adicionais, porque o fabricante admitiu que, devido ao aumento marginal no tamanho da folha, não é possível cortar etiquetas adicionais, além disso, a partir de uma redução marginal no tamanho da folha, não é possível cortar 100 etiquetas exatamente do mesmo tamanho.
fonte
Respostas:
Eu gostaria de receber feedback sobre o parágrafo que começa com "Após a reflexão ...", já que parte específica do modelo me mantém acordada à noite.
O modelo bayesiano
A pergunta revisada me faz pensar que podemos desenvolver o modelo explicitamente, sem usar simulação. A simulação introduziu variabilidade adicional devido à aleatoriedade inerente à amostragem. A resposta dos sofistas é ótima, no entanto.
Pressupostos : o menor número de etiquetas por envelope é 90 e o maior é 100.
Portanto, o menor número possível de rótulos é 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (conforme fornecido pelos dados do OP), 9000 devido ao nosso limite inferior e os rótulos adicionais provenientes dos dados observados.
Indique o número de etiquetas em um envelope . Denote o número de etiquetas acima de 90, ou seja, , então . A distribuição binomial modela o número total de sucessos (aqui um sucesso é a presença de uma etiqueta em um envelope) em tentativas quando as tentativas são independentes, com probabilidade constante de sucesso para que obtenha os valoresTomamos , o que fornece 11 resultados possíveis diferentes. Suponho que, como os tamanhos das folhas sejam irregulares, algumas têm apenas espaço paraYi i Xi X=Y−90 X∈{0,1,2,...,10} n p X 0,1,2,3,...,n. n=10 X etiquetas adicionais acima de 90 e que esse "espaço adicional" para cada etiqueta acima de 90 ocorre independentemente com probabilidade . Então,p Xi∼Binomial(10,p).
(Após reflexão, o modelo de assunção de independência / binomial é provavelmente uma suposição estranha a ser feita, uma vez que efetivamente fixa a composição das folhas da impressora como unimodal, e os dados podem mudar apenas a localização do modo, mas o modelo nunca admitirá distribuição multimodal.Por exemplo, em um modelo alternativo, é possível que a impressora apenaspossui folhas de tamanhos 97, 98, 96, 100 e 95: isso satisfaz todas as restrições declaradas e os dados não excluem essa possibilidade. Pode ser mais apropriado considerar cada tamanho de folha como sua própria categoria e, em seguida, ajustar um modelo Dirichlet-multinomial aos dados. Não faço isso aqui porque os dados são muito escassos; portanto, as probabilidades posteriores em cada uma das 11 categorias serão fortemente influenciadas pelo anterior. Por outro lado, ao ajustar o modelo mais simples, também restringimos os tipos de inferências que podemos fazer.)
Cada envelope é uma realização iid de . A soma dos testes binomiais com a mesma probabilidade de sucesso também é binomial, então(Este é um teorema - para verificar, use o teorema da exclusividade do MGF.)i X p ∑iXi∼Binomial(60,p).
Prefiro pensar nesses problemas de um modo bayesiano, porque é possível fazer declarações de probabilidade direta sobre quantidades de interesse posteriores. Um típico anterior para ensaios binomiais com desconhecido é a distribuição beta , que é muito flexível (varia entre 0 e 1, pode ser simétrica ou assimétrica em qualquer direção, uniforme ou uma das duas massas Dirac, tem um antimodo ou um modo .. É uma ferramenta incrível!). Na ausência de dados, parece razoável assumir probabilidade uniforme sobre . Ou seja, pode-se esperar que uma folha acomode 90 etiquetas com a frequência de 91, com a frequência de 92, ... com a frequência de 100. Portanto, nossa prévia ép p p∼Beta(1,1). Se você não acha que essa versão beta anterior é razoável, a versão anterior uniforme pode ser substituída por outra versão anterior beta, e a matemática nem aumentará em dificuldade!
A distribuição posterior em é pelas propriedades de conjugação deste modelo. Esta é apenas uma etapa intermediária, no entanto, porque não nos importamos com tanto quanto com o número total de rótulos. Felizmente, as propriedades da conjugação também significam que a distribuição preditiva posterior das folhas é beta-binomial , com parâmetros da beta posterior. Existem "ensaios" eminentes, ou seja, rótulos cuja presença na entrega é incerta, portanto nosso modelo posterior nos rótulos restantes ép p∼Beta(1+43,1+17) p 940 Z Z∼BB(44,18,940).
Como temos uma distribuição em e um modelo de valor por etiqueta (o fornecedor concordou com um dólar por etiqueta), também podemos inferir uma distribuição de probabilidade sobre o valor do lote. Indique o valor total em dólar do lote. Sabemos que , porque apenas modela os rótulos sobre os quais não temos certeza. Assim, a distribuição de mais de valor é dada por .Z D D=9043+Z Z D
Qual é a maneira apropriada de considerar o preço do lote?
Podemos descobrir que os quantis em 0,025 e 0,975 (um intervalo de 95%) são 553 e 769, respectivamente. Portanto, o intervalo de 95% em D é . Seu pagamento cai nesse intervalo. (A distribuição em não é exatamente simétrica, portanto esse não é o intervalo central de 95% - no entanto, a assimetria é desprezível. um a considerar!)[9596,9812] D
Eu não estou ciente de uma função quantil para distribuição binomial beta em R, então escrevi minha própria usando a busca de raiz de R.
Outra maneira de pensar sobre isso é apenas pensar sobre a expectativa. Se você repetisse esse processo várias vezes, qual seria o custo médio que pagaria? Podemos calcular diretamente a expectativa deO modelo binomial beta tem expectativa , portanto quase exatamente o que você pagou. Sua perda esperada no negócio foi de apenas 6 dólares! Tudo dito, bem feito!D E(D)=E(9043+Z)=E(Z)+9043. E(Z)=nαα+β=667.0968 E(D)=9710.097,
Mas não tenho certeza de que nenhum desses números seja o mais relevante. Afinal, este fornecedor está tentando enganá-lo! Se eu estivesse fazendo esse acordo, pararia de me preocupar com o valor justo do lote ou com o valor justo e começaria a calcular a probabilidade de que estou pagando demais! O fornecedor está claramente tentando me defraudar, por isso estou perfeitamente dentro dos meus direitos de minimizar minhas perdas e não me preocupar com o ponto de equilíbrio. Nesse cenário, o preço mais alto que eu ofereceria é 9.615 dólares, porque esse é o quantil de 5% da parte posterior em , ou seja, há 95% de probabilidade de que estou pagando malD . O fornecedor não pode provar para mim que todos os rótulos estão lá, então vou proteger minhas apostas.
(É claro que o fato de o fornecedor ter aceitado o acordo nos diz que ele tem uma perda real não negativa ... Eu não descobri uma maneira de usar essas informações para nos ajudar a determinar com mais precisão o quanto você foi enganado, exceto para observar porque ele aceitou a oferta, você estava na melhor das hipóteses .)
Comparação com o bootstrap
Temos apenas 6 observações para trabalhar. A justificativa para o bootstrap é assintótica, então vamos considerar como são os resultados em nossa pequena amostra. Este gráfico mostra a densidade da simulação boostrap.
O padrão "irregular" é um artefato de pequeno tamanho de amostra. Incluir ou excluir qualquer ponto terá um efeito dramático sobre a média, criando essa aparência "amontoada". A abordagem bayesiana suaviza esses grupos e, na minha opinião, é um retrato mais convincente do que está acontecendo. Linhas verticais são os quantis de 5%.
fonte
Edição: Tragédia! Minhas suposições iniciais estavam incorretas! (Ou, pelo menos, em dúvida - você confia no que o vendedor está lhe dizendo? Ainda, dê uma dica para Morten também.) O que eu acho que é outra boa introdução às estatísticas, mas a Abordagem de folha parcial agora foi adicionada abaixo ( já que as pessoas pareciam gostar da folha inteira e talvez alguém ainda a ache útil).
Primeiro de tudo, grande problema. Mas gostaria de tornar um pouco mais complicado.
Por isso, antes de fazê-lo, deixe-me um pouco mais simples e diga - o método que você está usando agora é perfeitamente razoável . É barato, é fácil, faz sentido. Portanto, se você tiver que ficar com ele, não deve se sentir mal. Apenas certifique-se de escolher seus pacotes aleatoriamente. E, se você puder pesar tudo de forma confiável (gorjeta ao whuber e ao user777), faça isso.
A razão pela qual eu quero torná-lo um pouco mais complicado é que você já tem - você simplesmente não nos contou sobre toda a complicação, que é a seguinte: contar leva tempo e tempo também é dinheiro . Mas como muito ? Talvez seja mais barato contar tudo!
Então, o que você realmente está fazendo é equilibrar o tempo que leva para contar, com a quantidade de dinheiro que está economizando. (SE, é claro, você só joga este jogo uma vez. Na próxima vez que isso acontecer com o vendedor, ele poderá ter entendido e tentado um novo truque. Na teoria dos jogos, essa é a diferença entre Single Shot Games e Iterated Jogos. Mas, por enquanto, vamos fingir que o vendedor sempre fará a mesma coisa.)
Mais uma coisa antes de eu chegar à estimativa. (E, desculpe-me por escrever tanto e ainda não ter chegado à resposta, mas essa é uma resposta muito boa para o que um estatístico faria? Eles passavam muito tempo se certificando de que entendiam cada pequena parte do problema antes que se sentissem à vontade para dizer algo a respeito.) E essa é uma visão baseada no seguinte:
(EDITAR: SE ELES ESTÃO trapaceando de verdade ...) Seu vendedor não economiza dinheiro removendo etiquetas - ele economiza dinheiro ao não imprimir folhas. Eles não podem vender seus rótulos para outra pessoa (presumo). E talvez, eu não sei e não sei se você sabe, eles não podem imprimir meia folha de suas coisas e metade de outra pessoa. Em outras palavras, antes mesmo de começar a contar, você pode assumir que o número total de marcadores também é
9000, 9100, ... 9900, or 10,000
. É assim que vou abordar isso, por enquanto.O método de folha inteira
Quando um problema é um pouco complicado como este (discreto e limitado), muitos estatísticos simulam o que pode acontecer. Aqui está o que eu simulei:
Isso fornece a você, supondo que eles estejam usando folhas inteiras, e suas suposições estejam corretas, uma possível distribuição de seus rótulos (na linguagem de programação R).
Então eu fiz isso:
Isso descobre, usando um método "bootstrap", intervalos de confiança usando 4, 5, ... 20 amostras. Em outras palavras, em média, se você usasse N amostras, qual seria o tamanho do seu intervalo de confiança? Uso isso para encontrar um intervalo pequeno o suficiente para decidir o número de folhas, e essa é a minha resposta.
Por "pequeno o suficiente", quero dizer que meu intervalo de confiança de 95% possui apenas um número inteiro - por exemplo, se meu intervalo de confiança era de [93,1, 94,7], eu escolheria 94 como o número correto de folhas, pois sabemos é um número inteiro.
OUTRA dificuldade - sua confiança depende da verdade . Se você tem 90 folhas e cada pilha tem 90 etiquetas, converge muito rápido. Mesmo com 100 folhas. Então, olhei para 95 folhas, onde há maior incerteza, e descobri que, para ter 95% de certeza, você precisa de cerca de 15 amostras, em média. Então, digamos que no geral, você queira colher 15 amostras, porque nunca sabe o que realmente está lá.
Depois de saber quantas amostras você precisa, você sabe que suas economias esperadas são:
onde é o custo de contar uma pilha. Se você presumir que há uma chance igual de todos os números entre 0 e 10 estarem ausentes, suas economias esperadas são de c $. Mas, e aqui está o ponto de fazer a equação - você também pode otimizá-la, trocar sua confiança pelo número de amostras necessárias. Se você concorda com a confiança que cinco amostras lhe dão, também pode calcular quanto ganhará lá. (E você pode brincar com esse código, para descobrir isso.)500 - 15 ∗c 500−15∗
Mas você também deve cobrar do cara por fazer todo esse trabalho!
(EDIT: ADICIONADO!) A Abordagem Parcial de Folha
Ok, então vamos supor que o que o fabricante está dizendo é verdadeiro e não é intencional - algumas etiquetas são perdidas em todas as folhas. Você ainda quer saber sobre quantos rótulos, em geral?
Esse problema é diferente porque você não tem mais uma boa decisão limpa que pode tomar - isso foi uma vantagem para a suposição de Folha inteira. Antes, havia apenas 11 respostas possíveis - agora, são 1100, e obter um intervalo de confiança de 95% sobre exatamente quantas etiquetas existem provavelmente vai levar muito mais amostras do que você deseja. Então, vamos ver se podemos pensar sobre isso de forma diferente.
Como se trata realmente de você tomar uma decisão, ainda faltam alguns parâmetros - quanto dinheiro você está disposto a perder, em um único negócio, e quanto custa para contar uma pilha. Mas deixe-me configurar o que você poderia fazer, com esses números.
Simulando novamente (embora adote o user777 se você puder fazê-lo sem!), É informativo observar o tamanho dos intervalos ao usar diferentes números de amostras. Isso pode ser feito assim:
Que assume (desta vez) que cada pilha possui um número aleatório uniforme de rótulos entre 90 e 100 e fornece:
Obviamente, se as coisas realmente parecessem ter sido simuladas, a verdadeira média seria de cerca de 95 amostras por pilha, menor do que a verdade parece ser - esse é um argumento de fato para a abordagem bayesiana. No entanto, ele fornece uma noção útil de quanto mais você está certo sobre a sua resposta, à medida que continua a provar - e agora pode explicitamente compensar o custo da amostragem com qualquer acordo que você tenha sobre preços.
O que eu sei até agora, estamos todos muito curiosos para saber.
fonte
9000,9100...10000
total de rótulos no final, poderá substituir sua lógica if porbucket <- sample(which(stacks!=100),1)
e sempre incrementar a pilha.Esta é uma amostra bastante limitada. (Trechos de código estão em R)
Para uma estimativa inicial do número esperado na população total e um valor de confiança de 95% para o preço, podemos começar com a média e o quantil de 5%
Para ir além, teremos que criar um modelo teórico e fazer suposições adicionais. Existem várias fontes de incerteza em jogo - (1) incerteza para a forma funcional de um modelo de preenchimento de pacotes, (2) incerteza na estimativa de parâmetros para o modelo e (3) erro de amostragem.
Para o modelo, vamos supor que exista um processo para soltar cada rótulo independentemente em um pacote que esteja propenso a falhas a uma taxa desconhecida . Não presumiremos que o fabricante esteja envolvido em fraudes, apenas que uma parte acabe mutilada ou de outra forma no chão. O sucesso de cada queda é então uma variável aleatória de Bernoulli. Para cada pacote, o processo é repetido vezes, significando que o número de etiquetas em cada pacote seguirá uma distribuição binomial. Podemos estimar da amostra da seguinte maneira:n = 100 pp n=100 p
Como e , podemos aproximar bem a distribuição binomial com a distribuição Poisson mais simplesn p ≤ 10n≥100 np≤10
Podemos encontrar uma pequena garantia de que a distribuição de Poisson tem uma variação igual à sua média, , e que a variação da amostra está razoavelmente próxima da média da amostraλ=
lambda
Se assumirmos que cada pacote é preenchido independentemente, o número de falhas para toda a execução de 100 pacotes também é aproximadamente Poisson com o parâmetro . A média e o quantil de 95% são entãoλr=
100*lambda
O problema é que a taxa de falha, , é desconhecida e não explicamos sua incerteza. Vamos voltar à distribuição binomial e, por uma questão de flexibilidade e simplicidade, suponha que seja uma variável aleatória Beta com parâmetros de forma desconhecidos e . Isso torna o processo um processo Beta-Bernoulli. Precisamos de alguma suposição prévia para e ; portanto, daremos ao fabricante o benefício da dúvida, mas não muita confiança, e criaremos e .p α β α β α = 1 β = 0p p α β α β α=1 β=0
Em 600 observações, você observou 583 sucessos e 17 falhas, portanto, atualizamos o processo Beta-Bernoilli para ter os parâmetros e . Portanto, para um pacote de 100, esperamos uma média de 97,17138 e desvio padrão de 1,789028 (veja, por exemplo, a entrada da Wikipedia para as fórmulas). Usando a função de distribuição, podemos ver que a probabilidade de ter menos de 90 em um pacote é suficientemente baixa (0,05%) para ignorarmos essa suposição; fazer isso é conservador para definir nosso preço.β ∗ = 0 + 17α∗=1+583 β∗=0+17
A beleza desse modelo é que é fácil atualizar e (adicione novos sucessos a e novas falhas em , o modelo posterior continua sendo um beta-binomial) para mais observações para reduzir a incerteza e suas suposições iniciais são explícitas.β ∗ α βα∗ β∗ α β
Agora, supondo que cada pacote seja preenchido independentemente, podemos visualizar a caixa inteira de pacotes como 10000 eventos independentes, em vez de 100 eventos de 100 subeventos. A média é, portanto, 9717.138 com desvio padrão 69,57153. Usando a função de distribuição, você pode calcular o número de confiança de 95% em torno de 9593. Usei o pacote R
VGAM
para suas*betabinom.ab
funções.Portanto, a incerteza no parâmetro estimado reduz o preço de confiança de 95% em quase 100, e acabamos bem perto da nossa aproximação simples inicial.
Qualquer que seja a abordagem ou modelo, dados adicionais podem ser usados para validar o modelo, ou seja, para ver se os dados adicionais são razoáveis sob o modelo teórico ou se são necessários ajustes ou um novo modelo. O processo de modelagem é semelhante ao método científico.
fonte
Em uma pitada, minha primeira inclinação seria calcular um intervalo de confiança de 95% para a média da sua amostra em uma distribuição normal truncada que cai entre os limites inferior e superior dos rótulos 90 e 100.
O pacote R
truncnorm
permite encontrar intervalos de confiança para uma distribuição normal truncada, dada uma média de amostra especificada, desvio padrão da amostra, limite inferior e limite superior.Como você está tirando uma amostra de n = 5 de uma população relativamente pequena (N = 100), convém multiplicar o desvio padrão da amostra por um fator finito de população = [(Nn) / (N-1)] ^. 5 = 0,98.
fonte
Uma abordagem rápida e simples é considerar todas as possíveis novas amostras do tamanho 6. Existem apenas 15.625 permutações. Olhando para eles e tomando a média para cada caso, e depois classificando as médias e extraindo o quantil de 5%, obtemos um valor de 96.
Portanto, o valor estimado que você deve pagar é de cerca de 9.600. Isso está de acordo com algumas das abordagens mais sofisticadas.
Uma melhoria aqui seria simular um grande número de amostras de tamanho 6 e usar o mesmo procedimento para encontrar o 5º percentil da média da amostra. Usando um pouco mais de um milhão de reamostragens, descobri que o 5º percentil era 96,1667; portanto, para o dólar mais próximo, o pagamento seria de 9617 dólares, o que é apenas uma diferença de 2 dólares do resultado de 9615 do user777.
fonte
Parece que você já concluiu que o erro foi cometido intencionalmente, mas um estatístico não chegaria a essas conclusões (mesmo que a evidência pareça apoiar isso).
Pode-se configurar isso como um teste de hipótese:
H0: O revendedor é honesto, mas bastante desleixado
H1: O revendedor é fraudulento e o déficit é intencional.
Vamos assumir H0, então cada desvio é um evento aleatório com média = 0 e chance igual de ser positivo ou negativo. Vamos assumir ainda que os desvios são normalmente distribuídos. O desvio padrão para a distribuição normal com base nos desvios nos 6 pontos de dados é sd = 1,722
Se o estatístico não se lembrava muito bem de sua teoria, mas tinha R por perto (cenário improvável), ele poderia escrever o código a seguir para verificar a probabilidade de não receber desvios positivos (sem pacotes de mais de 100) se H0 for verdadeiro.
O resultado da simulação é:
A probabilidade de o revendedor ser honesto é de apenas 5,35% e, portanto, é bem provável que você tenha sido vítima de fraude.
Como você diz que essa não é uma pergunta de lição de casa, mas uma situação real para sua empresa, isso deixa de ser um exercício de cálculo das etiquetas de número esperadas corretas, mas, em vez disso, é um caso complicado de como lidar com um fornecedor desonesto.
O que você faz daqui, realmente não pode ser respondido apenas pelas estatísticas. Depende muito da sua alavancagem e relacionamento com o revendedor.
Boa sorte!
Morten Bunes Gustavsen
fonte
Que tal algo como um modelo multinomial.
O prob de cada resultado é estimado em 1/6, 1/6, .... (com base nas 6 observações) e, portanto, E (x) = 97,16 e Var (x) = soma (95 ^ 2 * 1/6 + ...) - E (x) ^ 2 = 2,47, portanto o IC95% seria [94, 100]
fonte