Testando a lei de Benford em tempo real

Suponha que eu tenha dados de uma certa quantidade , dados por . Agora, eu pego o primeiro dígito de cada quantidade e quero estudar a relação entre a distribuição empírica dos primeiros dígitos onde é a frequência normal de ocorrência de como o primeiro dígito, e a lei de benford Agora, eu li este artigo $X$ $x_1,...,x_n$ $d_i$ $x_i$ $\hat{p}=(\hat{p}_1,...,\hat{p}_n)$ $\hat{p_i}$ $i$

p_{i} = \log_{10} (1 + 1 / i)

$p_i = \log_{10} (1 + 1/i)$ sobre o assunto de comparar frequências empíricas dos primeiros dígitos versus a lei de benford. No entanto, eles não mencionam se os métodos mencionados podem ser usados para rejeitar a lei de Benford com certa confiança em tempo real, onde os dados chegam com uma certa frequência (por exemplo, 50 dados por segundo).

Eu acho que esses métodos podem ser aplicados à comparação em tempo real com a lei de Benford da seguinte maneira: dado um intervalo (pequeno) de tempo (digamos, 3 segundos), calculamos as freqüências empíricas dos primeiros dígitos e, em seguida, calculamos os intervalos de confiança simultâneos e os valores das estatísticas mostradas na referência mencionada anteriormente (temos que ter um tamanho de amostra de, pelo menos, 60 de dados, de modo que a distribuição das estatísticas deve ser relativamente perto das distribuições assimptóticas, de modo que os computados -Valores deve ser fiável). $\hat{p}=(\hat{p}_1,...,\hat{p}_n)$ $p$ $p$

Minha pergunta é: esse procedimento é válido? Isso faz sentido? Caso contrário, existe algum método sólido para comparar a distribuição empírica dos primeiros dígitos com a lei de benford em tempo real?

Um problema em potencial que vejo é que a distribuição subjacente dos primeiros dígitos pode mudar em uma determinada janela de tempo (talvez até mais de uma vez). É por isso que eu acho uma boa idéia usar janelas de tempo relativamente pequenas, para ter um tamanho de amostra decente, enquanto reduz as chances de que a distribuição subjacente dos primeiros dígitos possa mudar.

hypothesis-testing confidence-interval multinomial sequential-analysis real-time Rio Nate
fonte

+1 É uma boa pergunta - mas o procedimento proposto é inválido. Intervalos de confiança não podem ser usados para testes seqüenciais; eles emitem muitos alarmes falsos.

whuber

@whuber thanks !. Então, eu pressumo que os testes de qualidade dos ajustes também seriam inválidos nesse caso, pelo mesmo motivo?

Nate River

Sim, acho que está certo.

whuber

Minha intuição inicial é que algum tipo de abordagem bayesiana seria mais natural? Por exemplo. As técnicas bayesianas foram usadas por Jean Baptiste Eugène Estienne para testar lotes de munição e desperdiçar menos cartuchos. Menos cartuchos desperdiçados corresponderiam a menos tempo no seu problema.

Matthew Gunn

Você pode encontrar algum valor na exploração da análise seqüencial , relacionada a problemas de teste serial.

Glen_b -Reinstala Monica

Sambridge et al. (2010) descrevem um método para avaliar a conformidade dos dados de séries temporais com a lei de Benford. Embora seu caso de uso seja um pouco diferente, ele pode funcionar para você também.

O método deles funciona como você basicamente descreve: agrupe seus dados em janelas de observação e teste cada janela para verificar a conformidade. Esse método foi usado (e publicado) pelos mesmos autores em outros artigos; portanto, é pelo menos suficiente para passar na revisão por pares algumas vezes.

Embora eles tenham sua própria medida de qualidade de ajuste, não vejo razão para que você não possa usar nenhuma medida que normalmente funcione para a análise de Benford. Você quer ter certeza de que sua medida possui boas propriedades para o tamanho da janela ou amostra que você selecionou.

indigochild
fonte

Testando a lei de Benford em tempo real

Respostas: