Meu conjunto de dados contém duas variáveis (bastante correlacionadas) (tempo de execução do algoritmo) (número de nós examinados, qualquer que seja). Ambos são fortemente correlacionados pelo design, porque o algoritmo pode gerenciar aproximadamente nós por segundo.n
O algoritmo foi executado em vários problemas, mas foi finalizada se uma solução não foi encontrado depois de algum tempo de espera . Portanto, os dados são censurados à direita na variável de tempo.
Plotamos a função de densidade cumulativa estimada (ou a contagem acumulada) da variável para os casos em que o algoritmo terminou com . Isso mostra como muitos problemas poderiam ser resolvidos por meio da expansão no máximo nodos e é útil para comparar diferentes configurações do algoritmo. Mas no enredo para , existem aquelas caudas engraçadas no topo indo muito bem, como pode ser visto na imagem abaixo. Compare o ecdf para a variável , na qual a censura foi feita.t < T n n t
Contagem acumulada de
Contagem acumulada de
Simulação
Entendo por que isso acontece e posso reproduzir o efeito em uma simulação usando o seguinte código R. É causado pela censura em uma variável fortemente correlacionada, com a adição de algum ruído.
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
Como é chamado esse fenômeno? Eu preciso declarar em uma publicação que esses fãs são artefatos do experimento e não refletem a distribuição real.
Respostas:
Não sou especialista, mas acredito que o que você está vendo é análogo ao recorte suave .
Classificar recorte (obter compressão)
É um pouco diferente, porque seu recorte é causado por um processo não determinístico, em que seu sinal é cortado quando mais um ruído aleatório excede um limite, em vez de um dispositivo que reduz deterministicamente um sinal analógico. Eu tenho um pedal de guitarra que faz isso, suaviza o "soco" de tocar uma guitarra elétrica:
Keeyley Compressor Demo
Parece uma analogia decente. Não tenho certeza se existe um nome na comunidade estatística.
fonte
Eu suspeito que você se depara com a família de distribuições não simétricas estáveis.
Primeiro, plote seu ecdf em um gráfico de log-log. Adote uma abordagem paramétrica, assuma a Distribuição de Pareto,
O fenômeno das caudas pesadas é comum na ciência da computação, particularmente quando os nós competem contra recursos compartilhados de maneira aleatória, por exemplo, redes de computadores.
fonte
diga que sua distribuição está truncada , como normal truncada
fonte