Existe um nome melhor do que "média da integral"?

Estou testando os sensores de posição do acelerador (TPS) que minha empresa vende e imprimo o gráfico da resposta de tensão à rotação do eixo do acelerador. Um TPS é um sensor rotacional com 90 ° de alcance e a saída é como um potenciômetro com abertura total de 5V (ou valor de entrada do sensor) e abertura inicial com algum valor entre 0 e 0,5V. Eu construí uma bancada de teste com um controlador PIC32 para fazer uma medição de tensão a cada 0,75 ° e a linha preta conecta essas medidas. $\approx$

Um dos meus produtos costuma fazer variações localizadas de baixa amplitude fora (e abaixo) da linha ideal. Esta pergunta é sobre o meu algoritmo para quantificar esses "mergulhos" localizados; qual é um bom nome ou descrição para o processo de medir os mergulhos? (explicação completa a seguir) Na figura abaixo, a queda ocorre no terço esquerdo da trama e é um caso marginal se eu passaria ou não nessa parte:

Imprimir uma parte suspeita

Então, construí um detector dip ( stackoverflow qa sobre o algoritmo ) para quantificar meu instinto. Inicialmente, pensei que estava medindo "área". Este gráfico é baseado na impressão acima e na minha tentativa de explicar o algoritmo graficamente. Há um mergulho com duração para 13 amostras entre 17 e 31:

Dados amostrados mostrados com o "mergulho" ampliado

$deltas$ $deltas$

Analisando o $deltas$ $\frac {dy}{dx}$

Análise da derivada ...?

$deltas$ $deltas$

$0.7 + 1.2 + 1.3 + 1.4 + 1.8 + 2.5 + 2.9 + 3.0 + 2.5 + 2.0 + 1.5 + 1.0 + 1.2$

$23$

A linha verde é a média desses "valores abaixo da média" encontrados através da divisão da área pelo comprimento do mergulho:

$23 \div 13 = 1.77$

$2.6$ $3.0$

$|deltas - avg| > avg+std dev$

Já se passaram quase 20 anos desde o Calc 1, então, por favor, vá com calma, mas isso parece muito quando um professor usou o cálculo e a equação de deslocamento para explicar como nas corridas, um competidor com menos aceleração que mantém maior velocidade de curva pode vencer outro competidor com maior aceleração para o próximo turno: passando pelo turno anterior mais rápido, maior velocidade inicial significa que a área sob sua velocidade (deslocamento) é maior.

Para traduzir isso para minha pergunta, sinto que minha linha verde seria como aceleração, a segunda derivada dos dados originais.

Visitei a Wikipedia para reler os fundamentos do cálculo e as definições de derivada e integral , aprendi o termo apropriado para somar a área sob uma curva por meio de medidas discretas como Integração Numérica . Pesquisando muito mais, em média, a integral e sou levado ao tópico de não-linearidade e processamento de sinal digital. A média da integral parece ser uma métrica popular para quantificar dados .

$1.77$

terminology Chris K
fonte

Eu acho que "mergulho médio" é bom o suficiente. Ele não tem as dimensões da aceleração, então certamente não tem nada a ver com isso.

precisa

E eu gostaria de receber quaisquer observações ou comentários sobre esse tópico como um todo. Estou um pouco perturbado com a forma como essa medida do "instinto" não é melhor expressa matematicamente.

Chris K

Você poderia adicionar todos os pontos de dados que usou para construir a linha ideal ou adicionar um pouco mais de informações sobre como a linha vermelha pontilhada é calculada para justificar que as barras azuis sejam os "deltas que estão abaixo da média de todas as os pontos de dados "? Se é moralmente a distância média da média, deve haver um nome no estilo de aceleração, substituindo a diferenciação do curso pela média.

Migrou do Math.SE por pedido OP: meta.stats.stackexchange.com/questions/1845/...

Willie Wong

Eu poderia adicionar a palavra "local" para deixar claro que a etapa 1 existe - eu concordo com @Glen_b (outro Glen - oi!) Que isso é importante. Por isso, sugeriria "defeito médio local", onde acabei de concatenar "desvio do ideal" para "defeito". Parece adequado.

Glen Wheeler

Respostas:

Primeiro de tudo, esta é uma ótima descrição do seu projeto e do problema. E sou um grande fã da sua estrutura de medição caseira, o que é super legal ... então por que diabos isso importa o que você chama de "calcular a média das integrais"?

x [n] > α S D (x [1 : n - 1]) => x [n] is outlier

$x[n] > \alpha SD(x[1:n-1]) => x[n]\text{ is outlier}$

x [n]

$x[n]$

n^{t h}

$n^{th}$

S D (x [1 : n - 1])

$SD(x[1:n-1])$

1^{s t}

$1^{st}$

(n - 1)^{t h}

$(n-1)^{th}$

α

$\alpha$

h

$h$

x [n] > α S D (x [n - h - 1 : n - 1]) => x [n] é outlier

$x[n] > \alpha SD(x[n-h-1:n-1]) => x[n]\text{ is outlier}$

Se entendi corretamente, você está procurando uma maneira de automatizar o teste de seus dispositivos, ou seja, declarar um dispositivo como bom / defeituoso após a execução de todo o teste (desenhou a diagonal inteira). Nesse caso, basta considerar as fórmulas acima como comparação $x[n]$ contra o desvio padrão de todos os valores.

Também há outras regras que você pode considerar para classificar um dispositivo como defeituoso:

se algum desvio (delta) for maior que algum múltiplo do SD de todos os deltas
se a soma quadrada dos desvios for maior que um determinado limite
se a proporção da soma dos deltas positivo e negativo não for aproximadamente igual (o que pode ser útil se você preferir erros menores em ambas as direções do que um forte viés em uma única direção)

É claro que você pode encontrar mais regras e concatená-las usando a lógica booleana, mas acho que você pode ir muito longe com as três acima.

Por último, mas não menos importante, depois de configurá-lo, você precisará testar o classificador (um classificador é um sistema / modelo que mapeia uma entrada para uma classe, no seu caso os dados de cada dispositivo, para "bom" ou " defeituoso "). Crie um conjunto de testes rotulando manualmente o desempenho de cada dispositivo. Em seguida, observe o ROC , que basicamente indica o deslocamento entre quantos dispositivos seu sistema retira corretamente dos retornados, em relação a quantos dispositivos defeituosos ele retira.

meio-para-significado
fonte

Eu acredito que "por que diabos isso importa" é uma função do seu próprio nome de usuário. :) Por quê? Mesmo motivo, existe uma crista ilíaca: precisamos de palavras para quantificar distintamente tudo o que é único na vida. No entanto, esse controle de qualidade é um exemplo de como o vocabulário é limitado nas estatísticas. Precisamos combinar descritores confusos ou contraditórios para o que é "aos olhos" tão simples.

Chris K

Hehe, bem avistado, senhor! :) Se eu omiti quaisquer empreendimentos na terra da marca criativa, foi apenas porque me senti compelido a apoiar a desenvoltura e a dedicação de seus esforços e idéias, em vez de inventar rótulos vãos. Como você insiste em nomear a média da integral, lembre-se de que o que considera "média da integral" é uma média simples dos seus deltas. E, como tal, seus discrepantes são simplesmente "desvios da média" ou possivelmente desvios da média local. Não vejo a vantagem de pensar em integrais, a menos que você não tenha pontos de amostragem suficientes.

significa significado