Modelando dados de sensores de séries temporais com técnicas de aprendizado de máquina?

Trabalho em sensores de qualidade do ar, vários dos quais são sensores de gás eletroquímico. Como pano de fundo, esses sensores são estimulados por um circuito potenciostático que aplica uma tensão de polarização e mede a corrente que flui através do sensor (normalmente na ordem dos nano-amperes). A quantidade de corrente que flui através do sensor está relacionada à concentração de um gás alvo ao qual o sensor foi exposto. A corrente também está relacionada à pressão, umidade relativa, temperatura e exposição a gases sensíveis à sensibilidade, em que reside a desgraça da minha existência.

Tradicionalmente, usamos uma abordagem de modelagem de dados para interpretar a corrente medida no sensor como uma concentração do gás alvo, com base nas recomendações do fabricante do sensor. Fazemos isso medindo a resposta ao ar limpo e em uma faixa de temperaturas e, em seguida, usando essa caracterização para interpretar a deflexão da resposta da linha de base caracterizada como atribuível à exposição ao gás alvo.

Não temos os meios para realmente avaliar a qualidade desse modelo, porque não temos um instrumento de referência, nem os meios para expor o sensor a concentrações controladas de gás, mas somos capazes de expor os sensores para direcionar o gás em ordem para confirmar que eles respondem sensivelmente ao gás alvo.

O desafio que estou enfrentando é que o modelo de dados parametrizado pela caracterização acima mencionada, por períodos mais longos (por exemplo, uma semana) e sujeito a ar limpo sob variação natural da temperatura, umidade relativa e pressão, produz um intervalo de variação na concentração interpretada que é excessivamente grande. Não é barulhento, mas sim à deriva. Isso me leva a acreditar que o modelo de dados está muito ausente.

Isso me levou a pensar que uma abordagem algorítmica (aprendizado de máquina) pode produzir melhores resultados. Como tenho dados de resolução de um minuto para temperatura, umidade relativa, pressão e corrente do sensor (todos com valor real) em condições de ar limpo, quais ferramentas seriam mais adequadas para modelar a corrente do sensor em função da temperatura, umidade relativa, e pressão? O que mais me preocupa é que não podemos praticamente criar condições que representem uma seção razoável do espaço de entrada.

Eu usaria o modelo de dados tradicional para interpretar a deflexão da linha de base prevista para estimar a concentração de gás.

Uma observação lateral é que a temperatura e a umidade relativa estão fisicamente correlacionadas, embora eu possa matematicamente afastar a umidade absoluta da temperatura, umidade relativa e pressão, o que acho que a des correlacionaria.

Atualização / Esclarecimento

Caso isso não esteja claro, o objetivo é estimar a tensão de linha de base produzida por um sensor em um ambiente de ar limpo sob condições variáveis de pressão, umidade e temperatura - como forma de usar a deflexão dessa linha de base prevista como o sinal de interesse no cálculo da concentração de gás da espécie-alvo. Então, basicamente, estou investigando abordagens alternativas ao que geralmente é chamado de calibração zero no domínio da instrumentação.

Se eu tivesse dados verdadeiros sobre as espécies-alvo, parece-me que poderei pular os negócios sobre desvios de uma linha de base prevista e estimar a concentração diretamente dos vetores de tempo de tensão, temperatura, umidade e pressão.

machine-learning time-series modeling vicatcu
fonte

PS Eu sou novo aqui, upvotes seria bem-vindo :-)

vicatcu

Talvez eu tenha perdido, mas qual é o objetivo de modelagem aqui? Objetivos diferentes podem sugerir abordagens diferentes.

Richard Hardy

@RichardHardy Suponho que existem dois objetivos de modelagem. O primeiro é modelar a tensão da linha de base quando o sensor estiver sujeito a ar limpo, dada a temperatura, umidade e pressão durante algum período de tempo. O segundo é modelar a concentração prevista das espécies-alvo, em função da temperatura, umidade, pressão e tensão. Não tenho uma ideia clara de como posso abordar esse último objetivo, porque não tenho dados sobre a verdade, nem os meios para controlar / regular a concentração do gás da espécie-alvo. O objetivo anterior parece tangível porque posso impedir a exposição por meio de filtros.

precisa saber é

Eu acho que a modelagem precisa também quase certamente exigirá que a entrada no modelo seja todas as variáveis de entrada com alguma quantidade de atraso.

precisa saber é

"Modelar" não é um objetivo em si. Minha pergunta diz respeito ao uso do modelo: descrição, previsão, teste de hipóteses, ...?

Richard Hardy

Edição e versão TL; DR: isso poderia ser tratado como um problema de análise de mediação / moderador, mas isso ainda exigiria uma medição independente para calibrar o dispositivo.

Isso soa como um problema de análise de mediação / moderação, não de aprendizado de máquina.

Seja M1 um modelo de tensão em condições de ar limpo em função de p, ve umidade. O desvio de M1 por si só não forneceria uma estimativa de concentração. Isso daria a você uma probabilidade de que o gás estivesse presente e interferisse no sensor. Um certo desvio (valor residual) não indica a mesma concentração do gás alvo para todos os valores de p, ve umidade, porque a maneira como o gás afeta a tensão varia com os outros parâmetros. Da mesma forma, passar de digamos que 2mV a 4mV de desvio não implica necessariamente que a concentração dobrou - a escala pode ser não linear e a própria escala pode ser influenciada por suas outras variáveis. Em outras palavras, é uma boa ideia analisar a diferença entre o valor medido e o valor previsto por M1,

Outra maneira de ver o que é mais parecido com a situação real é ver a concentração como variável independente, a tensão do sensor como variável dependente ep, t e hum como variáveis moderadoras. Você precisaria induzir diferentes concentrações de gás e fazer medições em vários valores de t, p e hum para que isso funcionasse.

Aqui estão alguns recursos:

Isso cria um problema divertido e quase filosófico de se ver durante as férias de Natal, então, se você tiver um conjunto de dados real ou simulado que gostaria de adicionar à sua pergunta, vou dar uma olhada.

Epílogo

Mostrei esse post e os dados a um especialista em medição e a um engenheiro que também é especialista em teoria de medição, e ambos disseram "pegue a mala com o equipamento de calibração". Não há maneira de contornar isso.

GuillaumeL
fonte

Você pode apontar alguns bons recursos, onde eu posso aprender mais sobre a análise da meditação e como aplicá-la?

vicatcu

Editei minha resposta, corrigi alguns pontos (misturei mediação com moderação) e adicionei alguns links.

GuillaumeL

Eu poderia adicionar um conjunto de dados ... existe uma maneira típica de fazer isso neste site?

vicatcu

Não parece haver uma maneira oficial de postar um conjunto de dados grande, de acordo com esta pergunta: meta.stackexchange.com/questions/15821/…

GuillaumeL

Obrigado pelos dados. Atualizei minha resposta (consulte a seção do epílogo).

GuillaumeL

Modelando dados de sensores de séries temporais com técnicas de aprendizado de máquina?

Respostas: