Quais são as dificuldades técnicas por trás da construção de um sensor com alta faixa dinâmica como o olho humano?

17

Por que ainda não temos sensores de alta faixa dinâmica com a exposição correta em todas as partes da imagem?

Andreas Hartmann
fonte
2
Na verdade, depois de responder, vi que isso já foi discutido aqui . Se isso não responder a você, considere expandir sua pergunta com mais detalhes.
Mivilar
Uma câmera BlackMagic (vídeo em HD total) tem um EV de 14, as câmeras de vídeo profissionais modernas (4K) têm 18 EV. Então, nós temos esses sensores ...
TFuto

Respostas:

20

Já existem câmeras com DR maior que o olho humano, instantaneamente e em geral. O alcance dinâmico do olho humano não é tão grande quanto a maioria das pessoas pensa. Pelo que me lembro, é algo em torno de 12 a 16 EVs, o que equivale ao nível de uma DSLR moderna.

A principal diferença é que temos um controle de abertura extremamente natural que será ajustado para diferentes partes da imagem. Efetivamente, nossos cérebros fazem o empilhamento de imagens automaticamente para nós. Quando olhamos para a parte brilhante de uma cena, nossas pupilas encolhem e vemos os detalhes da parte brilhante. Se mudarmos o foco para a parte mais escura, nossas pupilas se abrem rapidamente e vemos os detalhes da parte escura. Nosso cérebro sabe como era a parte anterior e, portanto, não percebemos a mudança em nossa visão periférica, mas na verdade não estamos vendo tantos detalhes nos quais não estamos mais focados.

Da mesma forma, mesmo para o alcance geral da visão humana, existem câmeras especializadas que podem ficar muito mais escuras do que nós e ainda verem, principalmente as cores, que atualmente são caras demais para produzir para o público em geral, pois exigem materiais e construção de alta qualidade. obtenha o piso de ruído super baixo. Também existem sensores capazes de observar objetos muito brilhantes que seriam dolorosos para as pessoas.

AJ Henderson
fonte
AJ, DSLR não tem a mesma faixa dinâmica que o olho. para DSLR é 2 na potência de 14, para olho humano é 10 na potência de 14
Romeo Ninov
@ RomeoNinov - não para DR instantâneo, apenas para aparente. Você tem uma fonte para sua reivindicação? Minha fonte está aqui ". Em vez disso, deveríamos considerar o alcance dinâmico instantâneo de nossos olhos (onde a abertura de nossas pupilas permanece inalterada) e as câmeras se sairão muito melhor. Isso seria semelhante a olhar para uma região de uma cena, deixar nossos olhos se ajustarem e nesse caso, a maioria estima que nossos olhos possam ver de 10 a 14 f-stops de faixa dinâmica "
AJ Henderson
@RomeoNinov - recurso um pouco melhor . Portanto, vale ressaltar que nossos olhos se saem melhor onde as câmeras se saem mal, mas nossos olhos se saem pior onde as câmeras se saem melhor. Nas sombras, temos 20EVs, onde as câmeras reduziram os EVs. No brilho, temos cerca de 10EVs, mas as câmeras têm seus 12 a 14EVs completos. O 10 ^ 14 é o intervalo total que podemos ver quando nossos olhos se ajustam, não o que vemos a qualquer momento. E, nesse sentido, as câmeras também não se limitam a 2 ^ 14.
AJ Henderson
Sim, as câmeras estão limitadas à profundidade de bits da sua imagem bruta. Você não pode obter mais bits ou mais informações da imagem. Concordo que a imagem que o cérebro "vê" não é apenas de um instantâneo do olho; além disso, usamos dois olhos, que acrescentam muitas informações adicionais à imagem no cérebro. E no recurso que você mencionou no segundo comentário, você vê o alcance dinâmico dos olhos exibido em potência de 10. O que apenas confirma minhas palavras. Mesmo que RD é apenas 12 EV é 10 ^ 12, que é milion milions, em comparação com 2 ^ 14, a qual é 16384
Romeo Ninov
1
Mas mesmo um sensor severamente limitado a, digamos, um DR de seis paradas a qualquer momento pode ser usado para medir detalhes de valores muito escuros a muito brilhantes em quadros sucessivos, alterando a TV e Av! Em termos de abertura, é isso que o sistema olho / cérebro faz.
Michael C
10

Ver é um processo ativo

Um grande problema é que olhar com os olhos é muito diferente de capturar uma imagem - uma imagem precisa incluir todas as informações que o espectador pode ver, mas a visão normal é um processo ativo que envolve movimento dos olhos, reorientação e dilatação das pupilas de acordo com a imagem. para os objetos que estamos olhando. Portanto, se você deseja capturar "o que o olho vê", em essência, precisa capturar o ponto de vista de todas as configurações que o olho possa usar.

Sua pergunta é sobre alcance dinâmico, mas o mesmo problema aparece com detalhes visuais e foco. Uma imagem 'equivalente à vida' precisa de muito, muito mais pixels do que os seus olhos podem capturar, pois a resolução dos olhos é muito desigual e, enquanto você olha apenas um único ponto pequeno com o meio da retina em alta resolução, uma imagem precisa mais detalhes disponíveis, pois você moverá seus olhos. Os filmes precisam escolher um único foco, enquanto um humano pode visualizar uma 'imagem única' com mais profundidade, reorientando rapidamente os olhos e / ou movendo-os para obter uma visão binocular adequada em diferentes faixas pretendidas (por exemplo, olhando a superfície de uma janela ou através dela) ) etc.

Parte da solução é exatamente isso - usando uma única câmera várias vezes rapidamente (ou várias câmeras) para capturar uma variedade de imagens em diferentes configurações e mesclá-las depois, o HDR é o exemplo mais flagrante - assim como nossos olhos, parece ativamente em vários lugares diferentes, com "configurações" diferentes, e somente depois o cérebro mescla tudo em uma imagem ou filme coerente. As "imagens" reais captadas por nossos olhos já são piores que as boas câmeras, simplesmente a combinação mental delas é boa.

Peter é
fonte
1
+1 para o seu ponto de vista sobre o foco nos filmes. Isso também está relacionado a uma das principais razões pelas quais muitas pessoas ficam com dor de cabeça ao assistir filmes em 3D. O olho deve se concentrar fisicamente na tela, mas a imagem estereoscópica leva o cérebro a pensar que algumas partes da tela estão mais próximas ou mais longe do que realmente são, causando cansaço visual quando você tenta olhar diretamente para elas. Os estúdios tentam minimizar isso exibindo o ponto focal da cena no mesmo local nas imagens esquerda e direita. Então, se você gosta de olhar em detalhes, não se esqueça do ibuprofeno!
precisa
O fato de ver é um processo ativo é uma das razões pelas quais artistas realmente bons podem produzir pinturas que parecem melhores do que uma simples fotografia. Uma fotografia simples captura tudo da cena com as mesmas características de ponto de vista, foco, exposição e balanço de branco, enquanto os olhos de alguém que realmente estava vendo a cena podem estar constantemente se ajustando à medida que olham para diferentes partes. Um pintor, ao contrário de uma câmera, pode produzir uma imagem em que cada parte da cena se parece com uma pessoa que realmente estava naquele local, olhando para ela.
Supercat 28/10
6

Sua imagem mental é o produto não apenas da retina, mas de sua interação com todos os outros componentes envolvidos na visão, incluindo a pupila e, é claro, o seu cérebro. O que pode parecer uma "imagem única" é, na verdade, o resultado de ajustes de alta velocidade e processamento de informações, e não um único instantâneo.

Você pode encontrar mais informações sobre este tópico aqui .

diverso
fonte
1

É inteiramente possível fabricar um sensor de luz com propriedades logarítmicas - esse sensor teria um alcance dinâmico incrível à custa de uma resolução limitada para uma exposição específica. Obter os dois requer um ADC de alta resolução. Para imagens de TC, normalmente é usado 24 bits lineares - e o logaritmo é obtido após o ajuste de deslocamento para criar a imagem de TC.

Um sensor que controla a exposição (tempo de integração - pense na velocidade do obturador) pode ter um desempenho melhor e, se você permitir alterações na eficiência da coleta de luz (pense no número f), obterá uma flexibilidade ainda maior.

O alcance dinâmico final é normalmente limitado pelo ruído da leitura - quando você lê a carga acumulada, haverá algum erro - em relação ao maior sinal que o eletrônico pode suportar. Como eu disse - 24 bits é comum em imagens médicas e isso é melhor do que 1 parte em 10 milhões. Essa é uma faixa dinâmica muito maior que a retina para uma determinada exposição. Mas isso não é comumente usado em câmeras convencionais porque os olhos não podem apreciar esses detalhes na imagem - e a resolução ocorre às custas da velocidade.

Floris
fonte