até hoje eu sabia que um bit é uma variável ou um espaço na memória que pode conter um valor de Um (alto) ou Zero (baixo). Este é o conceito que aprendi estudando programação de computadores, microprocessador ou barramento de dados, etc.
Mas depois de iniciar o curso sobre teoria da informação, descobri que o bit é expresso como o conteúdo informativo de um símbolo na mensagem. Isso é calculado considerando o logaritmo (base 2) do inverso da probabilidade de ocorrência do símbolo.
Esses dois conceitos são iguais? Por um lado, um bit é uma variável que pode armazenar zero ou um. Por outro lado, um bit é a incerteza associada a um dos dois símbolos com probabilidade de ocorrência de 0,5. Então, 1 bit na programação de computadores ou código ASCII significa 1 bit no conteúdo da fonte ou na teoria da informação?
Uma pequena edição: aqui está uma coisa que estou encontrando problemas para entender este tópico. Veja, na transferência de dados de alfabetos ingleses, se usarmos código ASCII, basicamente representamos cada símbolo com 8 bits. Suponha que seja 00000000 para a, 00000001 para b etc. Portanto, estamos essencialmente alocando 8 níveis de quantização para cada símbolo.
Mas quando a teoria da informação entra em jogo, levamos em consideração a probabilidade de cada símbolo. 'E' tem a frequência mais alta, onde 'Z' tem a menor. Então, o conteúdo médio das informações se reduz a 3 ou 4 bits, certo?
Meu livro diz: 'Entropia ou conteúdo médio de informação é o número médio mínimo de bits necessário para representar cada amostra sem distorção'. Portanto, neste caso, para uma transferência de dados eficiente, estamos criando no máximo quatro níveis de quantização para cada símbolo? Porque, em média, eles carregam informações no valor de 4 bits. Se é assim, não é pouco na teoria da informação o mesmo que na programação de computadores, transferência de dados ou código ASCII etc?
Você provavelmente entende que eu sou claramente um noob aqui: p
fonte
Respostas:
Eles não são os mesmos, mas estão relacionados. Em particular, se você olhar para uma memória de computador segurandoM bits de "computador", em que cada bit pode ser considerado aleatório e independente de todos os outros bits, e existem aproximadamente 50% de zeros, então a memória também mantém aproximadamente M bits da "teoria da informação".
Obviamente, esse geralmente não é o caso: os bits do computador geralmente são correlacionados e não uniformemente aleatórios. É por isso que eles podem ser compactados. Programas de compressores como o LZW ("codificadores de origem" na linguagem da teoria da informação) funcionam, em certo sentido, fazendo com que cada bit de computador mantenha um bit de informação.
Editado para adicionar: Este exemplo pode tornar a distinção mais clara. Considere uma fonte sem memória com duas saídas,m1 1= 000 e m2= 001 , com probabilidade 0,5 para cada um. Claramente, as informações em cada mensagem são de um bit (informação), mas seu comprimento é de três bits (computador). Um codificador de origem, como o algoritmo Huffman, codificará prontamente as mensagens parac1 1= 0 e c2= 1 , compactando a saída de origem. Você pode facilmente extrapolar este exemplo para uma fonte que produz texto codificado em ASCII.
Observe que, no caso das línguas escritas em geral e do inglês em particular, ninguém sabe qual é a entropia da fonte real, porque não há modelo para ela. É por isso que existem concursos para a melhor compactação de grandes corpos de texto; ninguém sabe ao certo qual é o algoritmo de compactação ideal para o inglês.
fonte
Bit é uma unidade de medida e várias quantidades são medidas em bits. Não é tão pouco assim em programação e teoria da informação que significam coisas diferentes. É que o conteúdo da memória e da informação representa quantidades conceitualmente diferentes.
Por exemplo, podemos usar a senha '' 123456 ''. Se codificado em UTF-8, requer 6 * 8 = 48 bits de memória. Para fins do mundo real, seu conteúdo de informação é de cerca de 10 bits. Bit significa o mesmo em ambos os casos, a quantidade que é medida é a que é diferente. Se você compactar a senha, a quantidade de memória necessária diminuirá, mas o conteúdo das informações não será alterado.
Uma analogia: grandezas físicas como gravidade e força eletromagnética são medidas em Newtons, mas representam diferentes tipos de interações. Você pode empiricamente ver que a unidade Newton representa a mesma idéia nos dois casos - a gravidade e a força eletromagnética podem se equilibrar (levitação magnética).
Espero que ajude :)
fonte
No barramento de dados, em teoria podemos fazer melhor do que a teoria da informação diz. Eu sei como construir um circuito que me permitirá enviar 8 bits em paralelo abaixo de 6 fios. Isso envolve um truque usando diodos e resistores pull / up que permitem o uso dos três estados de não queima de um fio digital para transmitir informações. Com 3 estados de 6 linhas, recebo 729 estados possíveis, o que me permite transportar EOF, INT, CLK e desconectado no canal principal e ainda tenho muito espaço (isso usa apenas 518 dos 729 estados).
fonte