Até hoje eu - como leigo da IA - estou confuso com as melhorias prometidas e alcançadas da tradução automática.
Minha impressão é: ainda há um caminho muito, muito distante. Ou existem outras explicações para por que as traduções automáticas (oferecidas e fornecidas, por exemplo, pelo Google), de artigos bastante simples da Wikipedia ainda leem e soam principalmente bobas, são dificilmente legíveis e apenas parcialmente úteis e úteis?
Pode depender de preferências pessoais (relativas à legibilidade, utilidade e utilidade), mas minhas expectativas pessoais são bastante decepcionadas.
O contrário: as traduções do Google são legíveis, úteis e úteis para a maioria dos usuários ?
Ou o Google tem motivos para manter suas conquistas (e não mostrar aos usuários o melhor que eles podem mostrar)?
Resultado preliminar: ainda estamos longe de podermos conversar com inteligências artificiais em pé de igualdade e entendimento - apenas no nível das cordas. Então, por que devemos ter medo? Porque eles sabem mais do que sabemos - mas não sabemos?
fonte
Respostas:
Quem afirmou que a tradução automática é tão boa quanto um tradutor humano? Para mim, como tradutor profissional que vive da tradução há 35 anos, MT significa que minha produção diária de tradução de qualidade humana cresceu de fator 3 a 5, dependendo da complexidade do texto fonte.
Não posso concordar que a qualidade do MT diminua com o tamanho da entrada em idioma estrangeiro. Isso costumava ser verdade para os sistemas antigos com análises semânticas e gramaticais. Eu não acho que conheço todos os sistemas antigos (conheço Systran, uma ferramenta inútil da Siemens que foi vendida de uma empresa para outra como presente de Danaer, XL8, Personal Translator e Translate), mas até um sistema profissional em que investi 28.000 DM (!!!!) falhou miseravelmente.
Por exemplo, a frase:
pode ser traduzido usando várias ferramentas de MT para o alemão.
Tradutor pessoal 20 :
Prompt :
DeepL :
Google:
Hoje, o Google geralmente me apresenta traduções legíveis, quase corretas, e o DeepL é ainda melhor. Hoje de manhã, traduzi 3500 palavras em 3 horas e o resultado foi perfeito, embora o texto original estivesse cheio de erros (escritos em chinês).
fonte
As traduções do Google podem ser úteis, especialmente se você souber que as traduções não são perfeitas e se quiser ter uma idéia inicial do significado do texto (cujas traduções do Google às vezes podem ser bastante enganadoras ou incorretas). Eu não recomendaria que a tradução do Google (ou qualquer outro tradutor não humano) realizasse uma tradução séria, a menos que seja uma frase ou palavra comum, ela não envolva textos muito longos e idioma informal (ou gírias), as traduções envolvem o Idioma inglês ou você não tem acesso a um tradutor humano.
No papel Tornando a IA significativa novamente , os autores também discutem a dificuldade da tarefa de tradução (que se acredita ser um problema completo da IA ). Eles também mencionam o transformador (outro modelo de tradução automática de última geração), que obtém resultados bastante ruins (avaliados usando a métrica BLEU).
Para concluir, a tradução automática é um problema difícil e os sistemas atuais de tradução automática definitivamente não têm um desempenho tão bom quanto um tradutor humano profissional.
fonte
Você fez muitas perguntas, algumas das quais não podem ser respondidas definitivamente. Para dar uma idéia da qualidade (e de sua história) das traduções automáticas, eu gostaria de me referir a Christopher Manning, seu 'benchmark de uma frase', como apresentado em sua palestra . Ele contém um exemplo de chinês para inglês que é comparado com a saída do Google Translate. A tradução correta para o exemplo seria:
O Google Tradutor retornou as seguintes traduções.
Se o Google mantém ou 'oculta' seus melhores resultados: duvido. Existem muitos pesquisadores excelentes trabalhando no campo do processamento de linguagem natural (PNL). Se o Google tivesse uma "maior conquista" para tradução, os pesquisadores descobririam mais cedo ou mais tarde. (Por que o Google ocultaria sua "maior conquista" de qualquer maneira? Eles parecem ver o benefício do código aberto, veja o Transformer [1] ou o BERT [2])
NB Para obter uma lista atualizada de algoritmos de ponta na PNL, consulte o cabeçalho do SQuAD2.0 .
[1] Vaswani, Ashish, et al. "Atenção é tudo que você precisa." Avanços nos sistemas de processamento de informações neurais. 2017.
[2] Devlin, Jacob, et al. "Bert: Pré-treinamento de transformadores bidirecionais profundos para o entendimento da linguagem." pré-impressão do arXiv arXiv: 1810.04805 (2018).
fonte
In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Realmente depende do par de idiomas e do tópico do conteúdo. Traduzir para / de inglês para qualquer outro idioma geralmente é o melhor suportado. Traduzir para e de idiomas populares funciona melhor, por exemplo, traduzir do inglês para o romeno é uma tradução mais ruim que o inglês para o russo. Mas traduzir do inglês para o russo ou o romeno é melhor do que traduzir o russo para o romeno. E traduzir romeno para inglês é melhor do que traduzir inglês para romeno.
Mas se você está acostumado a trabalhar com tradutores e tem uma familiaridade passageira com os idiomas, os erros de tradução e o tópico, é fácil entender o que deveria estar lá. E, nesse ponto, às vezes é mais fácil ler algo traduzido para o seu idioma nativo para uma digitalização rápida do que ler em um segundo idioma.
Os idiomas menos populares (para tradução não necessariamente em número de falantes) estão muito mais próximos das traduções literais apenas um pouco melhor do que o que você faria pessoalmente usando um dicionário para dois idiomas que você não conhece.
fonte
Sim, eles são úteis e permitem que você traduza mais rapidamente.
Talvez eu não saiba. Se você procurar informações, o Google realmente faz um monte de coisas estúpidas horríveis, como aprender com o que os usuários dizem na internet, receber dados inadequados como conjuntos de dados de entrada confiáveis.
fonte
Desculpas por não escrever em inglês. Encontre a tradução adaptada aqui:
Para dar às pessoas interessadas uma idéia da qualidade do MT (DeepL), veja este exemplo em um texto em que eu estava trabalhando nesta manhã (6.300 palavras, iniciadas às 9h, entrega hoje às 13h e ainda encontrar tempo para este post). Eu estava trabalhando nessa frase (201 palavras) quando postei meu comentário.
O DeepL retorna isso:
Levei cerca de 5 a 10 minutos para ajustar este parágrafo.
Como tradutor, sei que não posso confiar na tradução automática, mas aprendi as especificidades e capacidades dos diferentes sistemas ao longo do tempo e sei pelo que prestar atenção.
O MT me ajuda muito no meu trabalho.
fonte
Isso não será tanto uma resposta como um comentário.
A qualidade depende de várias coisas, incluindo (como Aaron disse acima) 1) o par de idiomas e 2) o tópico, mas também 3) os gêneros e 4) o estilo do original e 5) a quantidade de texto paralelo que você possui para treinar o sistema MT.
Para preparar o cenário, praticamente todos os MTs hoje em dia são baseados em textos paralelos, que são textos em dois idiomas diferentes, com um presumivelmente sendo uma tradução do outro (ou ambos sendo uma tradução de algum terceiro idioma); e potencialmente usando dicionários (talvez auxiliados por processos morfológicos) como retrocesso quando os textos paralelos não contêm palavras específicas.
Além disso, como outros já disseram, um sistema de MT não entende os textos que está traduzindo; apenas vê sequências de caracteres e sequências de palavras compostas por caracteres e procura sequências e sequências semelhantes nos textos traduzidos anteriormente. (Ok, é um pouco mais complicado que isso, e houve tentativas de obter semântica em sistemas computacionais, mas, por enquanto, são principalmente strings.)
1) Os idiomas variam. Alguns idiomas têm muita morfologia, o que significa que eles fazem coisas com uma única palavra que outros idiomas fazem com várias palavras. Um exemplo simples seria o espanhol 'cantaremos' = inglês "vamos cantar". E um idioma pode fazer coisas que o outro idioma nem se importa, como a distinção informal / formal (tu / usted) em espanhol, à qual o inglês não tem equivalente. Ou um idioma pode fazer coisas com a morfologia que outro idioma faz com a ordem das palavras. Ou o script que o idioma usa pode nem marcar os limites das palavras (chinês e alguns outros). Quanto mais diferentes os dois idiomas, mais difícil será para o sistema MT traduzir entre eles. Os primeiros experimentos em estatística MT foram realizados entre francês e inglês,
2) Tópico: Se você tem textos paralelos na Bíblia (o que é verdade para quase qualquer par de idiomas escritos), e você treina seu sistema de MT a partir deles, não espere que ele se dê bem em textos de engenharia. (Bem, a Bíblia é uma quantidade relativamente pequena de texto para os padrões de treinamento dos sistemas de MT, mas finja :-).) O vocabulário da Bíblia é muito diferente do dos textos de engenharia, assim como a frequência de várias gramáticas. construções. (A gramática é essencialmente a mesma, mas em inglês, por exemplo, você tem muito mais voz passiva e substantivos mais compostos em textos científicos e de engenharia.)
3) Gêneros: Se o seu texto paralelo for todo declarativo (como os manuais do trator, digamos), tentar usar o sistema MT resultante na caixa de diálogo não obterá bons resultados.
4) Estilo: Pense Hilary vs. Donald; erudito x popular. O treinamento em um não obtém bons resultados no outro. Da mesma forma, treinar o sistema MT em romances para adultos e usá-lo em livros infantis.
5) Par de idiomas: o inglês possui muitos textos, e as chances de encontrar textos em algum outro idioma paralelo a um determinado texto em inglês são muito maiores do que as chances de encontrar textos paralelos em, por exemplo, russo e igbo. (Dito isto, pode haver exceções, como os idiomas da Índia.) Como uma generalização grosseira, quanto mais textos paralelos você tiver para treinar o sistema de MT, melhores resultados.
Em suma, a linguagem é complicada (e é por isso que eu a amo - sou linguista). Portanto, não é surpresa que os sistemas MT nem sempre funcionem bem.
Aliás, os tradutores humanos nem sempre se saem tão bem. Há uma ou duas décadas, eu estava recebendo traduções de documentos de tradutores humanos para o inglês, para serem usados como materiais de treinamento para sistemas de MT. Algumas das traduções eram difíceis de entender e, em alguns casos, nas quais obtivemos traduções de dois (ou mais) tradutores humanos, era difícil acreditar que os tradutores estivessem lendo os mesmos documentos.
E finalmente, (quase) nunca há apenas uma tradução correta; existem várias maneiras de traduzir uma passagem, que podem ser mais ou menos boas, dependendo de quais recursos (correção gramatical, estilo, consistência de uso, ...) você deseja. Não há uma medida fácil de "precisão".
fonte
Surpreendentemente, todas as outras respostas são muito vagas e tentam abordar isso a partir do tradutor humano POV. Vamos mudar para o engenheiro de ML.
Ao criar uma ferramenta de tradução, uma das primeiras perguntas que devemos considerar é "Como medimos se nossa ferramenta funciona?" .
O que é essencialmente o que o OP está pedindo.
Agora, essa não é uma tarefa fácil (algumas outras respostas explicam o porquê). Existe um artigo da Wikipedia que menciona diferentes maneiras de avaliar os resultados da tradução automática - existem escores humanos e automáticos (como BLEU , NIST , LEPOR ).
Com o surgimento das técnicas de redes neurais, essas pontuações melhoraram significativamente.
A tradução é um problema complexo. Há muitas coisas que podem dar certo (ou errado), e o sistema de tradução por computador geralmente ignora algumas das sutilezas, o que se destaca por um falante humano.
Penso que, se pensarmos no futuro, há poucas coisas nas quais podemos confiar:
Resumindo, esse problema complexo, embora não resolvido, certamente está em um bom caminho e permite alguns resultados impressionantes para pares de idiomas bem pesquisados.
fonte
Se eles fossem, então o que eles estavam escondendo seria incrível . O Google publica muitos documentos importantes sobre Processamento de linguagem natural, incluindo aqueles que obtêm resultados de última geração ou apresentam avanços conceituais significativos . Eles também lançaram conjuntos de dados e ferramentas muito úteis . O Google é uma das poucas empresas por aí que não está apenas usando a vanguarda da pesquisa atual, mas está contribuindo ativamente para a literatura.
A tradução automática é apenas um problema difícil. Um bom tradutor humano precisa ser fluente nos dois idiomas para fazer bem o trabalho. Cada idioma terá seus próprios idiomas e significados não literais ou dependentes do contexto. Trabalhar a partir de um dicionário de dois idiomas traria resultados terríveis (para humanos ou computadores); portanto, precisamos treinar nossos modelos em corpora existentes que existem em vários idiomas para aprender como as palavras são realmente usadas (frase compilada à mão: tabelas de tradução podem ser usadas como recursos ; elas simplesmente não podem ser a história toda). Para alguns pares de idiomas, corpora paralelo é abundante (por exemplo, para idiomas da UE, temos o processo completo do Parlamento Europeu).) Para outros pares, os dados de treinamento são muito mais escassos. E mesmo se tivermos dados de treinamento, existirão menos palavras e frases usadas que não aparecem com frequência suficiente para serem aprendidas.
Isso costumava ser um problema ainda maior, pois os sinônimos eram difíceis de explicar. Se nossos dados de treinamento tivessem frases para "O cachorro pegou a bola", mas não "O cachorro pegou a bola", teríamos uma probabilidade baixa para a segunda frase. De fato, seria necessária uma suavização significativa para evitar que a probabilidade fosse zero em muitos desses casos.
O surgimento de modelos de linguagem neural nos últimos 15 anos ajudou bastante a esse problema, permitindo que as palavras fossem mapeadas para um espaço semântico de valor real antes de aprender as conexões entre as palavras. Isso permite que sejam aprendidos modelos nos quais as palavras que estão próximas de significado também estão próximas no espaço semântico e, portanto, alternar uma palavra para seu sinônimo não afetará muito a probabilidade da frase que contém. word2vecé um modelo que ilustrou isso muito bem; mostrou que você poderia, por exemplo, pegar o vetor semântico para "rei", subtrair o vetor para "homem", adicionar o vetor para "mulher" e descobrir que a palavra mais próxima ao vetor resultante era "rainha". Uma vez que a pesquisa em modelos de linguagem neural começou a sério, começamos a ver quedas imediatas e massivas de perplexidade (ou seja, quão confusos os modelos eram pelo texto natural) e estamos vendo aumentos correspondentes no escore BLEU (ou seja, qualidade da tradução) agora que aqueles modelos de idiomas estão sendo integrados aos sistemas de tradução automática.
As traduções automáticas ainda não são tão boas quanto as traduções humanas de qualidade, e possivelmente não serão tão boas até que tenhamos uma IA totalmente sapiente. Mas bons tradutores humanos são caros, enquanto todos com acesso à Internet têm tradutores automáticos disponíveis. A questão não é se a tradução humana é melhor, mas o quão perto a máquina chega desse nível de qualidade. Essa lacuna está diminuindo e continua diminuindo.
fonte