TRADUÇÃO DE PDF COM O INFIX - José Henrique Lamensdorf - translation - tradução

Go to content

TRADUÇÃO DE PDF COM O INFIX

PORTUGUÊS > TRADUÇÃO > ARQUIVOS PDF

TRADUÇÃO DE UM ARQUIVO PDF
PASSO A PASSO

Muitos me perguntam sobre a tradução de arquivos PDF usando o Infix.

Segue abaixo o relato passo a passo de um projeto que fiz, com duas ressalvas:
a) Alguns detalhes foram omitidos, para não se estender demais;
b) Este projeto foi feito com uma versão anterior do Infix (v6). O programa evoluiu, e tornou o processo mais fácil e flexível, portanto talvez algumas operações tenham se tornado mais automáticas. O objetivo aqui é apenas mostrar os princípios do processo como um todo.


O ambiente deste processo foi:
  • Windows XP pro
  • Infix Pro 6.2.8
  • Microsoft Word 2007
  • WordFast Classic 6.03t
E o software adicional utilizado foi:
  • Ulead PhotoImpact 5.0
  • Microsoft Excel 2007
  • Adobe Page Maker 6.52
(contudo isso poderia ter sido feito com outros programas)


1. O PROJETO

O projeto tratava de traduzir e recompor a diagramação de um folheto técnico de inglês para português (BR).

Dimensões:
  • 21.928 palavras
  • 103.285 caracteres
  • 76 páginas
... preservando/restaurando o layout.

Antes de começar: meu negócio é apenas tradução e editoração.

Os dados de contato
no Brasil sobre o equipamento mostrado nesta publicação estão aqui, à direita.


2. PRIMEIRO PASSO: FONTES

Um arquivo PDF costuma ter as fontes que utiliza "embutidas" dentro de si. Como estas podem ser muitas, para economizar no tamanho do arquivo final, somente os caracteres efetivamente utilizados de cada fonte naquele PDF são embutidas.

Para exemplificar, se um PDF contivesse apenas a palavra republican usando a fonte Roman Gothic, só teríamos 10 caracteres dessa fonte embutidos. Se esta fosse uma fonte do tipo OpenType, estaríamos poupando um bocado de espaço em disco ao deixar de incluir todas as letras acentuadas, algarismos, sinais gráficos (@#$%, etc.) e de pontuação, e especialmente alfabetos inteiros como cirílico, hebraico, árabe, grego e outros que fazem parte dessas fontes.

Se fôssemos traduzir republican para português ou espanhol, bastaria acrescentar um O no final. Como esta letra não estaria embutida no PDF, esse O seria representado por um quadradinho, um espaço, um sublinhado, um ponto, ou qualquer outra coisa, dependendo do programa usado para visualizar esse PDF.

No meu caso aqui, estou traduzindo do inglês, que não usa acentos, para o português repleto de acentos e cedilhas. É líquido e certo que as fontes embutidas neste PDF não têm nenhum desses caracteres.
Então o próximo passo é verificar as fontes que tenho instaladas no meu computador, bem como as que posso obter e instalar, para completar o conjunto de caracteres a embutir no PDF. O Infix me fornece estas informações (à direita).

É a hora de avaliar a situação. Tenho a maioria dessas fontes, exceto duas: BankGothic e Segoe UI.

Como não consegui encontrar a BankGothic, fui ver onde ela era usada. Pedi para o Infix procurar, na tela à direita.

Note alguns detalhes:
  • Desmarquei a opção "Find"; quero achar qualquer texto que use essa fonte.
  • Especifiquei a fonte em qualquer ("Any") tamanho.
  • Estou pedindo todas ("All") as ocorrências.
Vou procurar em todas ("All") as páginas (em azul) do documento.
O resultado veio rápido: apenas 10 ocorrências.
Seleciono uma delas para visualizar.
A fonte só foi usada para o logotipo da empresa, que obviamente não será traduzido.
Consequentemente, não vou precisar embutir nenhum novo caractere dela.
A outra fonte que não tenho é a Segoe UI.

Depois de algumas buscas, a Segoe UI que encontrei não tinha caracteres acentuados, portanto não serviria para português.
Procurei uma fonte parecida, e encontrei a Open Sans, que baixei e instalei.

Depois disso, bastou fazer o Infix achar e substituir cada variante (normal, negrito, itálico etc.) da Segoe UI com a variante correspondente da Open Sans.

Evidentemente, algumas dessas trocas fariam o texto refluir, devido a diferenças de largura e espaçamento. Como eu iria traduzir o texto inteiro de qualquer modo, o refluxo seria inevitável.
Aqui convém observar o que acontece (ao substituir fontes) para você saber o que ocorrerá depois.

O texto num PDF não é estruturado como você está acostumado a ver num processador de texto. Um arquivo PDF se baseia numa linguagem de impressão chamada PostScript, cujo único objetivo é fazer cada elemento sair impresso exatamente onde deveria estar, independentemente da estrutura do texto.

Para entender isso de uma vez por todas, abra um arquivo PDF no Photoshop. Você verá o texto selecionado "flutuando no ar". Se quiser ter uma página que possa imprimir, terá de usar o comando "Layer | Flatten image" do Photoshop, que fará exatamente isso: irá achatar todos os elementos numa única página plana, incluindo o fundo, que seria uma folha de papel em branco. A conclusão é tão óbvia que poderia nos escapar: a impressora não imprime o branco do papel!

Por esse motivo, num arquivo PDF cada linha de texto termina exatamente onde ela acaba. Ela não vai além do [Enter] até a borda do papel ou a margem configurada, como seria num bloco de texto do Word ou do InDesign/PageMaker.

Por que isso é importante aqui? Porque a substituição de fontes fará o texto refluir só até o ponto onde ele terminava no arquivo original.

É oportuno mencionar que a opção do Infix "View | Text | Field shading" aplica cores diferentes a cada parágrafo, para você poder ver o que faz parte dele. Outra opção é clicar em qualquer lugar do texto e digitar Ctrl+A, contudo neste caso a área presta selecionada poderá cobrir outros blocos de texto sobrepostos.

Para entender, veja o exemplo abaixo.
No arquivo original, o final da linha é marcado (pelo Infix) usando linhas pontilhadas (a moldura do quadro de texto) indicadas pelas setas azuis. A fonte aqui ainda é a Segoe UI.
Depois de ter substituído a fonte Segoe UI pela Open Sans, ao que tudo indica, um pouco mais larga, o texto no quadro (agora indicado por setas vermelhas) fez uma parte dele refluir.

Observe que não havia um caractere de fim de linha "hard" (que o Infix indica com ) e nem um caractere de fim de linha "soft" (que o Infix indica com
) para preservar a quebra de linha depois de a palavra ter refluído para a linha de baixo.

Se essa publicação tivesse muitas tabelas, valeria a pena usar a ferramenta "Table Box" do Infix, mas não foi o caso aqui.

Também teria sido possível acrescentar os caracteres de fim de linha manualmente, um por vez. Todavia, como o texto será traduzido, e provavelmente refluirá de novo, podemos fazer isso mais tarde, tudo de uma vez só.

Decisões estratégicas como esta surgem o tempo todo, de modo que sempre vale a pena ponderar qual será a opção mais eficiente para evitar retrabalho. O PDF tem suas deficiências, é um arquivo final, criado sem a intenção de ser editado, como seria num processador de texto.

3. EXPORTAÇÃO DO TEXTO (PARA TRADUZIR)

O próximo passo é exportar o texto, para traduzir fora do Infix.

Selecionei "All pages" (todas as páginas) aqui, mas teria sido possível fazê-lo em partes.
Há duas opções: TXT (texto puro) e XML simplificado.

O XML funcionava bem com o WordFast no Word 2003. Provavelmente ainda é a melhor opção para quem usa Trados ou DejaVu. No meu caso, WordFast no Word 2007, a melhor opção é TXT. Irá dar um pouco mais de trabalho, porém funciona.
Exportando e salvando com tags...
(Leva algum tempo.)

Quando o Infix termina (e salva o arquivo TXT), ele também quer salvar um arquivo PDF com tags.

Neste momento, é preciso tomar cuidado! É melhor salvar esse arquivo com outro nome.

Será um PDF aparentemente idêntico ao arquivo original, porém este contém as tags que irão receber o texto traduzido nos lugares certos e com as fontes certas, no tamanho e na cor certa etc.

Convém não mexer nesse arquivo até a tradução ser importada para ele.

4. PREPARAÇÃO PARA A TRADUÇÃO
Por enquanto, pode fechar o Infix.
Você conta com o arquivo TXT para traduzir como quiser... desde que mantenha as tags intactas. O funcionamento é igual ao que se você tivesse traduzido para um arquivo XML.

O arquivo TXT, aberto no Word, terá esta aparência (peguei um trecho no meio):

O texto entre < e > são as tags, os localizadores que, quando o texto estiver traduzido, permitirão importar cada trecho no lugar certo, com a respectiva fonte, tamanho, cor e outras características.



Num arquivo XML as tags são diferentes e bem identificadas. Se a configuração estiver correta, elas permanecerão intactas.

Todavia num arquivo TXT (nosso caso aqui) é preciso protegê-las a qualquer preço.

O WordFast oferece a opção de marcar o texto com realce de 25% cinza como "intraduzível"; é o que funciona no Word 2007. No Word 2003 havia a opção extinta de "tracejado vermelho em movimento" para isso.

Se estiver usando outra ferramenta CAT, verifique como se marcam os "untranslatables"".

No caso do Word 2007 com WordFast, primeiro precisamos ajustar o Realce para 25% cinza..
O recurso do Word que faz isso é "Localizar e Substituir".

^? representa "qualquer caractere". A figura aqui mostra a janela do Word para localizar e substituir < seguido de qualquer (um) caractere e seguido de >, usando o string <^?>.

Teremos de repetir essa operação algumas vezes mais, visto que esse string substitui apenas um caractere entre < e >.

Vamos fazê-lo com <^?^?>, depois <^?^?^?>, <^?^?^?^?> etc., até o Word não achar mais o que substituir, e nosso texto acima terá este aspecto:


O texto deve ficar com esta aparência:
Além das tags, precisamos proteger dois elementos nos extremos do arquivo TXT:
  • o identificador do texto (no início)
  • a lista inteira de fones (bem no final)

Isso pode ser feito manualmente, um por vez, realçando o texto com 25% cinza.

Evidentemente, o arquivo agora terá de ser salvo como DOC ou DOCX, visto que um arquivo TXT conteria apenas texto.

5. TRADUÇÃO

A tradução é feita no Word, usando o WordFast Classic.

Como disse anteriormente, isso pode ser feito com qualquer ferramenta CAT, visto que estamos lidando com texto puro.
A figura à direita mostra a tradução em andamento.

Depois de concluída a tradução, o arquivo DOC/DOCX precisa ser salvo novamente em TXT, antes de importá-lo de volta para o PDF (com as tags). Isso automaticamente eliminará o realce em cinza.

Terminada a tradução e depois da limpeza com a ferramenta CAT, o arquivo é salvo como TXT. É hora de voltar para o Infix.

6. IMPORTAÇÃO DO TXT PARA O PDF

Vamos importar o arquivo TXT, assinalando as duas opções:

Ajustar automaticamente o texto onde for necessário, para deixar o Infix reduzir o tamanho da fonte e o espaçamento como precisar para fazer o texto caber dentro do quadro. Depois, isso poderá ser ajustado manualmente.
Reajustar o espaçamento das letras onde estiver diferente do padrão. Como vamos substituir o texto inteiro, algumas dessas mudanças poderão não mais ser necessárias, ou outras poderão ser necessárias em outros lugares. Podemos (e devemos) fazer isso manualmente.


Se eu não tivesse substituído as fontes Segoe UI com as correspondentes Open Sans anteriormente, ainda poderia fazê-lo agora.

Clicando no botão Fonts, abriria esta janela:

Vejo a lista de fontes no lado esquerdo, e acho que não preciso substituir nenhuma delas.

Então fecho esta janela, e clico em OK na tela anterior para começar a importar.
Surpresa!

Não tenho a fonte Verdana Bold!

O Infix mostra uma lista dos caracteres que me faltam nessa fonte. Eu poderia usar qualquer fonte que achasse adequada. E se a fonte que eu escolhesse não tivesse todos os caracteres necessários, o Infix me avisaria novamente.

O problema aqui é simples. Este PDF veio do exterior, e o meu Microsoft Office é uma versão brasileira. Por mais ridículo que possa parecer, minha fonte Verdana Bold se chama Verdana Negrito !
Configuro a substituição, e a importação prossegue sem mais problemas.

A tela à direita mostra o processo, que levou cerca de meia hora.

Imagine quanto tempo você levaria para copiar e colar manualmente cerca de 3.000 parágrafos da tradução no PDF! Mesmo assim, há gente que ainda faz isso.

7. AJUSTES NO LAYOUT

Agora temos o livreto traduzido, porém muitas coisas ficaram deslocadas devido ao inchaço ou encolhimento do texto, bem como devido à falta de [Enter] no final da linha.

Convém destacar que o Infix tem duas ferramentas principais para manipular caixas de texto.

A ferramenta e seu cursor em forma de I é usada para editar o texto como tal. Então esta ferramenta, quando usada nas alças de uma caixa de texto irá modificar o seu formato, aumentando ou diminuindo sua largura ou altura, contudo sem alterar a forma dos caracteres. O texto reflui automaticamente quando uma palavra não cabe mais na linha, ou quando há espaço na linha acima para uma ou mais palavras da linha abaixo subirem.

A ferramenta e seu cursor em forma de seta edita um quadro de texto como um objeto gráfico. Esta ferramenta estica ou comprime o texto proporcionalmente, como se ele estivesse impresso num elástico.

Há outras ferramentas menos visuais e mais numericamente controladas para se obter os mesmos resultados.

Outro recurso do Infix que vale a pena mencionar é que ele indica, com um quadradinho vermelho
quando apenas uma parte do texto que há numa caixa está sendo exibida, ou seja, quando parte do texto está oculta porque não cabe.

Vou most
rar a seguir alguns casos de ajuste de layout. À esquerda você verá como o texto aparecia logo após a importação. à direita, vou mostrar como ficou depois dos ajustes. E entre eles, vou explicar o que foi feito.

Aproveito aqui para demonstrar que no Infix, colocando o mouse sobre qualquer texto traduzido, aparecerá o texto original dentro de um quadro amarelo. Observe que isso só acontece quando se abre um arquivo traduzido no Infix. Se abrir o mesmo PDF em outro programa, por exemplo, o Acrobat Reader, isso não acontecerá.

A questão aqui é que a frase sob fundo rosa ficou mais longa que a original, portanto o final chega até a borda da página.
Apenas para ilustrar, a primeira solução à direita mostra o que obteríamos comprimindo o texto para a esquerda, partindo da ponta direita com a ferramenta .
A segunda solução, mais viável em função do espaço disponível, foi obtida com a ferramenta , deslocando o quadro de texto para a esquerda e depois justificando o texto à direita.
Este é um exemplo simples de uma ocorrência bem frequente. Estou usando este exemplo simples para demonstrar o que disse anteriormente, que num PDF as quebras de linha muitas vezes são obtidas pela borda da caixa de texto, e sem a presença de um caractere de fim de linha. Isso faz o texto refluir de maneira imprevisível.

Provavelmente isto já estava assim antes de importar a tradução, visto que resulta de os números na fonte Open Sans serem mais estreitos do que os da Segoe UI, que foram substituídos.

Contudo não havia um caractere (pi) de parágrafo ali, e nem mesmo o ¿ da quebra de linha.

Aqui à esquerda vemos as marcas de tabulação com o cursor na primeira linha: não havia nenhuma.


Aqui vemos exatamente a mesma caixa de texto, porém com o cursor na segunda linha (nas linhas abaixo, o resultado seria o mesmo). Temos a marca de tabulação (escondida atrás do delimitador da segunda linha) e temos um [Tab] somente numa linha, a "5020".

A solução é acrescentar os caracteres de fim de linha. Em seguida, seleciona-se o texto da caixa inteira (Ctrl+A), e faz-se a marcação da tabulação. Finalmente, acrescenta-se [Tab]s onde estiverem faltando.
Podemos ver o resultado nas figuras à direita, primeiro com as ferramentas do Infix visíveis, e depois como aparecerá no PDF terminado.

É importante destacar que esta era apenas uma de muitas soluções possíveis, e essa situação voltará a ocorrer de inúmeras outras formas. Tento o texto, é fácil ajustá-lo onde quisermos.
Aqui temos três situações bem interessantes, nem todas inter-relacionadas.

Todas as situações mostradas aqui são apenas alguns exemplos dos ajustes necessários depois de ter traduzido um arquivo PDF. É preciso percorrer cada página, e corrigir todos esses problemas, um por um.
  1. Como observei anteriormente, num PDF o texto é delimitado dentro de blocos. Isso não impede que um delimitador de parágrafo dentro de um bloco fique deslocado (como a seta aponta) se no original não havia palavras que fossem além, até o final da linha. Isso faz com que o parágrafo traduzido mantenha esses delimitadores, embora talvez haja palavras na linha de baixo que poderiam passar para cima. Como a tradução neste caso (inglês > português) tem tendência a fazer o texto inchar, precisamos utilizar ao máximo todo o espaço disponível em cada página.
  2. Se você já examinou listas de fontes, terá percebido que elas costumam ter variantes: regular, itálico, negrito, negrito itálico etc. Observe que não há uma variante "sublinhado" (é por isso que preferi chamar de variante, e não estilo aqui), embora o sublinhado costume figurar junto de todas as opções de estilo na maioria dos programas (inclusive o Infix). O resultado é que dentro de um PDF o sublinhado se transforma numa linha solta, independente do texto. Neste caso, é preciso deletar a linha, selecionar o texto correspondente e sublinhá-lo no Infix.
    Convém saber que o Infix tem ferramentas para o ajuste fino da espessura e da posição do sublinhado.
  3. Assim como os delimitadores do bloco de texto podem reduzir a largura da linha de texto, o próprio bloco também é um delimitador. Observe quanto espaço foi desperdiçado aqui à direita, em quantidades diferentes por dois blocos consecutivos. É possível ajustá-los (e fazer o texto refluir) para alinharem com os demais elementos gráficos dessa página (coloquei a linha azul clara como referência). Isso pode ser feito num bloco de texto por vez, ou vários blocos podem ser reunidos e ajustados em conjunto.
Este é o resultado:
Aqui é uma simples questão de alinhamento. Título e subtítulo devem ficar centralizados na página. O padrão é o texto alinhado à esquerda (círculo vermelho).
Entre as diversas maneiras de se fazer isso, uma solução rápida é usar a ferramenta para "esticar" as caixas de texto por toda a largura da página, e então acionar o texto centralizado (círculo vermelho).
Aqui temos dois problemas:

Seta vermelha - O texto ficou longo demais para caber na célula da tabela.

Seta azul - O indica que há texto oculto, que não coube dentro da caixa de texto.
As soluções são simples:

Na primeira linha, usamos a ferramenta para comprimir o texto horizontalmente.

Na segunda, usando a ferramenta , alargamos a caixa de texto e alinhamos o texto à esquerda.
Esta é outra manifestação do mesmo problema.

Serve para ilustrar a diferença entre as ferramentas e no Infix, a lição mais importante a ser aprendida por usuários de outros programas de editoração eletrônica (DTP).

Apenas para fins de ilustração, esta é a solução que obteríamos se tentássemos resolver o problema usando a ferramenta .
A fonte fica achatada, menor que a original, comprometendo o padrão gráfico da publicação.
Reduzindo o espaçamento entre os caracteres e entre as palavras...
... e aumentando o espaçamento entre as linhas...
... conseguimos obter o efeito desejado.
Este é um problema comum: texto não editável faz parte de uma figura.
Neste caso, usamos o recurso [Object | Image | Extract to File] do Infix para exportar essa imagem, tomando cuidado com a configuração correta de tamanho e resolução.
Para editá-la precisamos, não necessariamente nesta ordem, remover o texto, pintando a área com a cor do fundo, traduzir o texto manualmente, formatá-lo, e colocá-lo no devido lugar.

Há muitos anos, minha ferramenta para fazer isso é o Ulead PhotoImpact, comprado e posteriormente eliminado pela Corel. A escolha mais popular é o Adobe Photoshop. Dependendo de como a ilustração foi criada, às vezes é possível editar o texto diretamente, usando o Adobe Illustrator. Há quem faça edição gráfica com o velho Windows Paint.

De qualquer modo, esta parte do trabalho fica além do nosso escopo aqui. Um tradutor que não tenha habilidade para fazer isso poderá deixar esta parte para o cliente fazer, ou terceirizá-la com um profissional de edição gráfica.
O resultado desejado é este:
Um último ponto a destacar aqui é a existência de um glossário no folheto.
Não basta apenas fazer os ajustes devidos ao refluxo de texto, mas também é preciso colocar os verbetes em ordem alfabética.
Minha opção foi selecionar a parte correspondente no arquivo TXT traduzido e copiá-la para uma planilha Excel, onde bastou um clique para colocar todos os verbetes em ordem.
Para quem tem habilidade em criar tabelas vistosas com o Excel, isso poderia ser feito lá mesmo.

Não é o meu caso. Sabendo as dimensões da tabela, salvei o conteúdo em ordem para um arquivo TXT, e rapidamente reconstruí a tabela usando o PageMaker.

Em seguida, destilei o arquivo do PageMaker para o formato PDF.

Primeiro, deletei a tabela embaralhada do PDF traduzido. Então abri o novo PDF (destilado do PageMaker) em outra instância do Infix, e copiei minha nova tabela para o arquivo principal traduzido.

Essa tabela poderia ter sido gerada por qualquer programa adequado. Se o programa não tiver a opção de salvar como PDF, ao instalar o Infix é possível incluí-lo como impressora, que passará a figurar na sua lista de impressoras. Tudo o que será preciso fazer é mandar esse programa imprimir para a impressora do Infix, que irá gerar um arquivo PDF.

Esta foi uma visão geral das principais técnicas que uso para traduzir um PDF com o Infix.

É claro que há muitos outros recursos e suas técnicas de utilização. Também há diversas outras maneiras de se obter os mesmo resultados. O trabalho de editoração eletrônica é uma aprendizagem incessante. Mesmo depois de usar o Page Maker por mais de 25 anos, ainda encontro novas maneiras de fazer as coisas mais rápido e melhor. Tudo depende do desafio que se enfrenta naquela hora.

Se você é tradutor e fazer DTP não vale a pena para você, não há problema. Você pode ficar apenas com a tradução. Encontre um parceiro que seja habilidoso com o Infix, peça-lhe para exportar o texto com tags para você, traduza-o em TXT ou XML observando o original no Acrobat Reader como referência, e então devolva-o traduzido para o seu parceiro importar a tradução e ajustar a diagramação no PDF traduzido.

Seu parceiro não precisa ser tradutor, mas convém que ele tenha um conhecimento elementar das línguas com que irá trabalhar. Por exemplo, eu só traduzo entre inglês e português, mas poderia fazer o trabalho de DTP em italiano, francês e espanhol, línguas que falo mas não traduzo profissionalmente.

E não custa nada tentar... o Infix demo é grátis e 100% funcional. Ele apenas irá deixar um aviso em cada página dizendo que foi feita com a versão gratuita de demonstração do programa. Quando você comprar e registrar o Infix, poderá remover esse carimbo. Eles também têm uma opção de pagar por arquivo, sem ter de comprar a licença. Deste modo, você pode comprar só depois de ter certeza de que será útil para seu trabalho.

Apenas um conselho: leia o manual inteiro (umas 250 páginas). Não precisa decorar tudo, apenas tome conhecimento dos recursos que estão lá à sua disposição para fazer o que quiser, porque há muitas maneiras de se fazer a mesma coisa.

Como sugestão final, se você achar isso tudo muito complicado (ou chato), e o seu par de idiomas estiver dentro dos cinco com que trabalho, use o botão de e-mail à esquerda para me enviar uma mensagem. Talvez eu seja o parceiro de que você precisa para traduzir arquivos PDF.

Back to content