Como criar uma amostra: o REGEX na rotina da produção dos e-books

Baixe como e-book

No meu último texto, foi explicada a inusitada relação entre as amostras, aquele trecho do livro disponibilizado pelas lojas para que o leitor possa degustar e conhecer melhor o conteúdo que deseja comprar, e as expressões regulares, um sistema de busca avançado carinhosamente chamado de REGEX, que utiliza caracteres genéricos para fazer buscas e substituições. Pretendo neste texto apresentar um exemplo prático de como criar uma amostra através de algumas etapas simples, sendo uma delas feita através do uso de uma expressão regular.

Vou utilizar um livro produzido por mim a título de exemplo, uma coletânea de contos de Machado de Assis, textos que estão em domínio público e são facilmente baixados no site do Ministério da Cultura.

A primeira etapa na criação da amostra é determinar qual será o seu tamanho. Utilizo como padrão na minha rotina até oito mil caracteres ou 10% do livro. Trata-se de uma etapa simples na qual eu copio do PDF um trecho inicial do livro, colo em algum editor de texto (tais como o Word ou o Writer) e identifico, pela contagem de caracteres, até que parte do livro será incluída na amostra. No exemplo em questão a amostra será composta dos primeiros dois contos, ou seja, aquilo que seria equivalente aos capítulos um e dois.

Meu próximo passo é excluir do arquivo ePub, utilizando o programa Sigil, todo o texto que não será parte da amostra. Ou seja, irei excluir os HMTLs dos contos três ao quinze. Para isso basta selecionar todos os HMTLs simultaneamente, clicar com o botão direito sobre eles e escolher a opção “Excluir”.

Porém o meu arquivo ainda possui links para os HMTLs que foram apagados. Isso ocasionará erros quando meu livro for testado ou aberto nos aparelhos de leitura e softwares. Tais links estão localizados tanto na Table of Contents quanto no sumário interno. Para corrigir o TOC nesta terceira etapa eu abro a aba “Tools” do menu, escolho a opção “Table of Contents” e, dentro desta, seleciono “Edit Table of Contents”. Basta marcar com o cursor os capítulos que precisam ser excluídos e, em seguida, apertar o botão “Delete”, localizado do lado direito da tela ou diretamente pelo teclado, como pode ser visualizado na imagem abaixo. Os capítulos devem ser excluídos um de cada vez.

É no momento de edição do sumário interno que eu faço uso do REGEX. O nosso exemplo é um livro curto e eu poderia apagar os links para os capítulos três a quinze manualmente, mas muitos dos livros publicados possuem uma grande quantidade de capítulos, tornando exaustiva a criação das amostras. Através do REGEX eu consigo excluir todos os links de uma vez, mesmo sendo cada um deles diferente do outro. Para isso, primeiro eu recorto do HMTL de sumário o trecho que deve permanecer com links no meu arquivo de amostra. Neste caso, eu recorto os dois primeiros capítulos, a folha de créditos e sobre o autor. Eu colo estas informações num arquivo de texto a parte. Em seguida eu marco a opção de fazer a busca e substituição por REGEX e apenas do arquivo atual, no canto inferior do Sigil.

A expressão regular <a [^>]*> fará com que todos os links do HMTL sejam encontrados. Como foi explicado no artigo anterior, as expressões regulares utilizam caracteres curinga que determinam regras a serem seguidas pela busca. Com esta expressão eu consigo encontrar e apagar todos os links do meu sumário. Vale ressaltar que meu objetivo é excluir apenas os links dos capítulos que não estarão na amostra, mas manter o título dos mesmos. Desse modo o leitor terá uma ideia do conteúdo total do livro e é incentivado a comprá-lo após a leitura da amostra.

O próximo passo é determinar que o programa busque a expressão </a> e pedir para que ele substitua todas as ocorrências pelo campo vazio. Agora basta apenas que eu copie de volta as linhas que possuem links válidos para minha amostra e que estão salvas no meu editor de texto. Minhas últimas etapas são o teste do Flight Crew (acessível pelo sinal verde no canto superior direito) e uma última verificação no ePubcheck, e pronto, minha amostra está criada!

escrito por Joana De Conti

Joana De Conti

Joana De Conti é formada em Ciências Sociais e mestre em Antropologia, mas se aposentou da vida acadêmica quando descobriu os livros digitais. Ela trabalhou por vários anos no departamento digital da editora Rocco. Ali, aprendeu quase tudo o que sabe sobre conversão de livros, participou de projetos editoriais lindos e produziu os e-books de muitos dos seus autores preferidos. Atualmente trabalha como assistente de contas na Bookwire. O cuidado com a qualidade dos metadados, com conhecer minuciosamente o catálogo das editoras e a preocupação com excelência e inovação nos arquivos dos livros digitais são parte da sua rotina. E ela continua trabalhando com os e-books de muitos dos seus autores favoritos.

Um comentário sobre “Como criar uma amostra: o REGEX na rotina da produção dos e-books

Deixe um comentário