Amostras e REGEX: entre o desconhecido e o familiar

Baixe como e-book

No texto desta semana, pretendo tratar de dois assuntos que estão, pelo menos aparentemente, em áreas opostas dentro do vasto campo de existência e atuação dos livros digitais. O primeiro deles é a amostra, aquele trecho do livro que é disponibilizado em algumas lojas para que o leitor possa ter acesso gratuito a uma parte do conteúdo à venda. O segundo assunto é o REGEX, um mecanismo de busca que utiliza símbolos e caracteres genéricos para fazer pesquisas e substituições de determinado conteúdo. Por gerar regras através da combinação de caracteres (ao invés da busca tradicional que permite encontrar apenas uma sentença especifica), o uso do REGEX amplia muito a gama de resultados de uma pesquisa.

 

Sobre as amostras

Após finalizada a produção do e-book, ou seja, após ele ter sido convertido, formatado, revisado, testado em diversos aplicativos e aparelhos de leitura e aprovado pela coordenadora do meu departamento, Lúcia Reis, o livro está pronto para ser vendido. Com o intuito de possibilitar ao leitor um contato com o conteúdo e a estrutura do livro antes da compra, algumas lojas disponibilizam uma amostra gratuita dele. Acredito que seja uma tentativa de reproduzir a experiência que o leitor tem ao ir a uma livraria e poder folhear alguns volumes antes de definir sua compra. Ou pelo menos é assim que eu me sinto quando abro as amostras de livros que me interessam.

O tamanho da amostra muitas vezes é definido por contrato e geralmente não ultrapassa 10% do conteúdo do livro. Mas a tarefa de gerar uma amostra implica mais do que simplesmente abrir o livro finalizado, salvá-lo com um outro nome e apagar os 90% do texto que precisam ser retirados. Digamos que, por exemplo, meu livro possua treze capítulos, porém apenas o primeiro fará parte da amostra. Isso significa que eu irei apagar os htmls dos outros doze capítulos, deixando os htmls de capa, folha de rosto, dedicatória, sumário e créditos. Por conta disso, eu também preciso apagar os doze capítulos listados no meu ToC, caso contrário eu terei links para htmls inexistentes. E isso acarretaria diversos erros no meu arquivo que surgiriam no momento dos testes (ou, pior ainda, no momento de leitura do livro já vendido). Além da edição do ToC, eu preciso editar o sumário do livro, pois ele também possui links para os capítulos. E é aqui que entra o REGEX.

 

Sobre as expressões regulares

REGEX é a sigla para Regular Expressions, o nome dado a uma maneira simplificada de se fazer buscas e substituições através de um conjunto de caracteres genéricos. Uma determinada expressão regular é utilizada quando se deseja fazer uma busca por certas linhas do código que não têm conteúdos semelhantes, mas que podem ser identificadas por características genéricas comuns. Ou seja, através do REGEX eu consigo pesquisar e substituir todas as linhas que, por exemplo, comecem com letras minúsculas, independentemente de qual letra do alfabeto esteja sendo utilizada.

 

E qual a conexão?

No momento de criação da amostra, como foi falado, eu preciso editar o sumário do livro de modo a manter ali somente os links que realmente estão sendo utilizados na amostra. Mas, como cada link é diferente do outro (pois se referem a capítulos diferentes), a melhor maneira de apagar todos aqueles desnecessários na minha amostra é através de uma expressão regular. Não conseguirei entrar em mais detalhes neste texto, mas são diversas as possibilidades de expressões para cada substituição, sendo que a utilizada por mim na busca por links é: <a [^>]*>. Cada caractere nesta expressão regular determina uma regra. Por exemplo, os parênteses (< >) delimitam o início e o fim da expressão, o “a” indica se tratar de um link e o asterisco (*) indica que podem haver zero ou mais ocorrências. Para saber mais detalhes sobre o assunto eu recomendo dois sites: o User Guide do Sigil e o Portal Brasileiro de Expressões Regulares. Para a nossa análise, entretanto, é fundamental entender apenas que, ao fazer uma pesquisa por essa expressão, todos os links do arquivo ePub serão encontrados. A partir daí eu posso substituí-los pela informação que eu quiser ou simplesmente apagá-los, como deve ser feito no caso específico da amostra.

É possível entender a estranheza na identificação desses dois assuntos: a amostra talvez seja o elemento mais próximo do leitor, enquanto o REGEX certamente está entre um dos conhecimentos mais específicos dos profissionais da área de tecnologia ou, no caso, dos livros digitais. Mas dada a importância das amostras na divulgação dos e-books e a frequência com que utilizo expressões regulares para criá-las, é natural pensar em um texto que aponte a ligação entre os dois assuntos. Evidenciando mais uma vez que o exercício de produção dos livros digitais é permeado por esse diálogo constante entre algo tão familiar para nós, afinal se tratam de livros, e o universo aparentemente distante e desconhecido da tecnologia.

escrito por Joana De Conti

Joana De Conti

Joana De Conti é formada em Ciências Sociais e mestre em Antropologia, mas se aposentou da vida acadêmica quando descobriu os livros digitais. Ela trabalhou por vários anos no departamento digital da editora Rocco. Ali, aprendeu quase tudo o que sabe sobre conversão de livros, participou de projetos editoriais lindos e produziu os e-books de muitos dos seus autores preferidos. Atualmente trabalha como assistente de contas na Bookwire. O cuidado com a qualidade dos metadados, com conhecer minuciosamente o catálogo das editoras e a preocupação com excelência e inovação nos arquivos dos livros digitais são parte da sua rotina. E ela continua trabalhando com os e-books de muitos dos seus autores favoritos.

Um comentário sobre “Amostras e REGEX: entre o desconhecido e o familiar

Deixe uma resposta para Fernanda Cancelar resposta