阅读:3362回复:0
使用 pdftotext 将 PDF 转化成 txt 文件
《Drupal 7 权威指南》的第三部分已经翻译完第九章和第十章,准备开始翻译第十一章时发现找不到原书的 txt 文本了。在网上简单找了一下,发现原来 Linux 下有一个名为 pdftotxt 的命令行工具就可以将 PDF 转化为 txt 文件。
pdftotext 命令的用法十分简单,只需要在命令行后面跟上要转换的 PDF 的文件路径即可,如 pdftotext d7.pdf 以上命令便会基于 d7.pdf 生成一个同名的 d7.txt 文件。当然也可以自行设置输出的文件名称,如 pdftotext d7.pdf drupal7.txt 以上两个命令可以将 pdf 转换成 txt,PDF 中的所有内容都会被包含在 txt 中。很棒吧! 不过 PDF 的页头、页脚和页码等信息,也会被包含进 txt 中。大部分情况下,大家都不需要 txt 文件中包含这些噪音内容。 幸运的是,pdftotext 命令还带了不少参数可以帮助我们进行导出区域的控制,例如使用以下命令,就可以完美地将《Drupal 7 权威指南》英文版的PDF转出为 txt 版本,其中不包含页头、页脚和页码等噪音信息。:D pdftotext d7.pdf -x 80 -y 80 -W 440 -H 500 -nopgbrk -layout 有关各个参数的含义就不解释了,大家在 Linux 下可以方便使用帮助命令查看或者在网上搜索。下面附上使用 pdftotext 命令转出的《Drupal 7 权威指南》英文版的第2到8页的 txt 文件。 附件:d7.txt 今天将原本应该用于翻译的时间都花在解决 PDF 转 TXT 的问题上了,虽然耽误了一些翻译进度,不过也学习到了不错的东西 :D |
|