在 Python 中,可以使用 PyPDF2 库来读取 PDF 文件,然后使用 codecs 库来解码文本。下面是一个例子:
import codecs
import PyPDF2
with open('input.pdf', 'rb') as f:
pdf = PyPDF2.PdfFileReader(f)
n_pages = pdf.getNumPages()
for i in range(n_pages):
page = pdf.getPage(i)
text = page.extractText()
text = text.encode('utf-8')
with codecs.open('output.txt', 'a', encoding='utf-8') as f:
f.write(text)
在这个例子中,我们打开了一个 PDF 文件,然后循环遍历每一页。对于每一页,我们使用 extractText
方法提取文本,然后将其编码为 UTF-8。最后,我们打开一个文本文件,并使用 UTF-8 编码将文本写入文件中。