相关文章推荐

python pdf转txt乱码

在 Python 中,可以使用 PyPDF2 库来读取 PDF 文件,然后使用 codecs 库来解码文本。下面是一个例子:

import codecs
import PyPDF2
with open('input.pdf', 'rb') as f:
    pdf = PyPDF2.PdfFileReader(f)
    n_pages = pdf.getNumPages()
    for i in range(n_pages):
        page = pdf.getPage(i)
        text = page.extractText()
        text = text.encode('utf-8')
        with codecs.open('output.txt', 'a', encoding='utf-8') as f:
            f.write(text)

在这个例子中,我们打开了一个 PDF 文件,然后循环遍历每一页。对于每一页,我们使用 extractText 方法提取文本,然后将其编码为 UTF-8。最后,我们打开一个文本文件,并使用 UTF-8 编码将文本写入文件中。

  •  
    推荐文章