C# 使用 iTextSharp 将 PDF 转换成 TXT 文本
- var pdfReader = new PdfReader("xxx.pdf");
-
- StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));
-
- int pageCount = pdfReader.NumberOfPages;
- for (int pg = 1; pg <= pageCount; pg++)
- {
- ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
- var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
- value = value.Replace(" ", "");
- Console.WriteLine(value);
- output.Write(value);
- }
-
- output.Flush();
- output.Close();
- Console.Write("处理完毕");
- Console.ReadLine();
【该方法是读取 PDF 中的文字不是 OCR 识别图片,如果你的PDF是扫描版书籍那么它实际上是图片,想获取图片文字内容请研究 OCR 方向内容!】
该方法读出的汉字不会乱码。