2025年6月9日 星期一 乙巳(蛇)年 三月十三 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > .net

C# 使用 iTextSharp 将 PDF 转换成 TXT 文本

时间:04-11来源:作者:点击数:55

C# 使用 iTextSharp 将 PDF 转换成 TXT 文本

  • var pdfReader = new PdfReader("xxx.pdf");
  • StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));
  • int pageCount = pdfReader.NumberOfPages;
  • for (int pg = 1; pg <= pageCount; pg++)
  • {
  • ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
  • var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
  • value = value.Replace(" ", "");
  • Console.WriteLine(value);
  • output.Write(value);
  • }
  • output.Flush();
  • output.Close();
  • Console.Write("处理完毕");
  • Console.ReadLine();

【该方法是读取 PDF 中的文字不是 OCR 识别图片,如果你的PDF是扫描版书籍那么它实际上是图片,想获取图片文字内容请研究 OCR 方向内容!】

该方法读出的汉字不会乱码。

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门