C# 使用 iTextSharp 将 PDF 转换成 TXT 文本

时间：04-11来源：作者：点击数：

var pdfReader = new PdfReader("xxx.pdf");

            StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));

            int pageCount = pdfReader.NumberOfPages;
            for (int pg = 1; pg <= pageCount; pg++)
            {
                ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
                value = value.Replace(" ", "");
                Console.WriteLine(value);
                output.Write(value);
            }

            output.Flush();
            output.Close();
            Console.Write("处理完毕");
            Console.ReadLine();

【该方法是读取 PDF 中的文字不是 OCR 识别图片，如果你的PDF是扫描版书籍那么它实际上是图片，想获取图片文字内容请研究 OCR 方向内容！】

该方法读出的汉字不会乱码。

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

来顶一下

返回首页

上一篇:WinForm 屏保程序下一篇:C# 复制、粘贴文本信息到系统剪贴板

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有