
打印机
以下是解决数码问题的专业方法:一、从不同格式的文件中提取文本要从不同格式的文件中提取文本,首先需要安装CAJViewer 5.5浏览器软件和Acrobat 5 Professional版浏览器软件。同时,确保已经完全安装了Office工具(如Microsoft Office Document Imaging)和
打印机驱动程序。使用Microsoft Office Document Image Writer
打印机可以非常准确地进行全文件识别和转换,支持中文、英文和表格格式。二、提取CAJ文件中的文本1. 下载并保存CAJ格式资料文件到本地
硬盘上。2. 启动CAJViewer浏览器程序,并打开刚才保存的CAJ格式文件。3. 在浏览器窗口中选择“文件”→“打印”,并选择Microsoft Office Document Image Writer
打印机。4. 勾选“打印到文件”选项,并设置打印页数。5. 将打印文件(*.prn)保存到适当位置。等待打印完成后,Microsoft Office Document Image会自动打开刚才保存的打印文件。6. 在Microsoft Office Document Image窗口中选择“页面”菜单中的“选择所有页面”,然后选择工具菜单中的“使用OCR识别文本”以提取文本。7. 选择工具菜单下的“将文本发送到
word”,最后将整个CAJ文件的文本识别输出到
word文件中。三、提取PDF文件中的文本1. 如果要以文本形式保存的PDF文件,可以使用
Adobe Acrobat 5 Professional软件来识别整个文件。2. 若要以图片形式保存的PDF文件,可以将PDF文件打印到Microsoft Office Document Image Writer
打印机。选择打印形成的文件的保存位置,并使用Microsoft Office Document Image打开该文件。3. 在Microsoft Office Document Image中选择“工具”菜单中的“使用OCR识别文本”,以提取PDF中的文本。4. 最后,在“工具”菜单下选择“将文本发送到
word”,将整个PDF文件的文本识别输出到
word文件中。四、提取超星文件中的文本1. 全文件识别时,将超星文件打印到Microsoft Office Document Image Writer
打印机。2. 与前述方法相似地,在超星打印功能下,将目录和正文分别识别到
word中,并合并成一个文档。3. 注意,在超星打印过程中,需要填入打印页码从1到最后一页,不要选择全部打印。同时,在打印选项中将页面比例设成真实大小,而不是整宽。请注意,超星识别速度较其他格式慢,请保持耐心。通常一本200多页的书需要几分钟时间来完成识别。五、后记经过测试发现,Microsoft Office Document Image存在一些稳定性问题。例如,在使用CAJ 5.5版本进行打印时比使用CAJ 5.0版本更快。当页面显示较大时,转换后的识别率较高。如果文件页数较多(包括超星),可以多次进行转换。由于虚拟打印到Microsoft Office Document Image Writer速度较慢,并且生成的虚拟文件较大,一本200多页的书大约是60M,这会严重影响
计算机的运行速度、C盘和内存空间。建议配置良好的
计算机一次转换不超过200页,配置较差的
计算机一次转换不超过100页。同时,在打印任务栏中会显示
打印机图标,双击该图标即可查看打印任务进度以避免误以为死机。转换完成后,请删除C盘下的“c:windows emp”目录下的虚拟打印文件,以免C盘很快被占满。