计算机之家 » 『 软件讨论 』 » [分享] 巧妙利用Office 2003的虚拟打印机获取文本


2006-3-26 16:57 shaou
[分享] 巧妙利用Office 2003的虚拟打印机获取文本

  在日常的教学工作中,我们经常要从网上下载一些文字资料,采取的方法往往是复制网页中的文本到Word中,然后进行编辑、排版,但我们也常会碰到一些讨厌的问题,比如复制出来的文本中含有表格,有些文本还不能被复制。其实,可以用Office 2003的虚拟打印机来解决这些问题。

  一、认识虚拟打印机

  安装完Office 2003之后,你会发现“打印对话框”中多了一个打印机列表,这就是一台虚拟打印机,如果选中此项来打印,就会得到一个扩展名为MDI的文件。它有以下的应用。

  1. 通过Microsoft Office Document Image Writer将Word、Excel、PowerPoint、Internet Explorer等浏览器中的各种可以打印输出文件,打印输出为MDI格式,用于存档。

  2. Office 2003中除了提供虚拟打印功能,还提供了编程接口。可以很方便地从MDI文件中提取其中包含的文本,图片等内容,通过相应的索引模块,可以方便地为不同格式文档建立索引。

  3. Office 2003还提供了可以查看MDI文件内容的ActiveX控件,我们可以把该控件放置到Windows Forms中,用于查看MDI文件的内容。这样,一个通用性很高的文档管理系统就创建出来了。

  二、复制文本问题

  有些文本不能被复制,通过Office 2003的虚拟打印机,来获取其文本内容就非常简单。

  首先,单击IE的文件菜单,选择打印,在“打印对话框”中选“Microsoft Office Document Image Writer”打印机,单击[确定]按钮后,会出现一个“另存为”的对话框,输入文件名,单击[确定]按钮,就可以把打印内容输出到一个扩展名为MDI的文件中,同时又会启动“Microsoft Office Document Image”的应用程序,并能看到这个MDI文件的内容。

  然后,单击“Microsoft Office Document Image”的“工具”菜单,选择“将文本发送到Word”,就会弹出“将文本发送到Word”的对话框。

  可以对要发送文本的范围进行设置,也可以输出图片。单击[确定]按钮后,经过“使用ORC识别文本”,马上就发送到Word了。

  最后再在Word中进行适当的编辑、排版,保存即可。

页: [1]


Powered by Discuz! Archiver 5.5.0  © 2001-2006 Comsenz Inc.