分类分类
关注+2013-05-12作者:xy
1、考虑到在生活工作中经常有朋友遇到将各种来源的pdf文档转化为word或txt的需求;
2、曾经有朋友发表过类似的软件,究其软件功能较简单,往往不能满足不同朋友的需求,发此文,旨在帮助朋友能更高效的完成相关工作并在提供一点思路。
如图示
说明
pdf 无法编辑,这不是缺点,而是它的定位.
pdf 虽然无法编辑,但可以进行注释。
为什么转换PDF到其他格式?技术角度,是为了二次编辑和后续利用;但这样做的时候,请注意版权问题。
一定要转到word格式?不一定。如果文档只有文字,则建议转为txt或rtf。如果还有一些不算复杂的图表、图片,转为htm也是可以接受的。但如果格式复杂,或者你对 html 不了解,也不妨转为doc格式。(早期版本MS Word采用封闭格式,wps和libre office通过各种技术手段才能与之保持尽力兼容,而其他无此实力(经济实力)的软件则不能编辑Word。当然,可以用免费的WordViewer查看(应该也能复制到其他程序中吧)。新的MS Office采取了XML格式,相对开放了一些。所以,也不应该基于过时的理由过于反对doc格式。但无论如何,请有如下意识:除了昂贵的MS Office,还有个人免费的WPS(非常小巧)、开源的libre、在线的Google Doc。)
一、推荐的PDF转换word方案
1. 莫忘最基本的“复制/粘贴”法
寻找“高级”办法之前,不妨先试一下最基本的方法:打开PDF文档,复制全文;然后,在Word中粘贴。如果文档格式不复杂,这样得到的结果就够用了。
2. Gmail、qq邮箱中直接查看PDF格式
Gmail很早就解决了PDF查看问题。把PDF作为附件发送至Gmail信箱,在附件一侧,点击“view”或“查看”链接,进入在线PDF阅读器后,点击“纯html”链接,即可以网页格式显示pdf内容。如果你一定需要doc格式,请复制html内容到Word。而QQ邮箱中,PDF附件旁边也有类似的“纯文本方式查看”链接,只是相比Gmail,缺少文字格式。另外,这种转换还能破解PDF防止复制内容的限制。
优点:速度快、可信、很多人已经有Gmail信箱(没有?那就注册一个吧);各种语言编码的文字都应该可以转换。
缺点:pdf中的图片好象有问题。
3. pdf2word在线转换
PDFtoWord.com 号称是目前最为精准的pdf to word文件转换器,出自著名的PDF解决方案供应商NitroPDF。
PDFtoWord.com是在线应用,完全免费,使用方便:
- 访问pdftoword.com:①上传pdf→②选定格式(doc/rtf)→③输入接收邮箱;
- 进入邮箱:查收转换后的word文档。
Web 2.0 Share的评价:“……Pdftoword 无愧于精准之王,对中文同样转换很好,文字方面不多说了,大家可以自己测试。Pdftoword 在排版方面确实有独到之处,特别介绍一个细节,Pdftoword 转换后的文档仍以段落为单位,没有很多的换行符,而以前大多转换器都是以行为单位,以致末尾有很多的换行符,你复制粘贴时会有许多麻烦……”
Freepdfconvert是一个提供免费在线PDF转换服务的网站。支持的各种能够转换成PDF的其他文档的格式包括:MS Office,网页,图片,矢量图片等.
pdfonline功能最为强大的PDF在线工具集合,包括了一些很实用的工具,其中pdf文件转化工具支持几乎所有的常见文件格式。
Convertpdftoword 有一个免费的在线PDF to WORD转换工具,可在线上传PDF文件,立马转变为word文件,直接下载,十分方便!当然也有桌面版的可供下载,自行选择。
二、其他软件或在线应用
1、共享软件 e-PDF To Word Converter
共享软件 e-PDF To Word Converter(需要美元)在转换PDF到Word类软件中,也属于效果较好的一款,当然凭国人的破解精神,这些激活工具在网上铺天盖地的都有。
网上其他介绍:e-PDF To Word Converter 是一款将AdobePDF文档转换成 Word 文档的工具软件,它支持文字,图像及其它内容的输出。这款软件可以脱离 Microsoft Word,Adobe Acrobat 或 Acrobat Reader 独立运行。完美的中文支持和原始版面转换,基本做到了百分百的原汁原味……目前唯一发现的不足,数字会被转换成全角数字,不知道可否在word中批量把数字换回半角,另外有些文字大小会小一号。试用了超多的pdf转word工具了,应该说这个是所见过版面保留最好的了,虽然还是有点缺憾。
上面的软件将文本类型的pdf转换为word的话还可以,但是一旦pdf的文档使用图像生成的,如扫描下来的资料,或者使用拍照图片生成的,在这些类型的pdf面前他们也是很无力哦,接下来就需要介绍一下一个叫OCR的东东了。
光学字符识别,简称OCR,是一种可以使你转换不同文档的技术, 比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档。假设你获得了一个纸质文件-比如,杂志、彩页或者你合作伙伴发给你的PDF合同。很明显,光是一台扫描仪是不足以让这些文档转变成可以编辑的文档,也就是Microsoft Word。扫描仪可以做的只是创建图片或者一张黑白或者彩色的图像文档。为了从扫描文档、PDF或者数码图片中提取文字和数据,你需要OCR软件识别图片上的信息,从单词到句子,然后变成整个可以编辑的文档。
2、MS Office Document Imaging 将PDF转为Word
如果你购买了MS Office的相应套件,则可通过MS Office Document Imaging进行PDF到Word的转换。
Microsoft Office Document Imaging 是MS Office的一款选装组件,用于印刷文档的图像化扫描存储,并具有OCR功能。因此,也可以先把PDF虚拟打印为 Microsoft Office Document Imaging 格式 (MDI) ;再通过OCR转为可编辑的Word文档。(官方帮助: 2)
转载一下操作步骤:
① 从PDF到MDI:在pdf阅读器中,打印PDF,打印机选“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。 (注:如果没有找到“Microsoft Office Document Image Writer”项,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft DRAW转换器”。 )
② 从MDI到Word:Document Imaging 转换为运行“Microsoft Office Document Imaging”,并利用它来打开刚才保存的mdi文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,确认即可。但是这个组件在Office 2010里被移除了,ocr识别功能现在是集成在OneNote里面,但我个人测试拍的实物照片从来没成功过…所以可能的话还是需要别的软件。
这是就学要那些内置ocr功能的软件出场了。
泰比(ABBYY) FineReader 11是高智能的文本识别、文本转换和扫描识别软件。
当然这里还有诸如tryORC(国产、免费、好用),Solid Converter PDF,Able2Extract等诸如此类的比较大型的软件共各位朋友们尝试。
还有一个tryORC,中文名叫识别看看
相关文章
更多+相同厂商
热门推荐
点击查看更多
点击查看更多
点击查看更多
说两句网友评论