2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000
26
26

PDF在复制粘贴时有混乱的文字

我试图从一个PDF文件中复制和粘贴文本。

然而,每当我粘贴原始文本时,就会出现一大堆乱码。文本看起来像下面(这只是一小段摘录):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

我在Adobe和Foxit PDF阅读器中都试过了。我在Adobe Reader中做了一个 “另存为文本",结果文本文件是同样的乱码。

有什么办法可以让这些文字不出现乱码?(除了手动输入……还有很多文字要提取。)

答案 (11)

11
11
11
2011-04-08 14:40:29 +0000

最简单的方法是用最新版本的谷歌浏览器打开文件,内置PDF阅读插件。然后就可以用Chrome浏览器的搜索功能查找文本,复制粘贴就能正常使用。

我想把pipitas对Shiki答案的评论投上去,但我没有信条:( 问题可能是自定义字体编码,而不是加密。在Acrobat中,点击文件–>属性,然后点击字体选项卡看编码,再点击安全选项卡看是否加密。

4
4
4
2012-03-18 14:36:54 +0000

还有一个非常简单的方法来做一个变通:)

只要用CutePdf,Adobe 2 Pdf打印机或任何类似的东西打印文档。底线是,你需要打印成pdf格式。

在许多情况下,它将很容易地消除这个问题。

4
4
4
2010-05-18 22:18:44 +0000

我在创建的PDF中发现了这个问题,我相信我追踪到了问题的来源:使用Mac OS X的预览来减少PDF文件的大小。

我曾使用Colorsync Utility创建了一些Quartz滤镜,以压缩PDF中的图像,从而减少带有图像的PDF的整体文件大小。如这里所描述的。http://www.macosxhints.com/article.php?story=20031106133852693

我发现我能够轻松地复制和粘贴原始(未压缩)PDF文件中的文本,但在通过我创建的Reduce File Size过滤器运行该PDF后,结果压缩后的PDF不能清晰地复制粘贴(出来后看起来像你发布的字符串)。

然而,通过Adobe Acrobat Pro的Document > Reduce File Size功能运行相同的原始PDF,结果压缩后的PDF可以成功复制和粘贴文本。

所以,这对你的情况并没有什么帮助,假设你的PDF文件是从其他地方收到的,而你又无法得到原始版本,如果它确实以某种方式被压缩了的话。但这可能是一种解释–为了减少文件的大小,文件以某种方式被弄乱了。

这对内容创建者来说可能很有用,因为他们在从PDF中复制和粘贴文本时遇到了类似的问题–小心使用OS X Quartz过滤器来缩小你的PDF!

–编辑–我也注意到了这个问题,当结合PDF与预览。两个源PDF可以复制和粘贴,但当从一个文件拖动页面到另一个文件,然后保存合并的PDF时,合并文件中的文本不能被复制/粘贴。这两个文档都是在Mac上用Filemaker Pro 11同时生成的,我无法想象它们会有不同的编码或任何类似的东西。

3
3
3
2013-01-03 20:36:58 +0000

对我有用的解决方案。

  • 把文档上传到Google Drive/Docs
  • Google会把它作为PDF导入
  • 打开PDF视图,选择文件> Open With > Google Docs
  • 大概需要一分钟的时间来导出文档

结果并不完美,但让我完成了80%的任务,并给我提供了足够的文本,让我不必重写一切!

2
2
2
2013-03-24 23:59:49 +0000

解决:(在Windows 8、Acrobat XI、Office 2010上对我有效)

选项1:

1.使用 “Microsoft XPS Document Writer "从Acrobat中打印,输出为。"你的文件名.xps” 2. 用XPS浏览器打开"…oxps"。**(见下面注释中的下载链接) 3. 打印成PDF (Acrobat PDF, 或 CutePDF),使用最高分辨率(600 DPI)。 4. 用Acrobat打开并使用OCR(可搜索图像(精确))选项。

BINGO!

注释。

  • 使用最高分辨率和可搜索图像(精确)将保存您的文本,而不会失去其干净的外观。低分辨率将使您的文本可读,但看起来很糟糕。
  • 下载Microsoft XPS(文件)。http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • 如果你不知道什么是OCR,或者在哪里找到Searchable Image (exact),或者如何使用 “Microsoft XPS Document Writer "打印,请你自己谷歌一下,以获得最好的体验。

*只在没有安装XPS的情况下下载。

选项2:

做类似的工作,但保存为图片(png, tiff, …),然后你将不得不把所有的页面合并到一个 "PDF "文件中。

1
1
1
2011-10-26 18:58:50 +0000

我的一个用户刚刚报告了同样的问题(PDF是用Distiller for Windows创建的),复制的文本只是乱码,他无法在文档中搜索。我在Mac上试了一下,没有发现任何问题。原来,我用的是苹果的预览程序,而他在Windows机器上用的是Adobe Reader。然后我在我的Mac上试了一下Adobe Reader,也遇到了同样的效果。对我来说,它看起来像。

-Adobe Reader正在对保存的文本进行搜索

  • 苹果的预览版在应用编码向量后会复制和搜索。

我不能肯定地说,但它可以解释我的观察。而且它确实允许在保存合并/缩减文件时进行各种编码,就像这里的另一个帖子中所描述的那样:使用Preview你仍然可以再次得到文本。

首先我认为将嵌入的字体子集编码为连续的条目,而不是在里面留洞,使用原来的字符位置,这样更符合逻辑。但后来我意识到,通过对带有原始条目的字体子集使用编码向量,经常使用的字符可以在其字节中设置较少的位数为1,可以以更好的方式进行压缩(这样可能会降低整个文本的熵)。

1
1
1
2010-06-21 20:51:02 +0000

有一种风险是信息根本无法检索。PDF文档本质上是一个文档覆盖另一个文档,一个是简单的文字,另一个是图片。当你从文档中复制粘贴时,你一边看图片一边标记文字,但复制到剪贴板上的是相应的一块文字部分。

根据文档的创建方式,文字部分的质量和可用性会有很大的不同。如果您使用 Acrobat、Word、PDF 打印机驱动程序或其他方法将文字处理程序文档保存为 PDF 格式,质量通常会很好,因为文本文件可以从原始文本中创建。一些特殊字符可能会失真,但纯文本通常是好的。

如果文档是由扫描的图像创建的,但是,文本部分通常是通过对图像进行OCR处理创建的,这可能会产生相当糟糕的结果,特别是当原始文件不是最佳用途时。

用来创建PDF的程序不好,或者设置错误,也可能导致文本部分变得完全混乱,因为,可以想象,文件创建后,在文件上运行的一些加密。

底线是,如果文件的文本部分真的很糟糕,没有办法让它变得更好。你最好的办法是完全删除文本部分,让程序重新进行OCR处理。我想这可能在Acrobat中就可以做到,但我不完全确定。

1
1
1
2010-06-24 14:23:21 +0000

一个可能的原因可能是PDF中的字体嵌入使用了自定义编码,当从PDF中复制文本时,没有正确地应用该编码。

您可以应用不同的方法来节省自己手动键入所有的内容。

1.你是否尝试过用 “pdftotext.exe "工具来提取文本?(我推荐 ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip 中的那个)。 2. 最新版本的Acrobat Reader有一个选项"保存为文本…”。这并不使用 “复制粘贴"(这给你带来了混乱的文本),但可能使用与_渲染屏幕上的文本相同的软件程序,因此可能产生更多可用的结果。 3. 如果'2.‘不工作,如果你有Acrobat Professional的权限:尝试使用字体嵌入Distiller配置文件之一重新分解PDF。 4. 如果'3.'不工作,尽管你有Acrobat Professional的访问权限:尝试重新分解PDF,但这次你应该使用'打印为图像'选项(通过主打印对话框左下角的'高级'按钮提供)。确保你使用600dpi(虽然这可能会产生一个巨大的文件)。然后在Acrobat Pro中再次打开生成的PDF。现在应用Acrobat的 "OCR "算法对文件进行处理,这将导致嵌入文本(不用于在阅读器中的屏幕上呈现,而是用于搜索和突出显示字符串)。现在你可以再次尝试从这个PDF中提取文本,使用上述讨论的任何一种方法。

1
1
1
2013-03-15 21:19:30 +0000

我还没有尝试谷歌文档选项,因为它仍然不支持在我的办公室。然而,通过打印文件到 “ScanSoft PDF Create!"从 "Acrobat 9"(打印整个文件到图像),并打开打印文件在 "Nuance PDF Converter"(它提示我,如果我想使图像文件可搜索和编辑,我选择了),我能够有一个Word文档,我可以很容易地复制和粘贴。虽然它并不完美,只有80-90%左右的准确率。但是,嘿,你仍然有原始的PDF文件来比较和偏移那些不能修复的部分。省去了打字的时间。我的2c。

1
1
1
2012-10-02 19:05:44 +0000

将它上传到Google docs,并使用View \ Plain HTML选项,使文本可复制的文本正确率达到80%左右,但少了一些空格。 This thread with accepted answer to same issue explains this with a working example.

0
0
0
2011-10-16 21:34:19 +0000

我做了一些可编辑的文本PDF与Windows XP的Scansoft PDF Converter的旧版本,然后合并在Mac的预览程序的页面。对于每一个独立的页面,我可以搜索,复制和正确地从Mac上的Adobe Reader导出文本。当由预览合并并保存为一个文件时,所有在屏幕上看起来很好,但只有少数段落可以搜索/正确导出。这个问题把我带到了这里。

这里的帖子给了我一些很好的指点(谢谢你!)。我看了一下字体的文件属性。Win XP中的单页文件(一切正常)说编码是ANSI。预览中的文件组合(复制的文字是乱码)显示大部分字体的编码为 “内置",少数为 "罗马"。

我的问题的解决方法一直在我的眼皮子底下–Scansoft程序本身就可以合并文件。当我使用Scansoft的组合器,在Mac上打开文件时,所有的字体都显示为ANSI编码,所有的文字都能完美导出/复制。我不知道为什么一开始我没有在PDF Converter中合并它们。谢谢,发帖人

在Linux系统上打开文件也是如此。

我知道这不能解释只在Windows系统上出现的问题–除非PDF有类似的混合来源?