PDF在复制粘贴时有混乱的文字

Question

2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000

26

PDF在复制粘贴时有混乱的文字

我试图从一个PDF文件中复制和粘贴文本。

然而，每当我粘贴原始文本时，就会出现一大堆乱码。文本看起来像下面（这只是一小段摘录）：

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

我在Adobe和Foxit PDF阅读器中都试过了。我在Adobe Reader中做了一个 “另存为文本"，结果文本文件是同样的乱码。

有什么办法可以让这些文字不出现乱码？(除了手动输入……还有很多文字要提取。)

来源

ngm http://superuser.stackexchange.com/users/17281

答案 (11)

相关问题

10

在Adobe Reader上删除或防止侧边栏默认打开 280

19

如何在Windows上比较两个PDF文件之间的差异？ 209

12

我如何将Github风味的Markdown转换为PDF？ 159

9

合并/合并PDF文件在Windows中？ 137

1

@所有人和@这里怎么用？它们之间有什么区别？ 22

acatalept http://superuser.stackexchange.com/users/17281 · Answer 1 · 2011-04-08 14:40:29 +0000

11

2011-04-08 14:40:29 +0000

最简单的方法是用最新版本的谷歌浏览器打开文件，内置PDF阅读插件。然后就可以用Chrome浏览器的搜索功能查找文本，复制粘贴就能正常使用。

我想把pipitas对Shiki答案的评论投上去，但我没有信条:( 问题可能是自定义字体编码，而不是加密。在Acrobat中，点击文件–>属性，然后点击字体选项卡看编码，再点击安全选项卡看是否加密。

来源

acatalept http://superuser.stackexchange.com/users/17281

Nick Olszanski http://superuser.stackexchange.com/users/17281 · Answer 2 · 2012-03-18 14:36:54 +0000

4

2012-03-18 14:36:54 +0000

还有一个非常简单的方法来做一个变通:)

只要用CutePdf，Adobe 2 Pdf打印机或任何类似的东西打印文档。底线是，你需要打印成pdf格式。

在许多情况下，它将很容易地消除这个问题。

来源

Nick Olszanski http://superuser.stackexchange.com/users/17281

Daniel http://superuser.stackexchange.com/users/17281 · Answer 3 · 2010-05-18 22:18:44 +0000

我在创建的PDF中发现了这个问题，我相信我追踪到了问题的来源：使用Mac OS X的预览来减少PDF文件的大小。

我曾使用Colorsync Utility创建了一些Quartz滤镜，以压缩PDF中的图像，从而减少带有图像的PDF的整体文件大小。如这里所描述的。http://www.macosxhints.com/article.php?story=20031106133852693

我发现我能够轻松地复制和粘贴原始（未压缩）PDF文件中的文本，但在通过我创建的Reduce File Size过滤器运行该PDF后，结果压缩后的PDF不能清晰地复制粘贴（出来后看起来像你发布的字符串）。

然而，通过Adobe Acrobat Pro的Document > Reduce File Size功能运行相同的原始PDF，结果压缩后的PDF可以成功复制和粘贴文本。

所以，这对你的情况并没有什么帮助，假设你的PDF文件是从其他地方收到的，而你又无法得到原始版本，如果它确实以某种方式被压缩了的话。但这可能是一种解释–为了减少文件的大小，文件以某种方式被弄乱了。

这对内容创建者来说可能很有用，因为他们在从PDF中复制和粘贴文本时遇到了类似的问题–小心使用OS X Quartz过滤器来缩小你的PDF!

–编辑–我也注意到了这个问题，当结合PDF与预览。两个源PDF可以复制和粘贴，但当从一个文件拖动页面到另一个文件，然后保存合并的PDF时，合并文件中的文本不能被复制/粘贴。这两个文档都是在Mac上用Filemaker Pro 11同时生成的，我无法想象它们会有不同的编码或任何类似的东西。

Gavin Miller http://superuser.stackexchange.com/users/17281 · Answer 4 · 2013-01-03 20:36:58 +0000

3

2013-01-03 20:36:58 +0000

对我有用的解决方案。

把文档上传到Google Drive/Docs
Google会把它作为PDF导入
打开PDF视图，选择文件> Open With > Google Docs
大概需要一分钟的时间来导出文档

结果并不完美，但让我完成了80%的任务，并给我提供了足够的文本，让我不必重写一切！

来源

Gavin Miller http://superuser.stackexchange.com/users/17281

user210118 http://superuser.stackexchange.com/users/17281 · Answer 5 · 2013-03-24 23:59:49 +0000

解决：（在Windows 8、Acrobat XI、Office 2010上对我有效）

选项1：

1.使用 “Microsoft XPS Document Writer "从Acrobat中打印，输出为。"你的文件名.xps” 2. 用XPS浏览器打开"…oxps"。*＊(见下面注释中的下载链接) 3. 打印成PDF (Acrobat PDF, 或 CutePDF)，使用最高分辨率(600 DPI)。 4. 用Acrobat打开并使用OCR（可搜索图像（精确））选项。

BINGO!

注释。

使用最高分辨率和可搜索图像（精确）将保存您的文本，而不会失去其干净的外观。低分辨率将使您的文本可读，但看起来很糟糕。
下载Microsoft XPS（文件）。http://www.microsoft.com/en-us/download/details.aspx?id=11816
如果你不知道什么是OCR，或者在哪里找到Searchable Image (exact)，或者如何使用 “Microsoft XPS Document Writer "打印，请你自己谷歌一下，以获得最好的体验。

＊只在没有安装XPS的情况下下载。

选项2：

做类似的工作，但保存为图片（png, tiff, …），然后你将不得不把所有的页面合并到一个 "PDF "文件中。

Reuti http://superuser.stackexchange.com/users/17281 · Answer 6 · 2011-10-26 18:58:50 +0000

我的一个用户刚刚报告了同样的问题(PDF是用Distiller for Windows创建的)，复制的文本只是乱码，他无法在文档中搜索。我在Mac上试了一下，没有发现任何问题。原来，我用的是苹果的预览程序，而他在Windows机器上用的是Adobe Reader。然后我在我的Mac上试了一下Adobe Reader，也遇到了同样的效果。对我来说，它看起来像。

-Adobe Reader正在对保存的文本进行搜索

苹果的预览版在应用编码向量后会复制和搜索。

我不能肯定地说，但它可以解释我的观察。而且它确实允许在保存合并/缩减文件时进行各种编码，就像这里的另一个帖子中所描述的那样：使用Preview你仍然可以再次得到文本。

首先我认为将嵌入的字体子集编码为连续的条目，而不是在里面留洞，使用原来的字符位置，这样更符合逻辑。但后来我意识到，通过对带有原始条目的字体子集使用编码向量，经常使用的字符可以在其字节中设置较少的位数为1，可以以更好的方式进行压缩（这样可能会降低整个文本的熵）。

Emil http://superuser.stackexchange.com/users/17281 · Answer 7 · 2010-06-21 20:51:02 +0000

有一种风险是信息根本无法检索。PDF文档本质上是一个文档覆盖另一个文档，一个是简单的文字，另一个是图片。当你从文档中复制粘贴时，你一边看图片一边标记文字，但复制到剪贴板上的是相应的一块文字部分。

根据文档的创建方式，文字部分的质量和可用性会有很大的不同。如果您使用 Acrobat、Word、PDF 打印机驱动程序或其他方法将文字处理程序文档保存为 PDF 格式，质量通常会很好，因为文本文件可以从原始文本中创建。一些特殊字符可能会失真，但纯文本通常是好的。

如果文档是由扫描的图像创建的，但是，文本部分通常是通过对图像进行OCR处理创建的，这可能会产生相当糟糕的结果，特别是当原始文件不是最佳用途时。

用来创建PDF的程序不好，或者设置错误，也可能导致文本部分变得完全混乱，因为，可以想象，文件创建后，在文件上运行的一些加密。

底线是，如果文件的文本部分真的很糟糕，没有办法让它变得更好。你最好的办法是完全删除文本部分，让程序重新进行OCR处理。我想这可能在Acrobat中就可以做到，但我不完全确定。

Kurt Pfeifle http://superuser.stackexchange.com/users/17281 · Answer 8 · 2010-06-24 14:23:21 +0000

一个可能的原因可能是PDF中的字体嵌入使用了自定义编码，当从PDF中复制文本时，没有正确地应用该编码。

您可以应用不同的方法来节省自己手动键入所有的内容。

1.你是否尝试过用 “pdftotext.exe "工具来提取文本？(我推荐 ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip 中的那个)。 2. 最新版本的Acrobat Reader有一个选项"保存为文本…”。这并不使用 “复制粘贴"（这给你带来了混乱的文本），但可能使用与_渲染屏幕上的文本相同的软件程序，因此可能产生更多可用的结果。 3. 如果'2.‘不工作，如果你有Acrobat Professional的权限：尝试使用字体嵌入Distiller配置文件之一重新分解PDF。 4. 如果'3.'不工作，尽管你有Acrobat Professional的访问权限：尝试重新分解PDF，但这次你应该使用'打印为图像'选项（通过主打印对话框左下角的'高级'按钮提供）。确保你使用600dpi（虽然这可能会产生一个巨大的文件）。然后在Acrobat Pro中再次打开生成的PDF。现在应用Acrobat的 "OCR "算法对文件进行处理，这将导致嵌入文本（不用于在阅读器中的屏幕上呈现，而是用于搜索和突出显示字符串）。现在你可以再次尝试从这个PDF中提取文本，使用上述讨论的任何一种方法。

Jhonrie http://superuser.stackexchange.com/users/17281 · Answer 9 · 2013-03-15 21:19:30 +0000

-->

我还没有尝试谷歌文档选项，因为它仍然不支持在我的办公室。然而，通过打印文件到 “ScanSoft PDF Create!"从 "Acrobat 9"（打印整个文件到图像），并打开打印文件在 "Nuance PDF Converter"（它提示我，如果我想使图像文件可搜索和编辑，我选择了），我能够有一个Word文档，我可以很容易地复制和粘贴。虽然它并不完美，只有80-90%左右的准确率。但是，嘿，你仍然有原始的PDF文件来比较和偏移那些不能修复的部分。省去了打字的时间。我的2c。

Ankit http://superuser.stackexchange.com/users/17281 · Answer 10 · 2012-10-02 19:05:44 +0000

1

2012-10-02 19:05:44 +0000

将它上传到Google docs，并使用View \ Plain HTML选项，使文本可复制的文本正确率达到80%左右，但少了一些空格。 This thread with accepted answer to same issue explains this with a working example.

来源

Ankit http://superuser.stackexchange.com/users/17281

Jimbo http://superuser.stackexchange.com/users/17281 · Answer 11 · 2011-10-16 21:34:19 +0000

我做了一些可编辑的文本PDF与Windows XP的Scansoft PDF Converter的旧版本，然后合并在Mac的预览程序的页面。对于每一个独立的页面，我可以搜索，复制和正确地从Mac上的Adobe Reader导出文本。当由预览合并并保存为一个文件时，所有在屏幕上看起来很好，但只有少数段落可以搜索/正确导出。这个问题把我带到了这里。

这里的帖子给了我一些很好的指点（谢谢你！）。我看了一下字体的文件属性。Win XP中的单页文件（一切正常）说编码是ANSI。预览中的文件组合（复制的文字是乱码）显示大部分字体的编码为 “内置"，少数为 "罗马"。

我的问题的解决方法一直在我的眼皮子底下–Scansoft程序本身就可以合并文件。当我使用Scansoft的组合器，在Mac上打开文件时，所有的字体都显示为ANSI编码，所有的文字都能完美导出/复制。我不知道为什么一开始我没有在PDF Converter中合并它们。谢谢，发帖人

在Linux系统上打开文件也是如此。

我知道这不能解释只在Windows系统上出现的问题–除非PDF有类似的混合来源？