Il text in formato PDF è confuso quando l'incolla di copia

Sto provando a copiare e incollare il text da un file PDF.

Tuttavia, each volta che incollalo il text originale è un enorme confusione di caratteri confusi. Il text sembra il seguente (questo è solo un piccolo estratto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! (4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! /'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! &,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! )*+*+, C<88,?>8513AG<5A14, 

Ho provato in entrambi i lettori PDF Adobe e Foxit. Ho fatto un 'Salva come text' in Adobe Reader e il file di text risultante è lo stesso text confuso.

Qualche idea su come posso get questo text non confuso? (A parte la manualizzazione … c'è molto text da estrarre.)

Il modo più semplice per aggirarlo è quello di aprire il file in una versione più recente di Google Chrome con plug-in di lettura PDF integrato . Quindi puoi utilizzare la function di ricerca di Chrome per trovare il text e le copie-incolla funzionano correttamente.

Vorrei votare il commento di pipitas sulla risposta di Shiki, ma non ho le credenze 🙁 Il problema potrebbe essere la codifica dei caratteri personalizzati, non la crittografia . In Acrobat, fare clic su File -> Proprietà, quindi fare clic sulla scheda Caratteri per vedere la codifica e la scheda Protezione per verificare se è crittografata.

Ho scoperto questo problema con i file PDF creati e credo di aver individuato la fonte del problema: utilizzando l'anteprima di Mac OS X per ridurre la dimensione del file PDF.

Ho creato alcuni filtri al quarzo utilizzando l'utilità Colorsync per comprimere le immagini in PDF per ridurre la dimensione complessiva dei file PDF con le immagini. Come descritto qui: http://www.macosxhints.com/article.php?story=20031106133852693

Ho scoperto che sono in grado di copiare e incollare facilmente il text dal file PDF originale (non compresso), ma dopo aver eseguito tale PDF tramite un filter di size ridimensionate che ho creato, il PDF compresso risultante non copia chiaramente la copia (esce a guardare come le stringhe che hai inviato).

Tuttavia, eseguendo lo stesso PDF originale tramite il documento Documento di Adobe Acrobat Pro> Riduzione della dimensione di file, il PDF compresso risultante può copiare e incollare correttamente il text.

Quindi, questo non è del tutto utile nel tuo caso, supponendo che il file PDF sia stato ricevuto da altrove e non si può arrivare alla versione originale, se fosse in qualche modo compresso. Ma questa potrebbe essere la spiegazione – che il file è stato ingannato in qualche modo nel tentativo di ridurre la dimensione del file.

Questo potrebbe essere utile per i creatori di contenuti in esecuzione in problemi simili copiare e incollare il text da PDF – attenti a utilizzare i filtri OS X Quartz per ridurre i tuoi PDF!

–edit– Ho anche notato questo problema quando si combinano PDF con Anteprima. I due PDF di origine possono essere copiati e incollati bene, ma quando si trascina una pagina da un file nell'altro file, quindi salvando il PDF combinato, il text nel documento combinato non può essere copiato / incollato. Questi sono due documenti entrambi generati allo stesso tempo con Filemaker Pro 11 su Mac – non posso immaginare che avrebbero codifiche diverse o qualsiasi cosa del genere.

C'è un altro modo molto semplice per fare una soluzione 🙂

Basta printingre il documento utilizzando CutePdf, Adobe 2 Pdf printingnte o qualsiasi altra roba simile. La linea di fondo è che devi printingre nel formato pdf.

In molti casi rimuoverà facilmente il problema.

SOLVED: (lavorato per me su Windows 8, Acrobat XI, Office 2010)

Opzione 1:

  1. Stampa da Acrobat usando "Microsoft XPS Document Writer" L'output è: "il tuo file name.oxps"
  2. Apri "… oxps" con XPS Viewer. * (vedi link di download nei commenti sotto)
  3. Stampa in PDF (Acrobat PDF o CutePDF), utilizzando la risoluzione più alta (600 DPI).
  4. Apri con Acrobat e utilizza l'opzione OCR (image ricercabile (esatta)).

BINGO!

Commenti:

  • Utilizzando la risoluzione massima e l'image ricercabile (esatta) salverà il text senza perdere l'aspetto pulito. La bassa risoluzione renderà leggibile il tuo text, ma guardando crappy.
  • Scarica Microsoft XPS (file): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Se non si conosce l'OCR, o where trovare l'image ricercabile (esatta) o Come printingre utilizzando "Microsoft XPS Document Writer", PLEASE, Google da soli, per le tue migliori esperienze.

* Scarica solo se non si dispone di XPS installato.

Opzione 2:

Fare simili, ma salvare come image (png, tiff, …), allora dovrai combinare tutte le pagine in un unico file "PDF".

C'è il rischio che le informazioni non siano in alcun modo recuperabili. I documenti PDF sono essenzialmente un documento che sovrasta un'altra, un semplice text, l'altro un'image. Quando si copia e incolla dal documento, si contrassegna il text mentre si guarda l'image, ma ciò che viene copiato negli appunti è il pezzo corrispondente della parte di text.

A seconda del modo in cui viene creato il documento, la qualità e la disponibilità della parte del text possono variare notevolmente. Se si salva un documento di elaboratore di testi in formato PDF, utilizzando Acrobat, Word, un driver di printing PDF o qualsiasi altro metodo, la qualità di solito è eccellente, in quanto il file di text può essere creato dal text dell'originale. Alcuni caratteri speciali possono diventare distorti, ma il text normale è di solito bene.

Se il documento viene creato da un'image digitalizzata, tuttavia, la parte di text viene generata in genere dall'elaborazione OCR dell'image, che può produrre risultati piuttosto dispiaciuti, specialmente se l'originale è less appropriato allo scopo.

Un cattivo programma utilizzato per creare il PDF o le impostazioni sbagliate potrebbe anche causare la frammentazione della parte del text, come potrebbe, percepibile, alcuni tipi di crittografia eseguiti sul file dopo che è stato creato.

La linea di fondo è, se la parte del text del documento è veramente male, non c'è modo di renderlo più efficace. La tua scommessa migliore sarebbe quella di rimuovere completamente la parte del text e di riprogrammare il process OCR. Penso che questo possa essere eseguito da Acrobat, ma non sono del tutto sicuro.

Uno dei miei utenti ha appena riportto lo stesso problema (PDF è stato creato con Distiller per Windows), che il text copiato è solo text confuso e non è in grado di cercare all'interno di un documento. Ho provato sul mio Mac e non ho trovato alcun problema. È risultato che ho usato l'applicazione di anteprima di Apple mentre usava Adobe Reader sulla sua macchina Windows. Poi ho provato Adobe Reader sul mio Mac affrontando lo stesso effetto. Per me sembra:

  • Adobe Reader sta coyping e cerca nel text salvato.

  • L'anteprima di Apple copia e cerca dopo aver applicato il vector di codifica.

Non posso dire questo per certo, ma spiegherebbe la mia osservazione. Ed effettivamente permetterebbe di fare tutti i tipi di codifica quando si salvano i file combinati / ridotti come descritto in un altro post qui: con Anteprima è ancora ansible get il text di nuovo.

In primo luogo ho pensato che sarebbe più logico codificare il sottoinsieme di font incorporato come voci contigue anziché lasciare i fori all'interno e utilizzare la posizione del carattere originale. Ma poi ho capito che utilizzando un vector di codifica per il sottoinsieme di caratteri con le voci originali, i caratteri che vengono spesso utilizzati possono avere bit less impostati su 1 nel proprio byte e possono essere compressi in modo migliore (può ridurre l'entropia del text complessivo in questo modo).

Caricandolo in documenti di Google e utilizzando l'opzione Visualizza> HTML semplice , consente di restituire il text in text copiabile a circa l'80% con mancanza di pochissimi spazi.

Questo thread con risposta accettata allo stesso problema lo spiega con un esempio di lavoro.

Soluzione che ha funzionato per me:

  • Carica il documento in Google Drive / Documenti
  • Google lo import (a partire dal 2013) come PDF
  • Apri la visualizzazione PDF e scegli File > Apri con > Documenti Google
  • Ci vorrà circa un minuto per esportre il documento

I risultati non sono stati perfetti, ma ho ottenuto l'80% del modo in cui mi sono fornito e mi hanno fornito abbastanza text che non ho dovuto riscrivere tutto!

Non ho provato l'opzione di Google Documenti in quanto non è ancora supportta nel mio ufficio. Tuttavia, printingndo il file su "ScanSoft PDF Create!" da "Acrobat 9" (printing l'integer file all'image) e aprire il file printingto in "Nuance PDF Converter" (mi ha chiesto se voglio fare il file di image ricercabile e modificabile, a cui ho optato), ero in grado di avere un documento di Word che posso facilmente copiare e incollare. Non è perfetto sebbene con solo circa l'accuratezza del 80-90%. Ma hey, hai ancora il file PDF originale per confrontare e compensare quelle parti che non possono essere fissate. Salva il tempo da digitare tutta la cosa. Il mio 2c.

Un ansible motivo per questo potrebbe essere che il tipo di carattere incorporato nel PDF stava usando una codifica personalizzata, che non viene applicata correttamente quando si copia il text dal PDF.

È ansible applicare diversi methods per salvare manualmente tutti i contenuti.

  1. Hai provato a estrarre il text con uno degli strumenti 'pdftotext.exe' scaricabili in tutta la networking? (Lo consiglio a quello incluso in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. L'ultima versione di Acrobat Reader ha un'opzione "Salva come text …" . Questo non utilizza "copy'n'paste" (che ha dato il text confuso), ma probabilmente utilizza le stesse routine software utilizzate per rendere il text sullo schermo e pertanto possono produrre risultati più utili.
  3. Se '2.' non funziona e se si dispone dell'accesso a Acrobat Professional: provare a distillare nuovamente il PDF utilizzando uno dei profili Distiller incorporati di font.
  4. Se '3.' non funziona, nonostante abbia accesso a Acrobat Professional: provate a distillare nuovamente il PDF, ma questa volta dovresti utilizzare l'opzione 'printing come image' (disponibile tramite il button 'Avanzate' nell'angolo inferiore sinistro della printingnte principale dialogo). Assicurati di utilizzare 600dpi (anche se questo potrebbe produrre un file enorme). Il PDF risultante si apre nuovamente in Acrobat Pro. Adesso applica al file l'algorithm 'OCR' di Acrobat, che provoca un text incorporato (non utilizzato per rendere sullo schermo in Reader ma utilizzato per la ricerca e l'evidenziazione delle stringhe). Ora puoi riprovare a estrarre il text da questo PDF utilizzando uno dei methods descritti sopra.

Ho fatto alcuni PDF con text modificabile con una vecchia versione di Scansoft PDF Converter per Windows XP e poi ho combinato le pagine nel programma Anteprima di Mac. Per ciascuna delle pagine separate, potrei cercare, copiare ed esportre correttamente il text da Adobe Reader sul Mac. Quando combinati con Anteprima e salvati come un file, tutti sembravano ben presenti sullo schermo, ma solo pochi passaggi erano correttamente ricercabili / esportbili. Quel problema mi ha portto qui.

I posti qui mi hanno dato alcuni buoni suggerimenti (grazie!). Ho esaminato le properties; del file per i font. I file di una pagina da Win XP (where tutto è bene) ha detto che la codifica era ANSI. Il file combinato in Anteprima (where il text copiato è confuso) ha mostrato la codifica per la maggior parte dei font come "Built-in" con pochi come "Roman".

La soluzione al mio problema era sempre sotto il naso – il programma Scansoft in se può combinare file. Quando ho usato il combinatore di Scansoft e ho aperto il file su Mac, tutti i caratteri sono stati mostrati come ANSI codificati e tutto il text è esportto / copiato perfettamente. Perché sulla Terra non li ho combinati in PDF Converter in primo luogo, non lo so. Grazie, poster!

Stesso è vero che aprono i file su un sistema Linux.

So che questo non spiega i problemi solo di Windows – a less che il PDF non abbia origini miste simili?