Come fare OCR in un documento PDF?

Possibile duplicazione:
Come estrarre il text con OCR da un PDF su Linux?

Ho alcuni documenti in inglese e in ebraico che ho scansionato e convertito in formato PDF.

C'è qualche utilità gratuita o economica che può elaborare un PDF scansito e fare OCR, alless in inglese, preferibilmente in ebraico?

Grazie!

Ho trovato un elenco di software OCR gratuito per Windows.

  1. FreeOCR
  2. Tesseract
  3. WeOcr Tesseract Interfaccia Web
  4. GOCR
  5. GUI di Windows per GOCR
  6. Desktop OCR
  7. OCR semplice
  8. TopOCR

Tuttavia, questi programmi hanno bisogno di un input di image, non di un ingresso PDF. Per questo, provate un converter PDF-to-JPG .

Ho trovato un'idea interessante che consente a Google di eseguire tutto il lavoro di OCR per i file PDF.

Personalmente, userei Ghostview per convertire in un'image, quindi Tesseract per convertire in text. Questa è una soluzione totalmente gratuita, open source, cross platform che ho avuto ottimi risultati con quando si cerca di convertire il text normale. Non lo uso per documenti complessi con tavoli e simili, ma per text semplice non puoi battere il prezzo.