Tesseract-ocr is een open source OCR engine welke momenteel onder de hoede is gebracht bij Google. Met OCR kan tekst uit afbeeldingen worden gehaald (Optical character recognition oftewel optische karakter herkenning). De engine ondersteunt Nederlands en kan gebruikt worden op de meest gangbare platformen (o.a. Windows en Linux).