Linux commando pdf2text
22-06-2006
Met het linux commando pdf2text kan een pdf worden omgezet in tekst. Het commando komt is bij de meeste linux distributies standaard geinstalleerd op het systeem.
De gegenereerde tekst is niet presentabel. De tekst kan wel worden gebruikt om een document te indexeren. Zoeken binnen pdf documenten wordt zo mogelijk gemaakt.
Het commando kan met PHP aangeroepen worden. De volgende functie opent een pdf bestand en retourneerd de tekst. Wanneer er iets fout gaat retourneerd de functie FALSE. Deze functie heeft schrijfrechten nodig op de map waarin het pdf document staat.
function pdf_to_text( $file_name ){
$txt_file = "$file_name.txt";
$shellcommand = "pdftotext -eol dos $file_name $txt_file";
$retval = false;
exec( $shellcommand, $arr_lines, $error_code);
if($error_code === 0){
// command understood
$retval = file_get_contents($txt_file);
@unlink( $txt_file );
}
return $retval;
}
Zie ook: