2009/04/17

セキュリティのかかったPDFファイルからテキストを抽出する方法

文献検索をNAMAZUで作ってるのだが,最近pdfにセキュリティ掛けてるところが多いのでメモ

xpdf
namazu付属。動きません。ここがスタート。

xdoc2txt
一緒においているcryptlib.dllを一緒に落として使う。
コマンドラインの引数は「-n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要)」
ただし 時々エラーで落ちるpdfがいる
あと,NAMAZUのフィルターがわからない。@convopts に-n追加しただけじゃだめなのか?



ConcatPDF
iTextFrontがメンテナンスしなくなったようなので。
pdfの暗号化解除で可能。必要なものが「.NET Framework 1.1 再頒布可能パッケージ 」+「Visual J# .NET Version 1.1 再頒布可能パッケージ 」ってのがマニアックすぎ。J#アプリなんてはじめてみた。
まぁ使えたのだが。


ちなみにConcatPDFが使っているライブラリが iText.NET らしい。
ググッたら,.NET Framework 2.0 用の iText.NET 2005 があるじゃないか。
書き直してほしいな


余談だがiTextってJAVAのpdfライブラリをJ#に移植したのがiText.NETなのか。
J#使いってはじめてみたわ!世の中広いね!

0 件のコメント: