Apache Tikaでテキスト抽出

この記事は公開されてから半年以上経過しています。情報が古い可能性がありますので、ご注意ください。

便利なTikaを使います。
なお今回はapp版を使います。
https://tika.apache.org/download.html
からダウンロードしましょう。

実行可能なjarになっているのでダウンロードしたら

でコンソールが開きます。

ここでメニューから指定しても問題ありませんが、概ね時間が掛かって大変レスポンスが悪く使いにくいためコマンドラインでの処理を考えます。

WORDファイルからの抽出

国土地理院のWordファイルからテキストを抽出する処理を実施してみます。

PDFファイルからの抽出

次にPDFから情報を取得するテストを実施します。
総務省のPDFをサンプルとして利用します。Tika以外にもPDFからテキストを抽出する方法はたくさんあるのであまりありがたみがないと思いますが

Excelファイルからの抽出

次に経産省のEXCELファイル(xls)からデータを抽出することをテストします。

これも綺麗に取得できますね。

対応フォーマット

https://tika.apache.org/1.11/formats.html
を見ての通り、tikaは相当なフォーマットがサポートされています。

DWGParserとかMIDIとかいろんなものがサポートされていますね。
社内ドキュメントのインデクシングを行ったりテキストマイニングをやってみるなど、使い道は広いと思います。

それでは良いドキュメントライフを!

投稿者プロフィール

えんじにあん
インフラ系のエンジニアです。
運用系のスクリプトを書いたり、オートメーションな世界に向かって日々精進しています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


Time limit is exhausted. Please reload CAPTCHA.

ABOUTこの記事をかいた人

インフラ系のエンジニアです。 運用系のスクリプトを書いたり、オートメーションな世界に向かって日々精進しています。