AWS re:Invent 2017で新サービスAmazon Comprehendが発表されました。
Amazon Transcribe, Amazon Translateと共に発表されたテキスト処理系のサービスです。
Amazon Comprehendは自然言語処理により文章の内容を解析し、エンティティやキーフレーズの抽出、言語の特定、書かれている内容の感情を推定することができます。
エンティティ
エンティティは以下が抽出可能です
- 製品名等
- 日付
- イベント
- 場所
- 組織
- 人物
- 数量
- タイトル
- その他
キーフレーズ
キーフレーズは特定のことを指す名詞を含む一連の言葉です。公式ドキュメントの例では、「a bueautiful day」のようにday(名詞)とそれを修飾する「a」「beautiful」の一連の句をキーフレーズとして抽出可能なようです。
言語の特定
言語の特定は現在ちょうど100言語に対応しているとのことです。もちろん日本語にも対応しています。
ComprehendのAPI explorerを使用し日本語を入力してみるとちゃんとJapaneseと認識されます。ただし、漢字ひらがなの文章であれば日本語と認識しますが、ローマ字だと日本語として認識しないようです。
なお、残念ながら日本語だと言語の特定しか動作しません。
感情の推定
感情の推定は、ポシティブ、ネガティブ、中間(Neutral)、ミックス(!?)の感情をスコアリングし、そのスコアを元にアプリケーション側で感情の判別を行います。
試しに、Amazonに対して肯定的なニュース記事と否定的なニュース記事をComprehendに読み込ませてみたところ、肯定的なニュースではポジティブの値が高く、否定的なニュースではネガティブの値が高くなっていました。ただし、普通の文章であれば中間の値が9割以上を占めるようです。
Topic Modeling
Comprehendには、複数の文章を一括で解析し、キーワードの抽出などを行うTopic Modelingという機能もあります。
Topic Modelingを行う文章をS3に置き、Topic Modelingを実行するとキーワードの抽出結果がS3に出力されます。
Amazon Comprehendは、Transcribe, Translateと共に使用することでより強力なツールとなりそうです。
投稿者プロフィール
- 組み込み開発から運用までカバーするエンジニアです。
最新の投稿
- AWS re:Invent 20172017年12月1日【AWS re:Invent 2017】新サービス「Amazon Translate」が発表!
- AWS re:Invent 20172017年12月1日【AWS re:Invent 2017】新サービス「AWS Cloud9」が発表!
- AWS re:Invent 20172017年11月30日【AWS re:Invent 2017】新サービス「Amazon Transcribe」が発表!
- AWS re:Invent 20172017年11月30日【AWS re:Invent 2017】新サービス「Amazon Comprehend」が発表!