Amazon Transcribe と Amazon Comprehend で”疑似”議事録を作成する

議事録

はじめに

Amazon Transcribe と Amazon Comprehend を使用して、会議の疑似的な議事録を作成してみようと思います。

今回の検証をするにあたり、用意するものは以下の一点です。

  • 会議の音声データ
    • 対面でのオフライン会議であればレコーダーを用い、zoom 等オンライン会議であれば会議全体を録画して音声ファイルに変換しておきます。

次に、今回使用する各サービスの概要です。

Amazon Transcribe

AWS が提供する自動音声認識サービスです。音声を解析し、テキストデータとして出力することができます。話者ごとにラベルを設けたり、機密情報がある場合はマスキングも可能です。

Amazon Comprehend

AWS が提供する自然言語処理サービスです。構文解析やキーフレーズ抽出、言語解析や感情分析等、多様な機能を利用することができます。

手順

1. 会議の音声データを S3 へアップロードする

実際の会議の音声は使用できないので、今回は Amazon Polly というテキスト読み上げ機能を駆使し、それっぽいデータを作成しました。
アップロード後、音声ファイルの URI は後々使うので、メモとして控えておきます。

S3のコンソール画面

2. Amazon Transcribe でジョブを作成する

Amazon Transcribe のコンソール画面へアクセスします。
左のメニューから「トランスクリプションジョブ」を選択し、「ジョブを作成」を押下して設定へと進みます。

ジョブの設定は以下のようにします。

  • 名前
    • 任意です。わかりやすいものを付けます。
  • 言語設定
    • 自動識別も使用できますが、今回は言語がわかっているので「特定の言語」を選択します。
  • 言語
    • 「日本語」を選択します。
  • モデルタイプ
    • 「一般的なモデル」を選択します。
  • 入力データ
    • 先ほどメモした音声ファイルの URI を入力します。または「Browse S3」で直接ファイルを選択することもできます。
  • 出力データ
    • 音声の解析結果を格納するバケットを選択します。どちらでも構いませんが「サービスマネージドS3バケット」を選択した場合は有効期限切れになるとファイルが削除されるため、注意が必要です。
  • タグ
    • 任意です。

ここまで入力したら「次へ」を選択します。

以下のように設定します。

  • 音声識別
    • 会議の参加人数がわかっている場合は、音声識別を利用して話者のパーティショニングを行います。これにより、実行結果に話者ごとの値を持たせ、区別することが可能です。今回は3人で会話をしているデータを使用しているので「3」で設定しています。

今回は検証なので、プライバシールールに基づく設定や、特定の情報に対するマスキングは行っていませんが、気密性の高い会議では利用してみるのも良いかもしれません。
すべて入力出来たら「ジョブを作成」を選択します。

ステータスが完了になると、以下の結果が閲覧できます。

トランスクリプションの結果です。

出力データの場所を「サービスマネージド S3 バケット」にしていた場合のみ、トランスクリプションのプレビューで音声データの文字起こしの他、音声識別の結果や字幕を閲覧することができます。

音声識別の結果です。

単語の識別や話者の区別については少々誤りが見られますが、内容としては十分に使える程度の差異かなと思います。
※今回は単語を丁寧に発音しつつハキハキと喋ってくれる人工音声を使用しているので、実際の人間の声を使うと結果が異なるかもしれません。

次からは、上記の分析結果を使用して議事録を作っていきたいと思います。

3. Lambda を使用して議事録を作成する

Lambda 関数を作成する前に、出力データの場所を「サービスマネージド S3 バケット」にしていた場合は「トランスクリプションのプレビュー」から実行結果の JSON ファイルをダウンロードし、任意のバケットに格納しておきます。
※出力データであらかじめバケットを指定していた場合、この作業は必要ありません。

関数作成後、以下のコードをデプロイします。
ランタイムは Python 3.12 を使用しました。

バケットから出力データを読み取り、議事録に必要な項目を取り出した後、マークダウン方式でテキストファイルを作成し、S3 に配置するという仕組みです。
処理を簡単に説明したいと思います。

日付の処理

議事録に記載する日付の処理です。会議当日に議事録を作成している、という想定で、出力データが S3 にアップロードされた日付を取得しています。

参加者の処理

AWS Comprehend のエンティティ分析という機能を使い、会議内容から「人名」のみを取得し「参加者」としています。

議題の処理

AWS Comprehend の構文解析という機能を使い、頻出する単語を特定し、議題として議事録に記載します。こちらの機能は現時点では日本語に対応していないため、AWS Translate を用いて一度文章を英語に翻訳した後に処理をしています。

懸念事項の処理

AWS Comprehend のキーワード抽出という機能を使い、会議内容からいくつかのキーワードを抽出します。さらに Comprehend でそのキーワードの感情を分析し、ネガティブと判断された単語を懸念事項として議事録に記載します。

議事の処理

会議内容を解析し、それぞれの話者が話している内容ごとに区分を設け、議事として記載をします。

また、権限は関数作成時に自動で付与される AWSLambdaBasicExecutionRole に加え、以下三つのリソースに対するアクションが許可されていれば大丈夫です。

  • S3
  • AWS Comprehend
  • AWS Translate

こちらの関数を用い、実際にマークダウン方式で出力された議事録が以下です。

4. 議事録

議事録

いかがでしょう。
それっぽい仕上がりになっているでしょうか。

まとめ

作っては見たものの、こちらを胸を張って議事録とするためには、更なる改良が必要そうです。
少し考えるだけでも、以下のようにたくさんの改善点が挙げられます。

  • 日付の融通が利かない
  • 会話中に人名が出てきた場合、問答無用で参加者として認識されてしまう
  • 構文解析を使用するために原文を翻訳をしているため、議題が元々のニュアンスと異なる

AWS Comprehend の構文解析が日本語に対応した際には、また手を加えて"疑似"議事録の精度を上げていきたいと思います。

最後まで目を通していただきありがとうございました。

投稿者プロフィール

omi
AWS の諸々について、初学者目線から書いていけたらいいなと思っています!