このページの本文へ

「生成AI導入の知見」
生成AIによる「VOC自動分析」の裏側に迫る!レポート生成のポイントを紹介
テクニカルレポート

公開日:2025年8月27日

R&D本部 言語処理技術部 ITアーキテクトの進です。
前回の記事「汎用AIだけでは足りない?VOC分析「業務特化型」のシステム開発」では、業務に生成AIを導入する背景や考え方について紹介しました。今回はその続編として、「生成AIによるVOC(Voice of Customer、お客さまの声、以下VOC)分析」の裏側を、技術的な視点から紹介します。
「生成AIにVOCを分析させる」と聞くと簡単に思えるかもしれません。しかし、実際に開発を進める中でAIが思い通りの出力をしてくれない場面が多く、さまざまな試行錯誤と工夫を重ねる必要がありました。この記事では、分析レポートの生成において私たちが実際に工夫したポイントを紹介します。

生成AIによる分析処理は3ステップ

生成AIを利用した分析レポートの作成において以下3つの処理を行いました。

  • 話題抽出:VOCの文書データにどのような話題が含まれているかを洗い出す
  • 話題分類:各文書がどの話題に関連しているかを判定する
  • 要約:話題ごとの意見や要点をまとめる
生成AIによる3つの分析処理ステップ

この結果、3ステップそれぞれに生成AIならではの課題を見つけることができました。ここからは、どのような課題を見つけたのか、その課題にどう対処したかについて、文書データの前処理と各ステップの処理に施した工夫とその結果を説明します。

前処理 文書からのノイズ除去

レポート作成のもととなる文書データの課題として、文書内容の複合性がありました。検証に用いたコールセンターの問い合わせ履歴データには、お客さまからの質問内容だけでなく、オペレータの対応内容など分析の目的から外れる情報も含まれており、分析のノイズとなりました。例えば対応内容が含まれることで、ほとんどの文書が「サポート対応」の話題に分類されるという望ましくない結果になりました。
そこで私たちは、問い合わせのタイトル(件名)を事前に生成AIで抽出し、そのタイトルのみを話題抽出/分類の対象とする方法を取り入れました。この工夫により、分析目的に合致した話題や分類結果を得られるようになり、さらに全文よりも短いタイトルのみを処理対象とすることでトークン数を削減し、生成AIの利用コストも抑えられるという副次的な効果も得ることができました。

話題抽出 集約方法の工夫

話題抽出フェーズでは、生成AIに大量のデータを一度に投入することができないため、データを小分けにして複数回に分けて処理をしています。例えば1万件の文書データがあるときに、50文書ごとのデータバッチに分けて話題抽出を200回行うような方式です。文書データ全体の話題を得るためには、データバッチごとの話題抽出結果を集約する必要があります。
当初は「前回の抽出結果に少しずつ追加していく」という集約方法を試しましたが、この方法では同じ話題が何度も重複して出力されるなど、話題抽出結果が不安定になることが判明しました。そこで集約方法を変更し、「データバッチごとに独立して話題を抽出」して最後に一括で集約する方法を採用したところ、出力の安定性が向上しました。

文書データ全体の話題抽出方法

話題分類 不安定さを多数決で補正

話題分類フェーズでも、生成AI特有の癖に対応する必要がありました。検証を進めていく中で、生成AIによる分類は文書入力順のようなわずかな入力の差異により、文書が話題に分類される/されないという不安定さがあることが分かりました。
この不安定さに対応するため、多数決による補正を導入しました。文書の入力順を変更しながら3回分類を行い、そのうち2回以上で一致した分類結果のみを正解とみなすというルールを設けることで、誤分類を減少させることができました。

要約 全文を使い十分な情報を与える

要約フェーズでは、話題抽出や話題分類とは逆に、タイトルだけでは情報が不十分であると判断しました。例えば「ネットワーク接続問題による印刷不可」というタイトルだけを生成AIに与えても、印刷不可になる原因を要約中に含めてもらうことはできません。
そこでこのフェーズでは、生成AIに問い合わせと対応の細部まで把握してもらうために、文書全体をそのまま生成AIに入力しています。この手法により、印刷不可になる原因など、話題に関して意義のある情報が要約結果に反映されるようになりました。

生成AIの特性を理解して効率的な利活用につなげる

現時点の生成AIは、ただ使えば何でも思い通りにやってくれる万能ツールではありません。AIの特性や出力の癖を理解しながら、時には試行錯誤を繰り返し、業務目的に即した設計を行うことが必要です。
キヤノンITソリューションズは、生成AIの持つ力を最大限に活かして業務に適用するための研究開発に取り組んでまいります。

筆者紹介

写真:キヤノンITソリューションズ 進 義治

進 義治

R&D本部 言語処理技術部所属。自然言語処理を応用した研究開発に従事。大規模言語モデル(生成AI)/検索/テキストマイニングなどの技術を利用したシステム開発に取り組む。