ホーム > 会社情報 > STIC×DREAM > Vol.07 > Pickup Solution

類似文書検索エンジン "DiscoveryBrain"

  • Pickup Solution

独自の類似文書検索機能で
目的の文書を素早く探し出す

文書のデジタル化が進むにつれて、企業内に分散格納されている大量の文書の中から目的のものを探し出すのが難しくなっています。その悩みを解決するのが、類似文書検索エンジン「DiscoveryBrain」です。利用者が欲しい文書と似た内容の文書をファイルサーバーやクラウドから探し出すことが可能となり、検索の効率が飛躍的に高まります。

特長

独自の自然言語処理技術を活用した文書検索
日本語に最適化した特徴語解析によって提示文書との類似度を自動的に判定
複数のファイルサーバーとSaaSを高速横断検索
SMB対応のファイルサーバー、Salesforce、SharePoint Online内の文書ファイルを素早く横断検索
WebアプリケーションやビジネスチャットとAPIで連携
企業独自のユーザーインタフェースとのAPI連携で優れた操作感

文書のデジタル化が進むと探し出すのが難しくなる

福田 直之、武知 憲彦

(写真左)
キヤノンITソリューションズ株式会社
デジタルビジネス統括本部
デジタルプラットフォーム開発本部
第三開発部 部長
福田 直之
Naoyuki Fukuda

(写真右)
キヤノンITソリューションズ株式会社
デジタルビジネス統括本部
デジタルビジネス営業本部
デジタルビジネス企画部
企画第一課 課長
武知 憲彦
Norihiko Takechi

業務に必要な文書をなかなか探し出せない――。デジタル変革(DX)が進むにつれて、このような悩みを訴えるビジネスパーソンが増えています。

その理由の一つが、企業内データの増加と拡散です。従来は紙に印刷されていた文書がデジタル化されることによって件数が爆発的に増え、格納先の場所も分散してしまいました。例えば、それぞれの部署で作成した文書は各部署に置かれたファイルサーバー、共通の一般文書はMicrosoft SharePoint Online、業務アプリケーションのデータはERPやCRMのSaaSに保存、といった具合です。このような状況になっている企業は多いのではないでしょうか。

その結果、問題が発生します。それは、検索にかかる時間と手間の増大です。同じキーワード(検索語)を使って格納先ごとに検索すればそれだけ時間もかかりますし、検索のための適切なキーワードを見つけ出すのにも時間がかかります。これでは、業務に必要な文書を素早く探し出すことはできません。

自然言語処理技術を使って提示文書と似たものを検索

「ビジネスパーソンのこのような悩みを解決できるのが、キヤノンITソリューションズが開発した類似文書検索エンジン『DiscoveryBrain(ディスカバリーブレイン)』です」

こう語るのは、デジタルビジネス営業本部 企画第一課 課長の武知憲彦です。DiscoveryBrainには文書分類・検索エンジン、標準クローラー、システム連携APIの3要素が含まれており、SI開発と組み合わせて導入していただく方式になっていると説明します。SI開発でカバーできるのは、独自ユーザーインタフェースの作成、クローラーのカスタマイズ、検索精度のチューニングなどがあり、お客さまが希望される使用目的に合わせて、幅広く対応することができます。

DiscoveryBrainでは、一般的なキーワード検索(完全一致、部分一致、あいまい検索、絞り込みなど)に加えて、「提示した文書と似た内容の文書はないか」を問い合わせる類似文書検索も行えます。具体的には、Webアプリケーションやビジネスチャットなどのユーザーインタフェースを通じて提示文書をアップロードすると、ファイルサーバーやクラウドにある類似文書の一覧が回答として返される仕組み。キーワードを1つ1つ入力する必要がなく、検索条件が複雑な場合も操作は容易です。

キーワード検索と類似文書検索のどちらでも、対象となるのはMicrosoft Wordの文書、Microsoft Excelの表、Microsoft Power Pointのプレゼンテーションデータ、PDF文書(テキストを含むもの)、テキスト文書のそれぞれ。格納場所はSMB対応のファイルサーバー、Salesforceの添付ファイル、SharePoint Onlineのいずれでもよく、指定した格納場所にあるすべての文書が検索の対象となります。つまり、格納先ごとに検索を繰り返す必要はありません。なお、SI開発をご用命いただければ、文書の種類や格納場所として企業独自のものを追加することや、その企業独自のアクセス制御を組み込むことも可能です。

DiscoveryBrainのこの検索機能には、キヤノンITソリューションズが長年培ってきた自然言語処理技術とElasticsearch株式会社の全文検索エンジン「Elasticsearch」の2つの技術が組み込まれています。

デジタルプラットフォーム開発本部 第三開発部 部長の福田直之は、「自然言語処理技術が生かされているのは、形態素解析に基づく単語への分解と品詞の判定、また、文書内に含まれる大量の単語から文書の特徴を示す“特徴語”を瞬時に特定する処理です」と解説します。さらに、カテゴリー(一般のタグにあたるもの)とルール(カテゴリー適用条件)の関係を導入時にあらかじめ設定しておけば、「キーワードは含まれていないが内容として類似した文書」をカテゴリーマッチで探し出すといった高度な検索も可能となります。

類似文書検索エンジン「DiscoveryBrain」の概要

類似文書検索エンジン「DiscoveryBrain」の概要

画像を拡大する

広い業種・業務で活用可能 今後AI技術を強化したい

汎用的な検索機能を備え、広範な文書を検索対象にできるDiscoveryBrainは、基本的にはあらゆる業種・業務で活用していただくことができます。ご提案機会を多くいただくのは、設計情報や技術情報を調べることが多い建設業や自動車製造業、製薬業での検索ニーズです。営業系では、顧客から受け取った提案依頼書(RFP)を基に、過去の案件情報を探すのに使うと便利でしょう。

DiscoveryBrainが登場したのは、2020年8月26日。すでに、機能拡張や利用者層拡大に向けた検討も始まっています。

機能拡張の焦点の一つは、急速に進歩しつつあるAI技術をいかに取り込むかという点にあります。DiscoveryBrainの開発チームを率いる福田は、「よりお客さまにご満足いただくため、検索精度を高めるチューニングの部分に機械学習(ML)を追加適用することを考えています」と説明します。

“軽量版DiscoveryBrain”を構想している武知も、「SI開発を前提とせず、お客さま企業の力だけで運用したいというニーズもあるはず。そのためには、一般的なアクセス制御機能を標準装備にしたり、検索用辞書のメンテナンスを支援する部分に深層学習(DL)を組み込んだりといった見直しをする必要があるでしょう」と語ります。

デジタル化された文書を効率的に検索できるようにして、ビジネスのスピードと質を高めていく――。DXを推進する企業にとって、DiscoveryBrainは欠くことのできない文書検索ツールとなるに違いありません。

DiscoveryBrainの詳細はこちら

※ 記事中のデータ、人物の所属・役職などは、記事掲載当時のものです。

ホーム > 会社情報 > STIC×DREAM > Vol.07 > Pickup Solution