日本語校正支援ツールを源流として進化してきた独自の言語処理技術
- キヤノンITソリューションズの“技術”
言語処理技術
生成AIの汎用的な能力を人間のアシスタントとして利用するためには、コンピュータに人間の言葉を理解させる自然言語処理技術が不可欠です。当社では以前から独自に言語処理技術に取り組み、さまざまな製品を生み出してきました。他社の言語処理技術とどう違うのか、強みはどんなところにあり、どんな分野で活用されているのかをR&D本部言語処理技術部部長の白川理がご紹介します。
幅広く活用されてきた日本語校正支援ツール
キヤノンITソリューションズ株式会社
R&D本部
言語処理技術部 部長
大阪大学 大学院情報科学研究科 非常勤講師
白川 理
Osamu Shirakawa
言語処理技術とは、コンピュータが人間の言語を理解して処理できるようにする技術であり、AIの分野の一つとして位置付けられてきました。カナ漢字変換や情報検索、機械翻訳など多くの人が日常的に利用するPCやスマホのアプリの中でも活用されています。私が言語処理技術と関わるようになったのは、旧住友金属工業時代に手がけたセキュリティ製品の開発がきっかけでした。
当時、新規事業のアイデアとして、メールの文面をチェックする製品を開発しようということになり、元々あった言語処理のチームと協力して開発に取り組みました。当時、住友金属工業では事業の多角化のためにソフトウエア事業に取り組んでおり、その一つとしてDTP製品を開発し、大学や他企業との共同研究を行い言語処理技術にも取り組んでいました。その一環で日本語の校正支援機能を搭載していましたが、この日本語校正支援ツールの分野で当社は強みを発揮します。研究レベルでは多くの企業が取り組んでいましたが、そんな中で当社だけが当時利用されていたPCのような限られたリソースでも動かすことができる、一般ユーザー向けの日本語校正支援ツールを開発して商品化することができたのです。
当社の日本語校正支援ツールは当時のMicrosoft Wordにも搭載され、新聞社などには各社のルールに対応したカスタマイズされた文章校正支援ツールを提供しました。そして、少ないリソースで実用的に機能する言語処理技術は、企業が送受信する大量のメールの解析にも応用できました。この技術をセキュリティに生かしたのが、私たちが開発した「GUARDIANWALL」です。
言語処理技術が変えたセキュリティの世界
「GUARDIANWALL」シリーズは、従業員の電子メールをフィルタリングしたりアーカイブしたりするツールです。「GUARDIANWALL」には、情報漏えいや誤送信を防止したり、情報漏えい事故が発生したりした際に調査するために、高速パターンマッチや個人情報検索、全文検索、類似文検索といった数々の言語処理技術が応用されています。
「GUARDIANWALL」のリリースは1999年です。当時はこのような仕組みを持ったセキュリティ製品は他にありませんでした。現在では当たり前の内部統制やコンプライアンス等の意識に乏しく、今ほど情報漏えい対策という観点がなかったと思います。技術的なハードルもありました。当時の一般的に運用されていたメールサーバーの能力ではメールの中継だけでなく文章までリアルタイムに解析させるのは難しかったのですが、当社には日本語校正支援ツールで培った高速にテキスト解析を行う技術力がありました。
旧住友金属工業時代からUNIX/Linuxの技術者が多くいたことも追い風になりました。「GUARDIANWALL」は国産のセキュリティ製品の草分け的な存在であると共に、Linux用商用ソフトウエア製品としても最初期のものだったのです。現在では企業のセキュリティの意識も高まっているために、「GUARDIANWALL」の競合製品も増えてきました。それでも「GUARDIANWALL」は国内ナンバーワンのシェア*を誇っています。
* 株式会社富士キメラ総研 『2023 ネットワークセキュリティビジネス調査総覧 市場編』、メールフィルタリングツール部門
言語処理技術の応用範囲が拡大
現在は、企業内で取り扱う情報の量が爆発的に増大しました。しかも情報の多くは言葉として表現されています。企業内情報を利活用したり、大量の情報から有益な知識・ノウハウを抽出したりする目的にも言語処理技術が応用できます。当社は企業内情報検索システムやテキストマイニングツールを開発し、コンタクトセンターの膨大な顧客対応の分析などに活用しています。言語処理技術は、単にテキストを処理するだけでなく、利用者にとって有益で意味のある情報を取り扱う方向に応用範囲が広がってきています。
従来、テキストをコンピュータで処理する場合は、単語はただの記号でしかなく特に意味を持ちません。構文解析で文中の単語間の構造を処理し、辞書と照合することで意味を取り扱う処理を構築していきます。また、深層学習を用いた言語処理では単語をベクトル化して扱います。単語に意味を持たせ、単語同士の意味の近さをベクトルの類似度で表すことができ、意味の合成や単語間の構造の取扱いをベクトルの演算として実現できます。さらに、機械学習技術の進展により、大量のデータを現実的な時間内で学習することも可能になってきました。生成AIの一つであるChatGPTやGPT-4などは以前では考えられなかったような膨大なデータを学習することにより、汎用的な課題処理能力を持ち、言葉の意味を理解しているかのような振る舞いを見せます。
生成AIを活用するため従来技術との連携
現在生成AIが非常に注目されています。特に大規模言語モデル(LLM)は言語処理技術の今後にも大きな影響を与えるでしょう。これまでは、言語処理技術の開発は常に地道な努力が必要でした。用途ごとに複雑な解析ルールや辞書を作るにしても大変な労力がかかっていました。しかし汎用的なLLMがクラウドサービスとして提供され、APIで必要な機能を手早く試すことができるようになったことは、大きなパラダイムの変化だといえます。
例えば、これまで手作りで取り組んできた実証実験をLLMで構築されたAPIを利用して実施できるようになれば、いろいろなビジネスのDXのスピードが加速するのは間違いないでしょう。しかし、LLMは万能ではなく、その動作原理が明確には解明されていません。ビジネスシーンで厳密な結果を求めるケースなどではそのまま活用できないという指摘もあります。
だからこそ、生成AIの特性・メリットを正しく評価して、従来の技術も合わせて使っていくことが必要になります。例えば、今まで日本語を英語に翻訳したり、長文から要約文を作成したりするような処理では、出力される文章の品質を高めるためには莫大なコストがかかってしまい、個別に構築することは非常に困難でした。生成AIを使うことで、ある程度の品質の出力を比較的低コストで得られる可能性があります。これは生成AIの特徴を生かした使い方といえるでしょう。
さらに生成AIの世界では言語だけでなく、映像や音も同じように扱えるマルチモーダルのAIが登場しています。コンピュータの入力や出力のあり方は大きく進歩しました。その領域でも当社は強みを持っています。AIの活用は業務の効率化や人材不足対応の決め手です。今後の当社の展開にご注目ください(談)。
※ 記事中のデータ、人物の所属・役職などは、記事掲載当時のものです。