田中 靖大

  • 認定スペシャリスト

日本語処理技術で30年以上

田中 靖大

キヤノンITソリューションズ株式会社
R&D本部
言語処理技術部
田中 靖大
Yasuhiro Tanaka

「キヤノンITS認定スペシャリスト」は昨年から始まった新しい制度です。特定分野における高いスキルを保有し、社内外に向けた活動を通して当社のプレゼンスを向上させると共に、中堅・若手社員に対するロールモデルとなる人材が、現在8人認定されています。その1人がR&D本部言語処理技術部の田中靖大です。当社における日本語処理技術の中核人材であり、多くのパッケージソフト商品の開発に関わってきました。

田中が言語処理技術に取り組み始めたのは、今から約30年前のことです。「大学生のときに第2次AIブームがあって、言語処理も面白そうだと思って研究室に入りました。そこで住友金属工業と共同で行っていた研究開発を担当することになり、そのプロジェクトを持ったまま入社しました」(田中)

入社後に製品化したのが校正支援システム「SpellViser(スペルバイザー)」です。誤字・脱字をはじめ、送り仮名、同音語、商標・商品名など13項目についてチェックする機能を持ち、マイクロソフトのWordのアドオンとして提供されていました。Windowsの普及とともに、やがて製品版に組み込まれるようになりました。

SpellViserで培われた高速な辞書検索技術や日本語処理技術は、その後、メール誤送信対策や情報漏えい対策、アーカイブのツールである「GUARDIANWALL(ガーディアンウォール)」シリーズに受け継がれていきました。

あらゆる場面に応用できる技術

言語処理技術の基本となるのは文章を解析して品詞を特定する形態素解析という技術です。それによって抽出した言葉に対して検索することで、テキストマイニングやSNS分析を行います。「重要なのは使い勝手を良くしながら、高速で処理できるようにすることです」と田中は語ります。

R&D本部では、高速パターンマッチング、分散全文検索、形態素解析、日本語校正支援、文書分類、評価表現抽出などの研究を行っています。これらの技術は、個人情報を抽出してフィルタリングをかけたり、評価表現からネガポジ分析をしたり、メールアーカイブを全文検索するなど、GUARDIANWALLシリーズのコア技術として利用されています。

最近ではAIの活用が大きくクローズアップされてきました。「これまで検索を中心に言語処理機能を提供してきましたが、対象となるデータが増大するとともに、AI的な要素も利用されるようになり、意味を含めて比較したり、特徴を分析したりするなど、違う見せ方ができるようになっています」と田中は現状を語ります。

実際に即した方法で技術を活用

言語処理技術のスペシャリストである田中のところには社内のさまざまなチームから相談が持ち込まれます。期待されているのは製品のコア技術を一緒に開発することです。田中は「いつも意識しているのは、頭でっかちになり過ぎないことです。論理に固執するのではなく、実際に即した方法で対応していきます」とスタンスを語ります。

「難しいのは、ターゲットがはっきりしていない曖昧な案件です。データが揃っておらず、見せ方も含めて目標レベルが見えないものもあります」と田中。メール関連の分野では個人情報が含まれ、データの取り扱いには慎重さが求められます。その場合には評価データを用意するところから始める必要があります。

プロジェクトの進め方として田中が意識しているのは、プロトタイプをつくるなど、できるだけ目に見える形にして、共通認識を形成しながら進めていくことです。「ここ5年でかなりアジャイル的な進め方にシフトしています。おかげで何を求めているのかがはっきりしますし、話も進めやすくなりました」(田中)

ある開発プロジェクトで求めている最終形が時代遅れになるのではと危惧した田中は、プロトタイプを作って別のやり方を提案し、現在その方向で商品化が進められています。技術の細かいところだけでなく、全体のコンセプトを見渡して筋を通していくというスタイルを重視しています。

田中は「研究開発では行き詰まることも多々あります。私自身はそれも含めて楽しむようにしてきました。泥臭い試行錯誤の連続ですが、ずっとやってきたので細かなテクニックはたくさん持っています。細かいことでも対応できますから、PoC(概念実証)など一緒にできそうな場合には声を掛けていただきたいですね」と話します。プロジェクトの中で日本語を扱うシーンがあったときには、田中のスキルが生かせるはずです。