ホーム > トピックス > コラム > シニアアプリケーションスペシャリストによる「技術トレンド情報」(第21回)
AI技術について その1 [2020.10.30]
  • コラム

シニアアプリケーションスペシャリストによる「技術トレンド情報」(第21回)
AI技術について その1 [2020.10.30]

AI技術

昨今、業種を問わず、新たな取り組みや改善対策に、AI技術の活用が定番となりつつあります。特に画像データに対応するAI技術は、ディープラーニングの出現、GPU等ハードウェア面での高速化、さらにソフトウェア側のライブラリ化やツール化が加速し、目視検査の代替としてインライン化も進められてきました。今回は、マシンビジョンで活用される画像データに対するAI技術についてご紹介いたします。

AI技術について

ディープラーニングについて

ディープラーニングについて(図1)

画像を拡大する

”AI(人工知能)”とは、その言葉自体は、人知を超える目指すべきものを指し、その過程で生まれている技術(ディープラーニングなどの技術)は、”AI技術”と呼ばれています。
AI技術の基本構造は、ニューラルネットワークと呼ばれる脳の神経回路を模した分析モデル(ニューラルネットワーク)で、学習と推論を行い、データの分類、認識、生成を行うものになります。ニューラルネットワークは、入力層、中間層、出力層をそれぞれ1層づつ持つシンプルなモデルをいい、中間層を複数構造にすることで、より高度な認識性能を備えたモデルをディープラーニングと呼びます。

AI技術はディープラーニングの出現により飛躍的に向上し、活用領域が広がり、現在では、用途別に最適化された多数のディープラーニングが作られています。代表的なディープラーニングには、次の4つのモデルがあります。

1つ目は、RNN(Recurrent Neural Network) で、音声認識、外国語翻訳など自然言語処理向けのモデルになります。
2つ目は、DQN(Deep Q-Network)で、自動運転技術、AlphaGo(アルファ碁)などで活用される強化学習のモデル。
3つ目は、Googleの猫で有名になったGAN(Generative Adversarial Network)で、画像生成、人工画像生成のモデル。
4つ目は、CNN(Convolutional Neural Network) で、本コラムが主題としている画像処理やマシンビジョンで活用されるもので物体検出や分類に特化したモデルになります(図1)。

CNNについて

CNNについて(図2)

CNNについて(図2)

画像を拡大する

CNN(畳み込みニューラルネットワーク)についても、目的に応じて最適化されたネットワークが多数準備されてきました。代表的なものとしては、 画像内から矩形領域で物体を検出する①物体検出(ClassNet)、画像内から種別に矩形分類を行う②物体分類(DeNet)、画像内のキズやムラなど画素単位で種別分類を行う③画素分類(SegNet)、3D画像データから3次元物体を検出する④3D認識(3DNet)、画像内の人物など姿勢を検出する⑤ポーズ認識(⑤PoseNet)が挙げられます。さらに細かくは、各分野ごとに派生や改良が加えられ数多くのアーキテクチャー(YOLO、ResNet、VGGなど)が開発されています。

物体検出

物体検出(ClassNet)(図3)

画像を拡大する

①物体検出(ClassNet)例えば、人が段ボール箱を識別する場合、過去の経験で学習した段ボール箱というイメージと比較し判断します。
図3のように、ClassNetで認識する場合、実際に搬送される様々な状態の段ボール箱を撮像し、学習し、推論モデルを生成します。新たに撮像した画像は、可能性が高い領域は高輝度(明るい)、可能性が低いところは低輝度(暗い)と重みがつけられ、その重み画像をもとに位置が抽出されます。
学習に用いる画像データ数は、姿勢や状態の異なる画像をラベル付けを間違えずに100枚程度準備する必要があります。ラベルを間違えずにというのは、例えば、正常品を撮影した画像は正常画像とラベル付けをし、異常品を撮影した画像は異常画像とラベル付けをするという当然のことですが、正常画像の中に異常部位が含まれているような状態で、その領域を異常とラベル付けをしないと、全部が正常と学習されるため注意が必要となります。

物体分類

物体分類(図4)

画像を拡大する

②物体分類(DeNet)は、①物体検出を複数種類に対応したものなります。画面内から複数種類の対象画像(矩形領域で囲んだ画像)を背景と区別し、検出します。図4のように、画面内の人や車やバイクをそれぞれ分類し、位置を検出します。こちらも、学習に用いる画像データ数は、姿勢や状態の異なる画像をラベル付けを間違えずに、分類を行うため種別ごとに100枚程度準備する必要があります。 図4の車載カメラの検出事例では、約80万枚の画像で学習しています。遠近の違いがある中、人、車、自転車を的確に分類しています。

今回のまとめ

今回は、AI技術及び、画像処理で活用されるCNN(畳み込みニューラルネットワーク)について解説致しました。CNNについては、代表的な5つのモデルのうち、2つのモデル「物体検出」と「物体分類」をご紹介しました。次回は、続けて、残り3モデルについてご紹介します。

 

筆者紹介

シニアアプリケーションスペシャリスト 稲山

稲山 一幸(いねやま かずゆき)

エンジニアリング事業 シニアアプリケーションスペシャリスト

1992年住金制御エンジニアリング入社、Matrox社製品の国内総代理店立ち上げに参画、以降25年マシンビジョン業界に携わる。
2013年~2016年、キヤノン株式会社にてマシンビジョン関連の新製品開発のソフトウェアリーダとして従事。現在は、エバンジェリストとして活躍中。

関連するソリューション・製品

ホーム > トピックス > コラム > シニアアプリケーションスペシャリストによる「技術トレンド情報」(第21回)
AI技術について その1 [2020.10.30]