テクニック

なぜ教師データをたくさん用意しないとけないのか

こんにちは田中です。気づいたらもう11月も下旬、寒くて身体が固まりますが、体操でもして温めていきましょう。

EasyInspector2のAI機能をご案内することが多く、検証をさせていただく中でAI(ディープラーニング)について理解が深まってきました。

なんとなく教師データは多いほうが精度が上がる気はしますが、なぜ教師データが多いほうが良いのか説明してみたいと思います。

AIは最初は赤ちゃんのようなもの、そこからデータを食わせていきどんどん賢くしていく…というイメージの話はよくされます。人間と一緒か!と思いますが、ここで正しいイメージを掴むことが重要です。

SNSを見ていたら、自分で自分の髪の毛を引っ張って泣いている赤ちゃんの動画が流れてきました。赤ちゃんは髪を引っ張ったら痛いということをまだ分かっていないようです。

AIくんもそんな感じで、最初は何が何だか何も分かっていないのです。

実際の検証の例を挙げてみます。

とある部品をカメラで写してみました。この印字の欠けを見たいです。

不良品を撮影・アノテーションします。一番左のLが欠けています。

こちら側からするとLが欠けた画を覚えさせたので左だけでなく右のLの欠けも見つけてほしいところです。

しかしAIくんは右のLの欠けは見つけてはくれなかったのです…。

私たち数十年生きている人間からすると、この不良品を初めて見た時でも印字があってそれがかすれて欠けているのが不良なんだな、と説明されなくてもなんとなく察することができます。

それは私たちは既に「印字」というのは欠けずにしっかりと全部印刷されているもの、欠けているのはよくないことという認識があるからなのです。

AIくんは本当に赤ちゃんなので、そういった当たり前に思えている認識なんてものもまるで無いのです。そもそも印字も欠けも何も知りません。

そのため左のLの欠けを囲ったデータのみで、右のLが欠けたデータが無い場合、たとえその欠けを「欠け」という名前をつけて教えたとしてもAIくんは暗いかたまり(印字のこと)にギザギザした明るい小さなかたまり(欠けのこと)が登場すると「欠け」なのか、と認識していないのかもしれないのです。「欠け」というのは画面の左側にあるのかな?と思ったりしているかもしれないのです。明るさや角度など、思いもしない他の情報に引っ張られている可能性もあります。

そういった場合に教師画像で検査してみたら欠けを見つけられるのに、実際に撮影してみると見逃してしまうということが起きてしまうのです。

そうならないためにはどうしたらいいのか・・・→教師画像をたくさん用意する ことにより解決できます。

AIくんにも私たちの認識と同じように「欠け」を認識してもらうために、あらゆる箇所、あらゆるパターンの欠けを撮影します。照明を使用しない場合は時間帯によって色味が変わる可能性があるので明るさを変えて水増しをしてみたりし様々なデータを用意します。

こうすることによりAIくんも人間と同じように「欠け」というのは「暗いかたまり(印字のこと)にギザギザした明るい小さなかたまり(欠けのこと)が登場すると「欠け」」なのかと認識してくれるようになるのです。

私たちは長い成長の中で「欠け」や「キズ」や「打痕」など、既になんとなく認識があります。生まれたての赤ちゃん、AIくんに短時間でそれと同じ認識をさせるにはそれなりのデータが必要になってくるということです。

コツを掴んで覚えさせていけば検査の自動化の可能性が広がります!ぜひお気軽にお問い合わせください。

アノテーションに関しては過去の記事で詳しく説明しています↓

関連記事

TOP