ディープラーニング:【画像認識】と【物体検出】
はじめに
- 画像認識と物体検出
- どちらもAIの画像処理で行いたいタスク
- 自然言語処理と比較するとアプローチが異なる
- 補足
- ミックスすることもある
- 例えば
- 画像を見て何が映った画像か説明するタスク
- 画像を理解した後、文章にする(自然言語処理)
- image-caption
- image・・画像
- caption・・名前つけ
- 参考
- 自然言語処理について説明した記事
- ディープラーニング:自然言語処理(NLP)について
画像分類
どんなタスク?
- 入力された画像が何かを答える
- 教師あり学習
- 学習させたいことを人が決める
- 学習させた通りに”分類”する
- 例
- 花の名前を解答するAIを作るとして、50種類(人が決める)の花の画像を使ってAIを学習させる
- 一般に想像するのは、
- 人:「この写真に写っているのは何ですか?」
- AI:「ラベンダーです」
- 実際は
- 人:(あるフォルダに分類させたい画像を置いて)AIプログラムを実行
- AI:画像毎に「30」「2」「7」・・と画面に表示
- 一般に想像するようなAIにしたいなら、次のようなアプリを作る
- ここに写真をアップロードしてくださいと指示する画面
- AIプログラムにアップロードした写真を分析させて(AIプログラムの実行)
- 戻り値が「30」だったら、画面に「ラベンダー」と表示する
- 画像分類タスク
- 入力:画像
- 出力:数字(分類した結果)
- 人が決めた(例えば50種類の花の名前)種類以外を答えることはない
タスクの例
- 手書き数字が何かを答えさせたい
- 0~9の数字に”分類”
- 花の種類を見分けたい
- 指定した花の種類に”分類”
- 動物の名前を答えさせたい
- 指定した動物の名前に”分類”
モデル
- ResNet
- EfficientNet など
物体検出
どんなタスク?
- 入力された画像から物体を検出して囲む
- 教師あり学習
- 検出させたい物体が映っている画像が学習データ
- 物体が映っている位置を矩形で囲む
- 画像から物体を探して検出することを目指す
- 検出した物体が何も分類する
- AIが何を検出したものを何だと思っているか
- もし犬を人だと言っているのなら、物体を囲っていたとしてもまだまだ精度がよくない
- 物体検出タスク
- 囲んだ場所以外の画像は不要な情報
- AIが画像のどこかに注目できていることになる
- 例えば、
- 人は写真見て「かわいいネコだね~」と注目する場所を無意識に見ている
- 一緒に映り込んだソファー、花や石に注目したりしない
モデル
- R-CNN
- YOLO など
