ディープラーニング:【画像認識】と【物体検出】


はじめに

  • 画像認識と物体検出
    • どちらもAIの画像処理で行いたいタスク
    • 自然言語処理と比較するとアプローチが異なる
  • 補足
    • ミックスすることもある
    • 例えば
      • 画像を見て何が映った画像か説明するタスク
      • 画像を理解した後、文章にする(自然言語処理)
    • image-caption
      • image・・画像
      • caption・・名前つけ
  • 参考

画像分類

どんなタスク?

  • 入力された画像が何かを答える
  • 教師あり学習
    • 学習させたいことを人が決める
    • 学習させた通りに”分類”する
    • 花の名前を解答するAIを作るとして、50種類(人が決める)の花の画像を使ってAIを学習させる
    • 一般に想像するのは、
      • 人:「この写真に写っているのは何ですか?」
      • AI:「ラベンダーです」
    • 実際は
      • 人:(あるフォルダに分類させたい画像を置いて)AIプログラムを実行
      • AI:画像毎に「30」「2」「7」・・と画面に表示
    • 一般に想像するようなAIにしたいなら、次のようなアプリを作る
      • ここに写真をアップロードしてくださいと指示する画面
      • AIプログラムにアップロードした写真を分析させて(AIプログラムの実行)
      • 戻り値が「30」だったら、画面に「ラベンダー」と表示する
  • 画像分類タスク
    • 入力:画像
    • 出力:数字(分類した結果)
    • 人が決めた(例えば50種類の花の名前)種類以外を答えることはない

タスクの例

  • 手書き数字が何かを答えさせたい
    • 0~9の数字に”分類”
  • 花の種類を見分けたい
    • 指定した花の種類に”分類”
  • 動物の名前を答えさせたい
    • 指定した動物の名前に”分類”

モデル

  • ResNet
  • EfficientNet など

物体検出

どんなタスク?

  • 入力された画像から物体を検出して囲む
  • 教師あり学習
    • 検出させたい物体が映っている画像が学習データ
    • 物体が映っている位置を矩形で囲む
    • 画像から物体を探して検出することを目指す
  • 検出した物体が何も分類する
    • AIが何を検出したものを何だと思っているか
    • もし犬を人だと言っているのなら、物体を囲っていたとしてもまだまだ精度がよくない
  • 物体検出タスク
    • 囲んだ場所以外の画像は不要な情報
    • AIが画像のどこかに注目できていることになる
    • 例えば、
      • 人は写真見て「かわいいネコだね~」と注目する場所を無意識に見ている
      • 一緒に映り込んだソファー、花や石に注目したりしない

モデル

  • R-CNN
  • YOLO など


Posted by futa