AI勉強での恥ずかしい勘違い(3)


背景

  • 画像分類AIを勉強するためにMNIST(エムニスト、手書き数字)データをダウンロードして初めて見た(表示した例)時は、カクカクした解像度の低い文字を見て、こんな分かりにくいデータよりもっとはっきりしたデータの方がいいんじゃないかなと思った。それに、表示してみると黄色の文字になっていて、何だか気持ちが悪いと感じた
  • MNISTのデータって
    • 何だかカクカクしているな
    • 黄色なんだ。変なの

勘違いしたこと

データが古い

  • 解像度で新しいかを判断
    • カクカクしたデータは解像度が低い
    • 最近のスマホの写真はなめらかで解像度も高い
    • あんな粗い画像もってる人なんてめずらしい
  • 古いデータを使う理由
    • AI研究は昔から行われている
    • 基礎の部分は古くて当時の(解像度の低い)データを使っている
    • 最近では手書き数字なんて集めている人なんていなくてそれを使うしかない

まだまだAIは人間に追いつけない

  • せめて白黒
    • 変なカラーデータにせず、白黒にすればいいのに
    • カラーを黄色を選ぶなんて趣味が悪いがきっとAIには分かりやすい
  • カラー画像が読めない
    • 人間にとって分かりにくい色の画像使うのはAIが人間に遠く及ばないから
    • きっとAIに画像を分析させるなんて、そんなにうまくいっていない
    • 最先端の技術なら、もっとかっこいいデータ使うと思う

わかったこと

  • 解像度はわざと落としている(28 x 28 = 784)
    • スマホの画像は1,000 x 1,000 = 1Mpx以上(メガピクセル)
    • 解像度が高いと画像1枚当たりのサイズも多くなる。AIに読み込ませる画像サイズが大きいと、その分時間がかかるし、必要になるメモリ数も増える
    • AIの学習に使用するMNISTデータは6万枚。やっぱり1枚当たりは小さい方がいい。このサイズでも500MBぐらいあった
    • GPUのような高価な計算資源は簡単に利用できない。ノートPCぐらいの計算リソースでもAIプログラミング実行が試せるのはとてもありがたいことだった
  • カラーは2色だった
    • 一般的な2色表示は白黒だけど?
      • 画像表示に使ったMatplotlibのデフォルト表示が白黒ではなく、紫と黄色だった
      • オプションのcmap="gray"を使うとちゃんと白黒に

参考記事紹介

  • MNISTがどんなデータなのか説明した記事
  • 概要
    • まずは言葉で説明。CSVデータでメモ帳などでも見れるデータ
    • MNISTデータを表示してみる
    • AI学習を試す場合にMNISTデータのよいところを説明


Posted by futa