機械学習ライブラリ(初級編)

 このページは『AI開発準備』の最後のページ「機械学習ライブラリ」の初級編です。AIモデルの学習に大量のデータを使用しますが、データセットとして簡単にかつ効率よくデータをまとめて扱います。その仕組みを実装しているのがフレームワークと呼ばれます。E資格認定試験のコード問題の出題もフレームワーク(PytorchまたはTensorFlow)がベースです(以前はスクラッチコードの時もあり)。ここにはデータセットを処理するpandas、sklearnとフレームワークのPytorchを載せています。それぞれに『チェック』としてキーワードを挙げましたので、知らないキーワードがあれば、各セクションにあるリンクから詳細を確認してください。また、画像データの特徴についても記載します。画像認識技術の発展によりディープラーニングが注目されるようになりました。

AI開発準備

『AI開発準備』に戻る>>

道具として利用するイメージをつかみます

データセット

Pandas

データを表形式に扱います。
CSVファイルから読み込みも可能です。

チェック
  • Series、DataFrame
  • loc、iloc、index
  • read_csv、to_csv

次項のsklearn下のリンクに使用例を記載しました。KaggleにあるTitanic(タイタニック)データをpandasでデータ加工しています。

sklearn

データをデータセットとして扱います。
サンプルデータセットを入手できます。

チェック
  • Datasets
  • KFold

 学習データを分割する方法です。pandasも利用しています。

「sklearn」ではデータセットを簡単に入手できる機能があります。手書き数字データセット(MNIST)sklearnでの利用手順を 『AI学習用データセットのいろいろな入手方法』 に記載しています。

フレームワーク

Pytorch、TensorFlow(Keras)

深層学習ライブラリフレームワークと呼ばれます。ライブラリと同じようにimportして使います。

チェック(Pytorch)
  • Tensor
  • DataLoader
  • Datasets
  • Transform
  • 自動微分

 Pytorchを紹介します。

画像データ

AIで処理する画像データ

画像データを読み込むと3次元テンソルになります。1~3それぞれの次元に意味があります。

特徴
  • 24ビット(256色)
  • 10進数表記、16進数表記
  • RGB、BGR

 画像データを詳しく見て、理解を深めます。

データセットの入手方法

AI学習にはデータセットが必要です。Pythonでの取り扱い方法も交えながら、MNISTデータの入手方法を紹介します。

 上記「sklearn」にて手書き数字(MNIST)の利用方法について触れました。MNISTの利用方法はデータをダウンロードするなど他にも方法があります。Pythonコードの復習もできるサンプルコードを記載しました。

『AI開発準備』に戻る>>

以上

Posted by futa