
機械学習ライブラリ(初級編)
このページは『AI開発準備』の最後のページ「機械学習ライブラリ」の初級編です。AIモデルの学習に大量のデータを使用しますが、データセットとして簡単にかつ効率よくデータをまとめて扱います。その仕組みを実装しているのがフレームワークと呼ばれます。E資格認定試験のコード問題の出題もフレームワーク(PytorchまたはTensorFlow)がベースです(以前はスクラッチコードの時もあり)。ここにはデータセットを処理するpandas、sklearnとフレームワークのPytorchを載せています。それぞれに『チェック』としてキーワードを挙げましたので、知らないキーワードがあれば、各セクションにあるリンクから詳細を確認してください。また、画像データの特徴についても記載します。画像認識技術の発展によりディープラーニングが注目されるようになりました。
AI開発準備
道具として利用するイメージをつかみます
データセット
Pandas
データを表形式に扱います。
CSVファイルから読み込みも可能です。
- Series、DataFrame
- loc、iloc、index
- read_csv、to_csv
次項のsklearn下のリンクに使用例を記載しました。KaggleにあるTitanic(タイタニック)データをpandasでデータ加工しています。
sklearn
データをデータセットとして扱います。
サンプルデータセットを入手できます。
- Datasets
- KFold
学習データを分割する方法です。pandasも利用しています。
「sklearn」ではデータセットを簡単に入手できる機能があります。手書き数字データセット(MNIST)sklearnでの利用手順を 『AI学習用データセットのいろいろな入手方法』 に記載しています。
フレームワーク
Pytorch、TensorFlow(Keras)
深層学習ライブラリやフレームワークと呼ばれます。ライブラリと同じようにimportして使います。
- Tensor
- DataLoader
- Datasets
- Transform
- 自動微分
Pytorchを紹介します。
画像データ
AIで処理する画像データ
- 24ビット(256色)
- 10進数表記、16進数表記
- RGB、BGR
画像データを詳しく見て、理解を深めます。
データセットの入手方法
AI学習にはデータセットが必要です。Pythonでの取り扱い方法も交えながら、MNISTデータの入手方法を紹介します。
上記「sklearn」にて手書き数字(MNIST)の利用方法について触れました。MNISTの利用方法はデータをダウンロードするなど他にも方法があります。Pythonコードの復習もできるサンプルコードを記載しました。
以上
