Quantcast
Channel: scikit-learn - 盆暗の学習記録
Viewing all articles
Browse latest Browse all 80

scikit-learnメモ:サンプルデータセットの読み込み方

$
0
0

機械学習を使うための処理の書き方を勉強する上でお世話になるのがサンプルデータセットですが,

scikit-learnはRとは読み込み方が異なって面倒くさかったため,メモしておきます。

iris データセット

定番のirisデータを例にしてみます。

Rだとdata(iris)あるいは単にirisで済みますが,sklearnでは以下のように書きます。

from sklearn import datasets
import pandas as pd

iris = datasets.load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)
iris_df['Species'] = iris.target_names[iris.target]

あるいは,こう書きます。(読みやすさを捨てて少ない行数で書く場合の例)

from sklearn import datasets
import pandas as pd

iris = datasets.load_iris()
iris_df = pd.concat([pd.DataFrame(iris.data, columns = iris.feature_names), pd.Series(iris.target_names[iris.target]).rename('Species')], axis=1)

これらのコードによって,Rのdata(iris)と同様に,扱いやすいデータフレームの形でデータを取得できます。

In [16]: iris_df.head()
Out[16]: 
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \05.13.51.40.214.93.01.40.224.73.21.30.234.63.11.50.245.03.61.40.2   

  Species  
0  setosa  
1  setosa  
2  setosa  
3  setosa  
4  setosa  

ざっくりまとめるとこんなかんじ。

  • sklearn.datasets.load_**():データの読み込み
  • data.data:説明変数
  • data.feature_names:説明変数の名称
  • data.target:目的変数
  • data.target_names:目的変数のラベル(カテゴリカル変数のラベル)
  • print(data.DESCR):データセットの説明

data['target']のような書き方も可能

参考


Viewing all articles
Browse latest Browse all 80

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>