【pythonスクレイピング】pandasの基礎
pandasとは?
データ解析を支援する機能を提供するpythonのオープンソースライブラリです。
この記事は
・pythonはひととおり学んで、データ解析をやりたい人
に向けに書いてます。
pandasには
・DataFrame
・Series
があります。
DataFrameの特徴
・データを行列にして保存
・「値」「インデックス」「列」の二次元データで構成
・要素には文字列を入れることも可能
Seriesの特徴
・一次元データで「インデックス」をもつ
・要素には文字列を入れることも可能
データを行列として扱う
行は「横」のデータ
列は「縦」のデータ
pandasをつかってみる
事前に環境構築をしましょう。この先もいろいろなデータをあつかっていきたいなら、Anacondaをインストールすることをおすすめします。anacondaのインストール方法はここではふれませんので、こちらなどを参考にしてみてください。Anaconda で Python 環境をインストールする
anacondaターミナルでipythonを立ち上げる
numpyとpandasをインポートします。
numpyを利用して、配列データをつくります。
今、身長と体重をあらわすbodyというデータがあるとします。
このデータをpandasのDataFrameに当てはめてみましょう。
一般的に、dfという変数を用意して、そこにpandasのデータを定義していきます。pd.DataFrame(データ)で先ほど取得した身長と体重のデータをpandasのDataFrame形式に変換できます。
データが定義できたら、dfコマンドを打ち込みましょう。
すると、DataFrameが定義する形式である行と列のデータ形式に変換されていることがわかります。
2行4列の行列データが取得できました。
0行目が身長。1行目が体重を表します。
これではなんのデータを表しているかわかりにくいですよね。データを加工していきます。
df.columnsでpandasの列(columns)データにアクセスできます。
そこに名前データを入れてやると、列データに名前が反映されるようになりました。
では今度はおなじ要領で行データも変更しましょう。
df.lowsとやりたいところですが、こちらはdf.indexで行データにアクセスできます。
列データの変更をしてみましょう。
taro君をtoshi君に変更してみます。
名前の変更なので、df.rename()とします。()内には、変更したい列なのでcolumns={'変更前の名前':'変更後の名前'}を入力すれば、変更できます。
今回はここまでです。
もっとpandasについて学んでみたいひとは、
世界最大級のオンライン学習サイトUdemyから「Data Analysis in Python with Pandas」を探してみてください。
ではでは!