たのしい工学

プログラミングを学んで、モノをつくりたいひと、効率的に仕事をしたい人のための硬派なブログになりました

【pythonスクレイピング】pandasでデータ構造の確認

   

前回記事はこちらから

以下のようなコマンドでデータを準備します。
https://gyazo.com/bb2b638498c98aecaba9f12883a5db75

こんな結果が得られます。

https://gyazo.com/5d146c4cd9e5a087865f54dc4f3ada55

行見出しをあたえましょう
これは数学と英語のテストの成績なので、
https://gyazo.com/42c20d788a04f506889732b9bc968eb6

だいぶデータとしてみやすくなりました。

https://gyazo.com/61da02dc28a4e6842c933fec820a87eb

・type(df)
データ型を表示します。
・df.info()
データ構造の情報を表示します。

こちらの結果から、オブジェクト型のデータであることがわかります。これで基本統計量をだしてみましょう。
df.describe()とすると
https://gyazo.com/88cb0b5f66a321560951419eb05a0880
このような結果がえられます。もっと詳細なデータを得るためには、データ型をオブジェクト型からint型に変換します。
https://gyazo.com/c83ea24fe6db021ecc6fdafd2e984ef2
df = df.astype(int)としてデータを変換します。df.info()をみると、int型に変換されていることがわかります。ふたたび基本統計量を確認すると、
https://gyazo.com/d818641f7fb2757a8e27e0c4b870b47b

このように詳細なデータ得られました。

各データへアクセスするには、このようにします。
https://gyazo.com/afe4a919699649dadd4206648ba1433b
df.Aとしてもアクセス可能です
https://gyazo.com/d8dd019360892eb941bb9bf8db50dd2a
データ型をみると、series型であることがわかります。
https://gyazo.com/b50db11b1dcb589e0399117f3c1fc0f6
この要領で以下のようなコマンドがあり、さまざまなデータの取得が可能です。
https://gyazo.com/125c7d8b75645ff50cc938dbf3dd3db7

今回はここまでです。

もっとpandasについて学んでみたいひとは、
世界最大級のオンライン学習サイトUdemyから「Data Analysis in Python with Pandas」を探してみてください。

ではでは!

 - プログラミング系, python