pandas

メモ_Pandasより速いpolars

Pythonでデータ処理を行う際の標準的なライブラリともいわれるPandasですが、最近、より高速なライブラリとして「polars」というのが、よく利用されているそうです。 使い方は簡単。試しにやってみました。 インストール おなじみのpipで。最初は実験用の仮…

メモ_Python-FlaskとMysqlで構築したWebアプリでデータ参照をpandasに変えて高速化

データを表示するFlaskアプリを作っていたところ、数万件程度のレコードであれば一瞬で終わるので問題ないのですが、レコード数が数百万件程度になってくると、Webページの最初の表示が4秒ぐらいかかるようになります。 数百万件レコードに対するsqlクエリー…

メモ_pipのlistをpandasで奇麗に表示

ちょっとしたtipsというか盲点というか、pandasを使ってpipのlistを奇麗に表示する方法。Jupyter notebookとかで使うと便利。 コード out = !pip list import pandas as pd # データフレーム表示オプション設定 pd.set_option('display.max_rows', None) # …

メモ_pandasのデータサイズと必要なメモリ容量、メモリサイズの削減について

pandasで特に何も考えずにデータを入れて展開していると、結構なメモリを消費します。 pandasのデータサイズと必要なメモリ容量ですが、pandasのデータフレームのサイズは、行数と列数によって決まり、データフレームの各列(カラム)のデータ型によって必要な…

メモ_カラムのずれたcsvをpandasに読み込んで、ズレを訂正して再保存してデータ全体をマージ

国土地理院-全国地名データ(位置参照情報)からダウンロードしてきたデータのうち、福岡県のcsvだけカラムがずれていてので、訂正して全国のデータとマージしてpandasに展開するまでの一連の作業メモ。 1. 福岡県のcsvデータのカラムずれを訂正 いったんcsv…

メモ_国土地理院-全国地名データ(位置参照情報)のcsvデータ(cp932で文字化けあり)をnkfでutf-8に変換してpandasに取り込むまで

日本の住所表記がヤバすぎる、という記事から 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに - ITmedia NEWS こちらの記事も見ていて 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita ちょっと興味がわ…

pandasのmean関数を利用する処理と、利用しない場合の速度比較

データ分析では定番のPython/Pandasですが、いろいろ便利な関数が最初から用意されています。以下はその一例。 sum(): 各列の合計値を計算します。 mean(): 各列の平均値を計算します。 median(): 各列の中央値を計算します。 max(): 各列の最大値を計算しま…