Python
Pythonでデータ処理を行う際の標準的なライブラリともいわれるPandasですが、最近、より高速なライブラリとして「polars」というのが、よく利用されているそうです。 使い方は簡単。試しにやってみました。 インストール おなじみのpipで。最初は実験用の仮…
XserverVPSでPythonで書いたWebアプリをFlask+waitressで実行するまでの手順のメモです。 手順は以下の通りです。OSセットアップ直後の環境でスタートします。OSは Ubuntu 22にしています。 手順 sshでログイン。apt-get update を実行 apt install python3.…
吉凶数に続いて、任意の西暦年月日の数字の組み合わせで、縁起の良い数字あるいは悪い数字との関係性を探索するコード。単なるこじつけなので「こじつけ算」とでも呼ぼう。 コード: from itertools import itertools def decompose_number(number): return […
西暦年月日の各桁数を合計した数字を吉凶数というらしいです。完全にオカルトですが、そうはいっても、縁起の悪い数字は避けたかったり、逆に何か大事な数字を決める際は、一応、良いとされる数字にしてみたかったり。 ということで、暇つぶしに吉凶数を計算…
XserverVPSでは、「VPS管理」というコントールパネルから、OSやアプリケーションを再インストールができる。試しにDjangoでやってみた。 手順1: VPS管理からVPSパネルを開いてOS再インストールを選択 「電源操作」というところで、シャットダウンしないと「O…
Pythonでグラフ構造のダミーデータを生成しjsonで保存して関係図を描画するまでの一連のメモです。コード例も。 ダミーデータ生成: 以下のような仕様でダミーデータを生成します。 ノード : User_idエッジ : relative、friend、acquaintanceプロパティ : 氏…
Flaskアプリで、Mysqlと接続して情報を表示するという単純な処理で、DB接続のエラーハンドリングが失敗する。 mysql.connectorではなく、pymysqlライブラリを利用するようにしたら解消した。。。mysql.connectorとpymysqlを一緒に使うとダメなのかな。 mysql…
Pythonプロジェクトでソースコード群だけからrequirements.txtを生成する前準備のメモです。 githubなどからソースコードだけは取得できる状況で、手元には真っ新なPython環境しかなくて(出先で借りたパソコンで google colabとか)、requirements.txt なども…
Jupyter lab / notebook 上で、GUIで画像のフォーマット変換&リサイズを行うPythonコードです。たまに画像を扱う際、Jupyter lab / notebook の操作画面からできるだけ離れたくない場合などに使う想定です。 コード: import ipywidgets as widgets from IPy…
JupyterNotebookで処理時間が長いコードを実行する際、完了までどのくらいかかるか、どのくらい進行したかをリアルタイムでプログレスバーで表示したい場合、tqdmというライブラリを利用することができます。 pip install tqdm コード例: サンプルとして、My…
Flaskで構築したWebアプリに、DBから指定した範囲のデータをjson形式でダウンロードさせる処理を追加する際のメモ。 サンプルの仕様: id(連番)、prime_list(素列を格納)というカラムがあるDB(DB名はnuminfo、table名はrime_num)から、idないしprime_listの範…
Flaskアプリを開発していて、app.pyがだんだん肥大化して見通しが悪くなることがあります。ルート(エンドポイント)定義をapp.py以外に切り出してコードをスッキリさせることができます。 一般的な方法は、FlaskのBlueprintを使用することです。Blueprintは…
Flaskで構築したWebアプリに、Webページなどに表示させているデータをjson形式でダウンロードさせるための機能の追加についてのメモ。超簡単。 サンプルコード: from flask import Flask, Response, json app = Flask(__name__) @app.route('/json/') def do…
ipywidgetsライブラリを利用してJupyter notebook上でWebFormを直接実行するアプリが作れます。できるだけJupyter notebook(あるいはJupyter lab)から出ずに作業を続けたい場合などに便利です。データを可視化したグラフのパラメーターをリアルタイムに可変…
データを表示するFlaskアプリを作っていたところ、数万件程度のレコードであれば一瞬で終わるので問題ないのですが、レコード数が数百万件程度になってくると、Webページの最初の表示が4秒ぐらいかかるようになります。 数百万件レコードに対するsqlクエリー…
VM上のUbuntuでJupyter labを立ち上げてから、ホストOS(WIndows11)側のブラウザでJupyter labを開くと、pythonコード&テキスト編集とターミナル操作がブラウザで完結するので楽なのですが、Flaskアプリ(Jupyter notebookでは表示できない処理とか)も同時に…
ChatGPTに、任意の文章に対して指定した単語がいくつ含まれるかをカウントして、結果を出力するPythonモジュールを書いてもらいました。 指示文(プロンプト): 以下の仕様に沿ったPythonモジュールを書いてほしいです。 仕様:入力したテキストを形態素解析し…
Pythonに限った話ではありませんが、コンピューターで小数点の計算をさせると誤差が生じるため、期待通りの計算結果が得られないことがあります。 例えば、0.1+0.2 は 0.3 ではなく、0.30000000000000004 となります。 10進数小数を正確に計算するためにdeci…
Flaskを用いたWebアプリとかで、Flask-Cachingというパッケージを使ってキャッシュを有効することで高速化できます。 @cache~デコレータをつけるだけという、とてもシンプルな方法。以下メモ。 準備: Flask-Cachingをpipでインストール pip install Flask-C…
手元でデータ前処理とかで使う場合は、面倒なのでコード中にDB接続情報を書いてしまったりするけど、外部に出すアプリなどのコードではあまりに怖いので、接続情報は外部化して安全にしておきたいですよね。 コンフィグファイルを使用する: テキストファイル…
大量のファイル操作を伴う処理は、ストレージの性能にもよりますが、大抵は遅い処理になります。 そこで、メモリ内で完結するようにファイル操作を行うと、どのくらい高速化されるか、実際に確認してみました。 tmpfsというLinuxにあるメモリ内の一時領域を…
pythonでround関数で小数点以下の数値を 四捨五入しようとすると、正確に計算されないケースがあります。 Round関数で四捨五入がうまくいかないケースを実際に試してみた結果: 下記の結果は、たしかに2.68ではなく、2.67になります。 f = 2.675 print(round(…
ChatGPTに、任意の桁数の円周率を計算するPythonコードを書いてもらいました。 mpmathという高精度演算ライブラリを使って、非常にシンプルなコードになりました。 コード: import mpmath # 計算する桁数を指定 mpmath.mp.dps = 10000000 # 円周率を計算 pi …
ふと気になったので、正規表現の処理速度を簡単にベンチマークしてみました。 正規表現パターンr'\d{3}-\d{3}-\d{3}-\d{3}-\d{3}-\d{3}'と文字列'123-456-789-123-456-789'のマッチングを1000万回おこなって、その実行時間を計測して表示してます。 以下がコ…
ChatGPTにsocket通信のサンプルpythonコードを書いてもらいました。 指示文(プロンプト): UDPでsoket通信を行うpythonのコードを書いてください。サーバ側はsocket_server.py 、クライアント側はsocket_client.py としてください。クライアントからの通信を…
パスワードなどの重要な情報をHash化して扱うのは、オープン系システム構築時の基本の一つですが、最近推奨されているハッシュ化として、saltとstretchingという方法があります。 salt は ハッシュ化する文字列に、さらに別の文字列を加えて処理することで解…
ちょっとしたtipsというか盲点というか、pandasを使ってpipのlistを奇麗に表示する方法。Jupyter notebookとかで使うと便利。 コード out = !pip list import pandas as pd # データフレーム表示オプション設定 pd.set_option('display.max_rows', None) # …
pandasで特に何も考えずにデータを入れて展開していると、結構なメモリを消費します。 pandasのデータサイズと必要なメモリ容量ですが、pandasのデータフレームのサイズは、行数と列数によって決まり、データフレームの各列(カラム)のデータ型によって必要な…
国土地理院-全国地名データ(位置参照情報)からダウンロードしてきたデータのうち、福岡県のcsvだけカラムがずれていてので、訂正して全国のデータとマージしてpandasに展開するまでの一連の作業メモ。 1. 福岡県のcsvデータのカラムずれを訂正 いったんcsv…
Open AIのAPIが面白くて、ついつい、いろいろ試して遊んでしまいますが、割とすぐに無料枠を使い切ってしまいがちです。 OpenAIのAPIの無料枠は、2023年3月からは、3か月間有効な5ドル分の無料クレジットが付与されるそうです。以前は確か15ドルでした。 無…