Pythonテキストの前処理でGiNZAを使って個人情報のマスキングをする LLMの学習データを用意していた際、人名などの個人情報をマスキングしたくなった。 調べてみると、日本語の自然言語処理ライブラリであるGiNZAで固有表現を抽出できるみたい。 v5からTransformersモデルを採用しており、解析精度が向...2023.09.272023.09.28Python
Pythonメモリに乗り切らない大量のデータの平均値と標準偏差をWelfordアルゴリズムで逐次計算する Kaggleに取り組んでいた時、大量のデータセットが与えられた。 一般的に、ニューラルネットに入力するデータは標準化している方がいいと言われているが、データが大量にあってメモリに乗り切らず、sklearn.preprocessing.Sta...2023.04.062023.07.14Python
PythonPyQt5とOpenCVを同時に使おうとしてエラー If you are on Ubuntu or Debian, install libgtk2.0-dev and pkg-config PyQt5のアプリケーションを弄っていた時に、cv2.imshow()をしようとしたら表題のエラー。 If you are on Ubuntu or Debian, install libgtk2.0-dev and pkg-config,...2023.02.152023.07.14Python
Pythonjoblibやscikit-learnでOSError: [Errno 28] No space left on device dockerコンテナ内でscikit-learnやjoblibを使っていた際に表題のエラー。 OSError: No space left on device ハードディスクには十分な空き容量があったため、何のスペースが足りないのか分からな...2022.11.14Python
Pythonplt.gca()を使ってpandasのplotを複数並べて楽にsubplotする pandasでdf.plot()をすると、matplotlibを使わなくても簡単にグラフを作ることが出来る。 しかし、複数のグラフを作りたくてsubplotsしようとすると途端に面倒になり、df.plot()の引数やmatplotlibのf...2022.04.072023.07.14Python
Pythonpythonのdataclassでkey, value, lenを使う データの格納だけをしたい時、辞書を作成するよりもdataclassでデコレートする方が宣言が楽で便利。 __init__()を書いてインスタンス変数に代入、という作業をしなくて済むので見た目もスッキリする。 import dataclass...2022.01.18Python
PythonLightGBMでInput numpy.ndarray must be 2 dimensional lightgbm LightGBMでnp.arrayを入力して回帰モデルを作ろうとした時に表題のエラー。 X_train, X_test, y_train, y_test = train_test_split(X, y) model = lgb.LGBMRe...2021.10.26Python
PythonRaspberry piのI2CでOSError: [Errno 121] Remote I/O error Raspberry piにI2Cのセンサーを繋ぎ、smbus2でデータの取得を試みたところ表題のエラー。 File "/usr/local/lib/python3.7/dist-packages/smbus2/smbus2.py", lin...2021.09.032021.09.07Python
Pythonpandasのpickleでtypeerror __cinit__() takes at least 2 positional arguments (0 given) ローカルマシンのpandasでpickleを作り、クラウドのdocker上でpickleをロードした時に表題のエラー。 typeerror __cinit__() takes at least 2 positional arguments ...2021.07.20Python
Pythonpandasで重複した複数行の平均値を取る ミリ秒単位の時系列データを扱っていた時、秒単位で集計した際に重複する時間が複数発生した。 同じ時間の値は平均値を取りたくなったが、dupulicatedやdrop_duplicatedでは上手く出来なかった。 以下の書籍の405ページから始...2021.06.092023.07.14Python