Deep Learning

LLMのファインチューニングでEOSが出力されずテキスト生成が終わらない

Llama2のLoRAをしていた時、うまくEOSが出力されず、文章生成がmax_new_tokensの数まで生成されてしまっていた。解決するのに手間取ったので備忘録。結論を先に示すとPAD = EOSにしていたのが原因で、EOSもatt...

2023.11.14 2024.01.18

Deep Learning

LLMのファインチューニングを行う際、QLoRAやPEFTで行われている記事が多いが、これらの効率化技術を使わなかった時の性能を確認してみたくなった。また、大規模データで学習済みのモデルは入力層に近いほどデータの抽象的な特徴を学習している...

2023.10.02 2024.03.18

Deep Learning

kerasのmodel.summary()と似たようなことをpytorchのモデルで行ってくれるライブラリとして、torchinfoがある。 llama2がどんな構造でパラメータ数なのか気になったのでtorchinfoを使ってみた所、表題の...

2023.09.21

Deep Learning

大量のTFRecordsを使い、tf.dataでモデルの訓練をしていた際、メモリの使用量が増え続け、Out of Memoryになってしまっていた。仮想メモリ（スワップ）を3TB程度用意してみたが、スワップも食い続けてしまったため、ハード...

2023.04.10

Deep Learning

TensorFlowで大量の画像や巨大な配列をpredictするとメモリーリークが生じることが多い。 model.fitでは問題ないのに、model.predictになるとOOMになってしまう報告が散見する。根本的な解決ではないが、pre...

2022.11.16

Deep Learning

巨大な疎行列をmodel.fit()させようとした時、numpyのままだとメモリに乗り切らなかったため、scipyの疎行列でtf.kerasを使う方法がないか調べてみた。まずは公式チュートリアルを見てみる。 TensorFlowは、 tf...

2022.11.15

Deep Learning

CIFAR10でtf.dataを使った時に表題のwarning。 model.fitは問題なく出来るので無視しようと思ったが、気になったので調べてみた。 (train_features, _), (_, _) = tf.keras.data...

2022.09.15

Deep Learning

Scaled-YOLOv4を使っていた時、検出される物体が多いとラベルに埋もれて画像が見えなくなってしまったため、画像に描画されるconfidenceの値を消したくなった。 C言語のソースコードを追いかけていき、当該箇所を特定してコメントア...

2022.09.01

Deep Learning

TensorFlowにEfficientNetV2が実装された。しかし、デフォルトのinput_shapeはNoneとなっており、学習時にリサイズさせる画像サイズがわからない。 TensorFlow Hubにはサイズが載っていた。 V2 ...

2022.08.18

Deep Learning

Huggingfaceを使って自然言語処理を行っていた時、モデルごとのvocabularyの違いが気になった。 vocab.txt を見れば分かるのだが、Pythonで取得したかったので調べてみた。まずはTokenizerのリファレンスを...

2022.05.25

Deep Learning