Coming soon
블로그 꾸준히 쓰는걸 목표로 삼겠습니다.
블로그 꾸준히 쓰는걸 목표로 삼겠습니다.
I trained a LoRA adapter on a document until the next-token loss dropped from 10.10 to 0.004. The adapter weights moved. At inference, it produced different logits from the base model. Then I asked a question about the document. It answered: "I do not have access to
The vLLM has a parameter called max_model_len. If your generated sequence exceeds it, vLLM cuts it off. No warning in the logs, no error raised. Your outputs just lose their tails. I ran DeepSeek-R1-Distill-Qwen-32B at max_model_len=8192 for a week of experiments. This model can generate
TPU v4-64에서 Gemma3 파인튜닝을 위해서 Keras3 대신 MaxText를 새롭게 사용해본 경험을 공유해보고자 한다. GCP에서 TPU Queued Resources를 생성한다. 이후 worker 0 (GCP에서 나오는 TPU ip address)에 ssh를 연결해준다. (앞으로 특별한 말이 없다면 tpu node worker 0에서 실행한다) maxtext를 git에서 clone 해준다. git clone https://github.com/AI-Hypercomputer/maxtext &
이 글은 저번 체험에 대한 후기와 이어진다. RTX5090을 사용해 Gemma3를 튜닝했었는데, 그 결과가 소실된 것을 Gcube 측에서 안타까워 하셔 체험 기회를 한번 더 제공해주셨다. 그래서 RTX5090을 3일 더 사용해볼 수 있게 되었다! 이전과 동일한 환경(Axolotl, torch On docker: ghcr.io/deveworld/gpu-dev)에서 튜닝을 진행했다. 물론 이전과 다른 점은