ML

RTX5090 체험 후기 (상) | Gcube 지큐브

Dev. World

16 5월 2025 — 7 min read

최근 gcube RTX 5090 체험 테스트에 선정되어 무상으로 체험해보게 되었다.

그 논란의 물량도 얼마 없어 돈이 있어도 구하기 어려운 RTX 5090을, 심지어 무료로 말이다! 게다가 5090뿐만 아니라 4090, 5080도 함께 제공받았다. 모두 현시점에서 가장 성능이 좋은 소비자용 그래픽카드 3종류이다. 메모리가 작고 대역폭 병목을 제외한 성능만 본다면 현존 최고 성능이다.

이들 모두의 단정밀도 성능을 합하면 무려 243.66 TFLOPS이다. (104.8+82.58+56.28)

성능에 대한 부분은 이제 그만 비교하고 RTX 5090, 4090, 5080을 사용해본 후기와 Gcube 서비스에 대한 경험을 지금부터 공유해보려 한다.

들어가기 전에, 본 체험은 Gcube에서 주최한 이벤트에 당첨되어 진행되었음을 밝힌다.

우선 체험한 Gcube 플랫폼에 대해 간략히 설명해보겠다.

Gcube는 Vast AI와 같이 유후 GPU 자원을 공유하는 GPUaaS이다. 간단히 한국 버전의 Vast AI라고 생각해도 좋을 것 같다.

또한 Tier별로 사업자, 서버, 개인 등으로 나뉘어져 있고, 가격과 성능이 다르다.

놀고 있는 자신의 그래픽 카드를 공유해 포인트를 벌거나, 포인트를 충전해 그래픽카드를 임대할 수 있다.

이정도 설명이면 충분했을 것 같다. 이제 진짜 시작해보겠다.

Gcube 플랫폼에 가입했을때는 깔끔한 디자인이 마음에 들었다.

그러나 인스턴스를 생성하는 방식이 약간 특이 했는데, 스펙을 선택하는 것이 기존의 VastAI 방식보다는 일반 클라우드 플랫폼과 비슷한 방식이었기 때문이다.

근데 또 스토리지랑 램 용량은 고정되어있었다. 물론 티어가 높으면 용량이 크긴 하지만 수정은 안된다.

옵션이 이게 다...

약간 당황스러움이 있었지만, 아마 VastAI와는 타겟층이 달라서 용량 고정해둔 것으로 추측된다.

또, 리소스 공유는 컨테이너로 이루어지기에 컨테이너 이미지가 필요하다.

물론 샘플 도커 이미지도 있지만, 생성시에 선택화면에는 없고 문서에서 찾아봐야만 나온다. 약간의 편의성 개선이 추가되었으면 좋을 부분이기도 하다.

어쨌거나, 개발 환경이 포함된 컨테이너 이미지를 빌드하고 배포하면 사용할 수 있다.

사용가능한 이미지가 EXPOSE로 포트가 열려있어야 한다는 약간의 제한?이 있었지만 우분투에 쿠다를 올리고 주피터 랩으로 쉘을 사용하면 큰 문제는 없다.

(나중에 안 사실이지만 컨테이너에 SSH 연결도 가능하다! 근데 프록시 방식이라 특정 ip, 아이디, 비밀번호에서만 접속이 되고, ip가 바뀌면 또 등록해야한다..)

필자가 사용한 도커 이미지는 깃허브에 있으며, 간편해서 애용하는 Axolotl과 flash-attn이 모두 빌드되어 있다.

깃허브 > ghcr.io/deveworld/gpu-dev:cuda-12.8 을 이용하면 된다.

어쨌든 그렇게 이미지와 사양을 선택하고 배포하면 URL을 알려준다. 그 도커의 EXPOSE된 포트와 연결된 프록시 URL이다.

몇분 뒤면 주피터 노트북을 볼 수 있다.

쉘에서 axoltol fetch examples 를 통해 예시 yml 파일을 불러오고

axoltol train examples/gemma3/gemma-3-12b-qlora.yml 을 통해 gemma3 12b를 Quantizated LoRa 파인튜닝할 수 있고 5090에서 잘 돌아간다.

단일 GPU로 12B LLM을 파인튜닝할 수 있다니 얼마나 대단한가. 양자화와 최적화 덕분이다. 물론, 5090 메모리가 크고 파워가 센 것도 있지만 말이다.

그렇게 자체 데이터셋으로 Gemma3 1b, 4b, 12b를 동시에 5080, 4090, 5090에서 파인튜닝을 진행했다.

그리고 결과는..
유실되었다.

무료체험 마지막 몇시간 전에 주어진 포인트를 모두 써버려 멈추고 만 것이다. 추가 포인트를 제공 받았지만, 새벽이라 받은 것은 아침이 된 후였다.

물론 일정 steps마다 저장하고 push했어야 하지만, 설마~~ 라는 안일한 생각으로 그냥 훈련을 시작했었다.

모두 앞으로는 꼭 저장을 습관화하기를 바란다.. 귀찮다고 아까운 모델을 다 날리는 경우도 있다.

어쨌거나 3일동안의 5090 체험은 엄청난 파워의 gpu 성능을 체감하기에 충분했다.

다시 한번 Gcube에게 감사의 인사를 전한다.

Gcube 플랫폼은 배포가 간단했고, 무엇보다 한국이어서 파일 이동도 빨랐다. 기회가(~~돈만)~~ 있다면 다시 쓸 것 같다.

5000P!

지금 가입하면 5000P(=5000원)을 준다고 하니 사용해보지 않았다면 한번 체험해보는 것도 나쁘지 않을 것 같다.

이상 5090 체험 후기였습니다. 읽어주셔서 감사합니다.

Read more

TRC와 함께한 MaxText 후기

TPU v4-64에서 Gemma3 파인튜닝을 위해서 Keras3 대신 MaxText를 새롭게 사용해본 경험을 공유해보고자 한다. GCP에서 TPU Queued Resources를 생성한다. 이후 worker 0 (GCP에서 나오는 TPU ip address)에 ssh를 연결해준다. (앞으로 특별한 말이 없다면 tpu node worker 0에서 실행한다) maxtext를 git에서 clone 해준다. git clone https://github.com/AI-Hypercomputer/maxtext &

RTX5090 체험 후기 (하) | Gcube 지큐브

이 글은 저번 체험에 대한 후기와 이어진다. RTX5090을 사용해 Gemma3를 튜닝했었는데, 그 결과가 소실된 것을 Gcube 측에서 안타까워 하셔 체험 기회를 한번 더 제공해주셨다. 그래서 RTX5090을 3일 더 사용해볼 수 있게 되었다! 이전과 동일한 환경(Axolotl, torch On docker: ghcr.io/deveworld/gpu-dev)에서 튜닝을 진행했다. 물론 이전과 다른 점은

KorT: LLM이 평가하는 한국어 번역 벤치마크

한국어 번역 품질 벤치마크 KorT를 출시했습니다! 최근 한강 작가님의 작품이 노벨 문학상을 수상하며 전 세계의 주목을 받았던 일을 기억하시나요? 사실, 상을 수상한 배경 뒤에는 좋은 번역이 있었습니다. 좋은 번역은 단순한 언어 변환을 넘어, 우리의 문화와 이야기를 세계 무대에 성공적으로 선보이는 데 결정적인 역할을 합니다. 이처럼 번역의 중요성은 점점 더 커지고

TPU Pods Gemma3 파인튜닝 정리

최근 구글이 출시한 Gemma3를 TPU Pods에서 파인튜닝해보기 위해 삽질중이다. 이 포스트는 삽질을 정리하기 위해 작성하고 있다. 요약 2025-03-20 gemma-llm으로 시도해보았지만 실패했다. 2025-03-21 Google Deepmind gemma-3 report 팀에 이메일을 보냈다. 답변이 없다 2025-03-22 🤗 Optimum TPU에서 파인튜닝이 되는 것을 확인했다. EasyDeL 프로젝트 또한 사용 가능하다. 2025-03-26 keras-hub에 gemma3가 merged되었다. jax를 백엔드로 keras3를