한영 번역기 Gemago 개발기
최근 AI 기술이 눈부시게 발전하면서 사용자 경험과 실시간 응답에 대한 요구가 점점 높아지고 있습니다.
이런 흐름 속에서 온디바이스 번역기에 대한 관심도 커지고 있기에, 저는 Google에서 새로 공개한 Gemma 모델을 활용해 소형 언어 모델의 장점을 최대한 살린 한-영 번역기 ‘Gemago’를 개발하게 되었습니다.
여러 오픈LM 모델들을 검토하던 중, Gemma는 낮은 파라미터 수에도 불구하고 한국어에 강점을 보여 선택하게 되었습니다.
이 점이 한-영 번역기로 파인튜닝할 때 높은 성능을 기대하게 만든 결정적인 이유였습니다.
사실 온디바이스 번역기에 관심을 갖게 된 계기는 기존의 오프라인 번역기들이 번역 퀄리티 면에서 많이 부족했기 때문입니다.
물론 대형 번역 모델들은 성능이 뛰어나지만, 메모리 사용량이 많고 서버에 의존해야 하는 한계가 있었습니다.
그래서 Gemago는 제한된 리소스 환경에서도 원활하게 작동하고, 실시간 번역이 가능하도록 모델 크기를 최소화하는 데 집중했습니다.
최신 Transformer 아키텍처를 채택한 Gemma 모델의 강점을 그대로 활용해 모바일이나 엣지 디바이스에서도 낮은 지연 시간과 높은 번역 정확도를 구현할 수 있도록 최적화했습니다.
번역 품질 평가 측면에서는 GPT-4를 활용한 자동 평가 시스템을 도입했습니다.
"G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment (Yang Liu et al., 2023)"와 "USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (Shikib Mehri et al., 2020)" 등 최신 연구들을 참고해 평가 기법을 적용한 덕분에, 미세한 번역 품질 차이도 정밀하게 분석할 수 있었습니다.
이번 프로젝트에서 가장 큰 도전은 모델 경량화와 성능 유지 사이의 균형을 찾는 일이었습니다.
Knowledge Distillation, Quantization 등 다양한 경량화 기법들을 시도하면서 모델 크기를 줄이는 동시에 번역 품질이 떨어지지 않도록 지속적으로 개선해 나갔습니다.
또한, GPT-4 기반의 자동 평가 시스템을 활용한 피드백 루프를 구축해 온디바이스 환경에서의 메모리 제약과 실시간 응답 문제도 여러 차례의 테스트와 튜닝을 통해 해결할 수 있었습니다.
이처럼 Gemago는 Google의 Gemma 모델을 기반으로 한 온디바이스 소형 언어 모델 번역기로, 경량화된 구조임에도 불구하고 높은 번역 성능을 입증했습니다.
체계적인 평가 과정을 통해 실제 사용자 환경에서도 만족스러운 결과를 얻을 수 있음을 확인했습니다.
앞으로는 다국어 번역 지원, 사용자 맞춤형 튜닝, 그리고 실시간 피드백 기반의 추가 개선 등을 통해 Gemago의 활용 범위를 더욱 넓혀 나갈 계획입니다.
많은 기대 부탁드립니다!
마지막으로, 프로젝트 초기부터 Google TPU Research Cloud Program의 지원 덕분에 대규모 데이터셋을 활용한 빠른 학습과 효율적인 모델 튜닝, 평가가 가능했던 점에 깊은 감사를 드립니다.
앞으로도 꾸준한 연구와 개선을 통해 사용자에게 더 빠르고 정확한 번역 서비스를 제공할 수 있도록 노력하겠습니다.
Gemago-2b는 허깅페이스에서 확인하실 수 있으며, Colab에서도 사용가능합니다!
Gemago-7b는 현재 준비중입니다. 개발 취소되었습니다.