한영 번역기 Gemago 개발기

최근 AI가 화제입니다.

그러나 온디바이스 AI는 아직까지 많지 않은 편입니다.

외부로 유출되면 안되는 민감한 내용을 포함하면 API를 이용하기 힘들기 때문에 수요는 매우 많음에도 불구하고 말이죠.

특히 제 경우에는 개인정보가 포함된 내용을 번역하는데에서 어려움이 많았습니다.

그래서 저는 Google에서 새로 공개한 Gemma 모델을 활용해 소형 언어 모델의 장점을 최대한 살린 한-영 번역기 ‘Gemago’를 개발하게 되었습니다.

여러 오픈LM 모델들을 검토하던 중, Gemma는 낮은 파라미터 수에도 불구하고 한국어에 강점을 보여 선택하게 되었습니다.

그래서 한-영 번역기로 파인튜닝할 때 Gemma가 가장 한국어를 잘 이해하지 않을까 기대하게 된 것 입니다.

사실 온디바이스 번역기에 관심을 갖게 된 가장 큰 계기는 기존의 오프라인 번역기들이 번역 퀄리티 면에서 많이 부족했기 때문입니다.

물론 대형 번역 모델들은 성능이 뛰어나지만, 메모리 사용량이 많거나 서버에 의존해야 하는 한계가 있었습니다.

그래서 Gemago는 일반 소비자용 GPU 환경에서도 원활하게 작동하고, 실시간 번역이 가능하도록 모델 크기를 최소화하는 데 집중했습니다.

파라미터가 작지만 강한 Gemma 모델의 강점을 그대로 활용해 모바일이나 낮은 리소스 환경에서도 낮은 지연 시간과 높은 번역 정확도를 구현할 수 있도록 최적화했습니다.

번역 품질 평가 측면에서는 GPT-4를 활용한 자동 평가 시스템을 도입했습니다.
"G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment (Yang Liu et al., 2023)"와 "USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (Shikib Mehri et al., 2020)" 등 최신 연구들을 참고해 평가 기법을 적용한 덕분에, 미세한 번역 품질 차이도 정밀하게 분석할 수 있었습니다.

이번 프로젝트에서 가장 큰 도전은 모델 경량화와 성능 유지 사이의 균형을 찾는 일이었습니다.
Quantization으로 모델 크기를 줄이는 동시에 번역 품질이 떨어지지 않도록 지속적으로 개선해 나갔습니다.

또한, GPT-4 기반의 자동 평가 시스템을 활용한 피드백 루프를 구축해 온디바이스 환경에서의 메모리 제약과 실시간 응답 문제도 여러 차례의 테스트와 튜닝을 통해 해결할 수 있었습니다.

이처럼 Gemago는 Google의 Gemma 모델을 기반으로 한 온디바이스 소형 언어 모델 번역기로, 경량화된 구조임에도 불구하고 높은 번역 성능을 입증했습니다.

체계적인 평가 과정을 통해 실제 사용자 환경에서도 만족스러운 결과를 얻을 수 있음을 확인했습니다.

앞으로는 다국어 번역 지원이나 더 긴 컨텍스트 개선 등을 통해 Gemago의 활용 범위를 더욱 넓혀 나갈 계획입니다.
많은 기대 부탁드립니다!

마지막으로, 프로젝트 초기부터 Google TPU Research Cloud Program의 지원 덕분에 대규모 데이터셋을 활용한 빠른 학습과 효율적인 모델 튜닝, 평가가 가능했던 점에 깊은 감사를 드립니다.

앞으로도 꾸준한 연구와 개선을 통해 사용자에게 더 빠르고 정확한 번역 서비스를 제공할 수 있도록 노력하겠습니다.

Gemago-2b는 허깅페이스에서 확인하실 수 있으며, Colab에서도 사용가능합니다!

Gemago-7b는 현재 준비중입니다. 개발 취소되었습니다.