if(kakaoAI)2024

세션 15 상세

메시지 광고 추천 딥러닝 인퍼런스 서버 개선 - Jvm Onnx Runtime에서 Nvidia Triton 도입까지카카오

메시지 광고 추천 시스템은 일별 500개 이상의 모델을 실시간으로 서빙합니다. 이번 발표에서는 LLM 모델 서빙 속도를 높이기 위해 JVM 기반 인퍼런스 서버를 Nvidia Triton으로 교체한 경험을 공유합니다.

박채운 (hendo.park)

광고추천개발의 헨도입니다. 모델 인퍼런스 & 서빙에 관심이 많습니다.

신지영 (jaylene.shin)

광고추천개발의 제이린입니다. 실시간 모델 인퍼런스와 서빙 작업을 담당하고 있습니다.