if(kakaoAI)2024

세션 12 상세

세션 영상

세션 정보

이미지까지 이해하는 Multimodal LLM의 학습 방법 밝혀내기카카오

최근 GPT-4v, GPT-4o와 같은 멀티모달 LLM에 대한 관심이 급증하면서 관련 연구들이 쏟아지고 있지만, 이 모델들을 구체적으로 어떻게 학습시키고 최적화하는지에 대한 정보는 희소한 상황입니다. 본 발표에서는 CVPR 2024에 하이라이트 논문으로 선정된 카카오의 자체 멀티모달 LLM을 소개하고, 이후 최근까지의 개선 과정을 통해 얻은 인사이트와 노하우를 공유합니다.

강우영 (edwin.ai)

카나나 알파 조직의 Multimodal LLM Core 팀원 에드윈입니다. 기존의 텍스트 모달리티만을 다루는 LLM에서 더 나아가 시각, 음성을 포함한 다양한 모달리티를 이해하고 반응할 수 있도록 하는 방법에 대해 연구하고 있습니다.