티스토리 뷰
0.배경
KANANA-o API 베타 테스터의 기회가 생겨, 멀티모달 API를 활용해볼 수 있게 되었습니다.
GPT와 클로드의 도움을 받아.. 열심히 북치고 장구치고 Cursor로 테스트 해본 기록을 남겨보려고 합니다.
저는 이미지 한 장으로 음식을 분석하고, 다이어트 코치처럼 음성까지 말해주는 서비스를 만들어보았습니다.
1. 서비스 컨셉
"AI 다이어트 비서"
- 흐름 : 음식 이미지 업로드 > 이미지 인식 > 음식명, 대략적인 칼로리, 다이어트 적합 판단 > 코치처럼 음성으로 피드백
2. 바이브코딩으로 구현한 과정
Claude , GPT와 함께 만들고 싶은 서비스의 대략적인 MVP 기능을 질문하고 PRD를 만들었습니다.
PRD는 마크다운 형식으로 만들어달라고 하였고, Cursor 에이전트와 함께 질문하면서 만드니 뚝딱! 파일을 만들어 주었습니다.
(바이브코딩을 열심히 해보고 있지만, 정말 무서울 정도에요..)
<사용한 기술>
- Kanana-o 멀티모달 API
- Next.js (Cursor로 생성)
- 이미지 base64 처리
- audio (wav) 반환


이렇게 대략적인 테스트를 위한 코드들은 만들어졌지만, 오류사항이 많이 발생하더라구요^^;
이런 부분들은 하나하나 대화하면서 수정해 나갔습니다. (개발자가 된 기분~ ㅎㅎ)
예를들면 아래와 같이 사진 인식에서 오류가 나는 부분들을 수정하거나,
결과는 나오지만, 오탐 부분들을 수정했어요.


3. 결과
3-1. 이미지 인식


분석하고 싶은 음식 사진을 중앙 영역에 업로드 하고, " 음식 분석하기" 를 클릭합니다.

<이미지 인식 결과 화면>

"맥주" 사진의 음식을 업로드 했더니, 결과값으로 "맥주"를 잘 인식하였고, 대략적인 칼로리 결과도 알려주었습니다.
다이어트 적합도의 판단 이유는 kanana-o 의 추론 으로 다이어트 적합도 판단 이유를 간단하게 설명해줍니다.

"사과" 사진을 업로드 하니, 사과의 칼로리와 다이어트 적합도에 대한 이유를 보여줍니다.
(판단 이유를 다시 파싱해서 정리해주는 노란 영역의 부분은 좀 더 보완이 필요해 보이네요.ㅎㅎ)
3-2. 음성 기능


판단 이유 옆의 "음성으로 듣기" 버튼을 클릭하면 다이어트 코치가 피드백 해주는 것처럼 음성으로 출력이 됩니다.

저는 kanana-o에서 제공하는 preset_spk_1으로 설정해보았는데요,
"판단 이유" 내용을 그대로 읽는 것이 아니라 정말 사람처럼 자연스럽게 대화하는듯한 음성이 출력됩니다.
kanana-o의 발화 표현력에 대한 성능이 높은 것을 느꼈습니다!
4. 정리
<디벨롭 필요한 부분>
간단하게 API 테스트를 목적으로 시연을 위해 만들어본 것이라 실사용에는 부족한 부분이 많습니다.
테스트를 토대로 제대로 서비스를 만든다면 어떤 점을 고려해야 할지 생각해 보았습니다.
앞으로 더 디벨롭 해보면 좋을 것 같은 부분들은
- 음식에 대한 다이어트 적합도 정확도 높이기
- "다이어트 코치" 의 캐릭터를 나누어 순한맛 코치/매운맛 코치/ 등 캐릭터 별 음성 톤 다양화
- 단방향으로 제공하는 다이어트 코치 음성을 넘어서, 양방향으로 대화가 가능한 멀티턴 대화 기능 추가
등등..
카나나o를 더욱 활용해서 다양한 기능과 성능을 체감해보면 좋을 것 같습니다!
<총평>
음성이 단순 TTS가 아닌 실제로 말하는 것처럼 발화가 자연스러운 점이 인상깊었습니다.
기획자 입장에서는 kanana-o를 활용해서 앞으로 카카오 생태계 플랫폼 내에 어떻게 활용될지 기대가 됩니다 🙌
제가 기술적인 지식이 부족하여 제공하는 모델 성능에 비해 충분한 활용을 못한 것 같아 아쉽긴 합니다. ㅎㅎ
요즘 바이브코딩으로 이것저것 만드는 것에 재미를 붙여 혼자 공부하는 마음으로 적용해보았는데,
개인적으로 좋은 경험이 된 것 같습니다 :)
<Appendix>
https://huggingface.co/kakaocorp/kanana-1.5-v-3b-instruct
kakaocorp/kanana-1.5-v-3b-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
https://tech.kakao.com/posts/802
더욱 똑똑하게 답하며, 더욱 풍부한 감정표현을 향한 Kanana-o의 진화 과정 - tech.kakao.com
안녕하세요, 카카오의 AI 모델 개발을 담당하는 카나나(Kanana) 조직의 Ed...
tech.kakao.com
https://tech.kakao.com/posts/702
이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기 - tech.kakao.com
안녕하세요, 카카오의 AI 모델 개발을 담당하는 카나나(Kanana) 조직의 Ed...
tech.kakao.com
- Total
- Today
- Yesterday
- 책 검색
- 토스미니앱
- PM
- 카나나카톡
- 당근현장결제
- 카카오
- 카나나 엠베서더
- AI엠베서더
- 사이드프로젝트
- kanana429
- 독서앱
- 알뜰독서
- 카나나AI
- 카나나 in 카카오톡
- 당근
- 카나나o
- 서비스기획
- kanana-o
- AI MCP
- 주니어 기획자
- 카나나429
- kanana
- 당근팟캐스트
- 서비스기획자
- 파이온티어 강의
- MPC테스트
- 카나나429 발대식
- 카나나
- 당근페이
- 카나나AI엠베서더
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |