자연스럽고 친근한 AI 챗봇 서비스를 위한 대화 데이터 생성
―
Info.
Overview
다양한 AI 채팅 메이트와 대화하기
코코랑 대화하기
마스랑 대화하기
나만의 친구 같은 AI 챗봇을 개발하려면 무엇이 필요할까요?
튜닙은 자연어 처리 기술을 통해 사람과 AI가 소통하는 세상을 꿈꾸고 있습니다. 한국어 챗봇 코코마스와 영어 챗봇 블루니 서비스는 사람과 정서적 교류가 가능한 AI로서 사람들과 친밀한 관계를 맺고 일상을 공유합니다. 점점 더 복잡해지고 외로워지는 세상에서 인공지능이 사람들에게 따뜻한 온기를 전달할 수 있을까요? 앞으로 다가올 메타버스 세상에서 디지털 휴먼과 사람들이 자유롭게 교류하려면 무엇이 필요할까요?
튜닙은 가상세계, 즉 메타버스에서 콘텐츠가 될 수 있는 지능을 생산하고 있습니다. 다양한 페르소나를 가진 소셜 챗봇도 그중 하나인데요. 이미 많은 인터넷 서비스가 자연어 처리 기반의 챗봇을 제공하고 있지만, 아직까지 다양성은 매우 부족합니다. 튜닙은 친구, 연인, 튜터, 반려견 등 가상 현실에서만 만날 수 있는 가상의 존재들을 통해 사람들에게 새로운 정서적 관계를 제공하고 있습니다.
사용자와 정서적 교감이 가능하면서, 자신만의 페르소나를 가진 챗봇을 만들려면 충분한 대화 데이터가 필요합니다. 튜닙은 디어메이트 앱을 통해 여행에 관심 많은 블루니, n행시를 짓는 n군 등 다양한 콘셉트를 가진 챗봇 서비스를 제공하고 있는데요. 그중에서도 강아지 컨셉의 반려 챗봇 ‘코코’와 ‘마스’의 개발을 위한 173만 문장의 대화 데이터 구축에 레이블러가 사용되었습니다.
Problem
수많은 사람과 자연스럽게 대화하면서도 캐릭터 설정이 유지되어야 해요.
사람들은 인공지능과 대화하면서 어떤 점에서 자연스러움을 느끼게 될까요? 진짜 친구 같은 챗봇이라면 나의 마음에 공감해주고 일상을 공유할 수 있을 것입니다. 당연히 나와 대화가 잘 통해야겠죠. 그러면서도 자신의 성격이나 태도에서 벗어나는 행동이나 말을 하지는 않을거에요. 진짜 인간이라면 말이죠. 사람과 대화하는 것처럼 자연스러운 챗봇이 되려면, 캐릭터의 설정에 어긋나지 않으면서도 모든 사람들의 성향과 특성에 맞춰 대화할 수 있어야 합니다.
자신의 고유한 설정, 즉 페르소나를 유지하면서도 수많은 사람들의 다양한 대화 방식에 잘 적응할 수 있어야 한다는 말인데요. 이렇게 뛰어난 성능의 AI 챗봇을 만들려면 학습을 위한 대화 데이터에 최대한 많은 사람이 참여하는 것이 좋습니다. 사람마다 말투나 대화하는 방식, 자주 쓰는 단어 등이 모두 다르기 때문이죠. 수많은 사람들의 다양한 언어 습관이 포함된 대화 데이터셋으로 학습해야 실제 사용자들의 언어 패턴에도 쉽게 적응할 수 있습니다.
그러나 페르소나를 유지하면서 다양한 사람들의 언어 습관을 포괄하는 일은 생각보다 쉽지 않습니다. 많은 사람들이 참여할수록 저품질 데이터가 포함될 확률이 높아지기 때문인데요. 맞춤법을 틀리거나, 똑같은 대화를 반복하거나, 비속어를 사용하는 등 정제되지 않은 언어 데이터가 포함되면 챗봇 성능에 좋지 않은 영향을 줄 수 있습니다.
반대로 충분한 사람을 모으지 못하면, 데이터의 다양성이 떨어질 수 있다는 문제가 있습니다. 소수의 사람들이 생각할 수 있는 대화 주제에는 한계가 있기 때문이죠. 다양성이 부족한 데이터로 학습한 챗봇은 비슷한 이야기만 반복하는 재미없는 존재가 될 수 있습니다. 결국, 충분한 사람을 모아 데이터의 다양성을 확보하면서도 저품질 데이터를 손쉽게 제외할 수 있는 해결책이 필요합니다.
Solution
다양성을 유지하면서도 페르소나에 맞는 데이터를 만드는 법
데이터의 다양성을 컨트롤하는 방법에는 여러 가지가 있습니다. 많은 사람을 모집하거나, 최대한 많은 글감을 제공하는 것인데요. 아무리 많은 글감을 제공하더라도 다양한 언어 습관을 포함해야 한다는 측면에서는 연령, 성별, 지역 등 다양한 배경을 가진 사람들의 참여가 권장됩니다. 반대로 10대 여성, 30대 남성 등 정해진 대상이 있다면 그에 적합한 사람들만 참여하도록 제한할 수도 있습니다. 레이블러는 20만 명의 풍부한 작업자 풀을 가진 플랫폼으로 대화 데이터 생성에 적합한 작업자를 쉽고 빠르게 찾을 수 있습니다.
그러나 참여자가 많다고 해서 데이터 다양성이 보장되는 것은 아닙니다. 챗봇의 페르소나를 유지하면서 맞춤법 규정에 맞게 자연스러운 대화를 생성할 수 있는 사람은 생각보다 많지 않을 수 있습니다. 작업을 오래 진행하다 보면, 나도 모르게 반복적인 대화를 생성하거나 가이드 기준에 맞지 않는 대화를 제출할 가능성도 있습니다.
레이블러는 AI Assistant ‘레이(Lay)’의 딥러닝 기반 텍스트 유사도 측정 알고리즘을 통해 대화 생성(Dialog Generation) 태스크의 다양성을 보장합니다. '레이'는 1개 작업 내에서 반복적인 문장을 발견하여 제외하며, 이미 제출된 대화들 중에서 유사한 패턴의 대화를 찾아내어 제거할 수 있습니다. 비속어나 맞춤법 오류가 있다면 맞춤법 검사기 API를 사용하여 이미 제출된 작업 내용을 보완하는 것도 가능합니다.
자연스러운 범위 내에서 맞춤법 오류를 약간만 허용하고 싶다면, 대화의 자연스러운 정도를 다른 사람들에게 평가하게 만들어보는 건 어떨까요? 나에게 필요한 조건에 따라 다양한 태스크 처리 방식과 옵션 추가가 가능한 레이블러의 유연하고 강력한 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’를 활용하면 태스크에 적합한 최적의 방법을 가장 쉽게 적용할 수 있습니다.
나의 태스크에 적합한 최적의 방식을 찾았다면, 레이블러 브레인 API를 통해 AI 서비스나 제품에 직접 연동할 수도 있습니다. 처음에는 작게 시작해서 적합한 방식을 찾아보고, 데이터의 양을 늘려가는 애자일 개발 프로세스를 적용하면 실시간으로 학습하는 AI 챗봇을 만들 수 있습니다.
Result
강아지 챗봇의 페르소나에 적합한 173만 문장의 대화 데이터가 생성되었습니다.
레이블러를 사용하여 호기심이 많고 사랑스러운 성격의 ‘코코’와 다정하고 듬직한 성격의 ‘마스’ 두 챗봇의 페르소나에 적합한 173만 문장의 대화 데이터가 만들어졌습니다. 주어만 변경하여 동일한 질문이나 답변을 하는 저품질 문장은 모두 삭제되었으며, 비속어와 맞춤법 오류는 자동 필터링을 통해 교정하거나 제외되었습니다. 173만 문장이라는 대량의 대화 데이터 생성을 위해 사람을 모집하여 교육하거나 관리하는 일은 필요하지 않았습니다.
수많은 사람을 모집하기 위해, 혹은 저품질 데이터를 일일이 제외하기 위해 사용되어야 했던 시간은 더 빠른 AI 서비스 개발에 사용될 수 있습니다. 레이블러는 AI 서비스와 제품을 개발하는 고객을 위한 새로운 AIOps로써, 고객사가 누구보다 빠르게 AI/ML 개발에 집중할 수 있도록 지원합니다.
자연스럽고 친근한 AI 챗봇 서비스를 위한 대화 데이터 생성
―
Info.
Overview
다양한 AI 채팅 메이트와 대화하기
코코랑 대화하기
마스랑 대화하기
나만의 친구 같은 AI 챗봇을 개발하려면 무엇이 필요할까요?
튜닙은 자연어 처리 기술을 통해 사람과 AI가 소통하는 세상을 꿈꾸고 있습니다. 한국어 챗봇 코코마스와 영어 챗봇 블루니 서비스는 사람과 정서적 교류가 가능한 AI로서 사람들과 친밀한 관계를 맺고 일상을 공유합니다. 점점 더 복잡해지고 외로워지는 세상에서 인공지능이 사람들에게 따뜻한 온기를 전달할 수 있을까요? 앞으로 다가올 메타버스 세상에서 디지털 휴먼과 사람들이 자유롭게 교류하려면 무엇이 필요할까요?
튜닙은 가상세계, 즉 메타버스에서 콘텐츠가 될 수 있는 지능을 생산하고 있습니다. 다양한 페르소나를 가진 소셜 챗봇도 그중 하나인데요. 이미 많은 인터넷 서비스가 자연어 처리 기반의 챗봇을 제공하고 있지만, 아직까지 다양성은 매우 부족합니다. 튜닙은 친구, 연인, 튜터, 반려견 등 가상 현실에서만 만날 수 있는 가상의 존재들을 통해 사람들에게 새로운 정서적 관계를 제공하고 있습니다.
사용자와 정서적 교감이 가능하면서, 자신만의 페르소나를 가진 챗봇을 만들려면 충분한 대화 데이터가 필요합니다. 튜닙은 디어메이트 앱을 통해 여행에 관심 많은 블루니, n행시를 짓는 n군 등 다양한 콘셉트를 가진 챗봇 서비스를 제공하고 있는데요. 그중에서도 강아지 컨셉의 반려 챗봇 ‘코코’와 ‘마스’의 개발을 위한 173만 문장의 대화 데이터 구축에 레이블러가 사용되었습니다.
Problem
수많은 사람과 자연스럽게 대화하면서도 캐릭터 설정이 유지되어야 해요.
사람들은 인공지능과 대화하면서 어떤 점에서 자연스러움을 느끼게 될까요? 진짜 친구 같은 챗봇이라면 나의 마음에 공감해주고 일상을 공유할 수 있을 것입니다. 당연히 나와 대화가 잘 통해야겠죠. 그러면서도 자신의 성격이나 태도에서 벗어나는 행동이나 말을 하지는 않을거에요. 진짜 인간이라면 말이죠. 사람과 대화하는 것처럼 자연스러운 챗봇이 되려면, 캐릭터의 설정에 어긋나지 않으면서도 모든 사람들의 성향과 특성에 맞춰 대화할 수 있어야 합니다.
자신의 고유한 설정, 즉 페르소나를 유지하면서도 수많은 사람들의 다양한 대화 방식에 잘 적응할 수 있어야 한다는 말인데요. 이렇게 뛰어난 성능의 AI 챗봇을 만들려면 학습을 위한 대화 데이터에 최대한 많은 사람이 참여하는 것이 좋습니다. 사람마다 말투나 대화하는 방식, 자주 쓰는 단어 등이 모두 다르기 때문이죠. 수많은 사람들의 다양한 언어 습관이 포함된 대화 데이터셋으로 학습해야 실제 사용자들의 언어 패턴에도 쉽게 적응할 수 있습니다.
그러나 페르소나를 유지하면서 다양한 사람들의 언어 습관을 포괄하는 일은 생각보다 쉽지 않습니다. 많은 사람들이 참여할수록 저품질 데이터가 포함될 확률이 높아지기 때문인데요. 맞춤법을 틀리거나, 똑같은 대화를 반복하거나, 비속어를 사용하는 등 정제되지 않은 언어 데이터가 포함되면 챗봇 성능에 좋지 않은 영향을 줄 수 있습니다.
반대로 충분한 사람을 모으지 못하면, 데이터의 다양성이 떨어질 수 있다는 문제가 있습니다. 소수의 사람들이 생각할 수 있는 대화 주제에는 한계가 있기 때문이죠. 다양성이 부족한 데이터로 학습한 챗봇은 비슷한 이야기만 반복하는 재미없는 존재가 될 수 있습니다. 결국, 충분한 사람을 모아 데이터의 다양성을 확보하면서도 저품질 데이터를 손쉽게 제외할 수 있는 해결책이 필요합니다.
Solution
다양성을 유지하면서도 페르소나에 맞는 데이터를 만드는 법
데이터의 다양성을 컨트롤하는 방법에는 여러 가지가 있습니다. 많은 사람을 모집하거나, 최대한 많은 글감을 제공하는 것인데요. 아무리 많은 글감을 제공하더라도 다양한 언어 습관을 포함해야 한다는 측면에서는 연령, 성별, 지역 등 다양한 배경을 가진 사람들의 참여가 권장됩니다. 반대로 10대 여성, 30대 남성 등 정해진 대상이 있다면 그에 적합한 사람들만 참여하도록 제한할 수도 있습니다. 레이블러는 20만 명의 풍부한 작업자 풀을 가진 플랫폼으로 대화 데이터 생성에 적합한 작업자를 쉽고 빠르게 찾을 수 있습니다.
그러나 참여자가 많다고 해서 데이터 다양성이 보장되는 것은 아닙니다. 챗봇의 페르소나를 유지하면서 맞춤법 규정에 맞게 자연스러운 대화를 생성할 수 있는 사람은 생각보다 많지 않을 수 있습니다. 작업을 오래 진행하다 보면, 나도 모르게 반복적인 대화를 생성하거나 가이드 기준에 맞지 않는 대화를 제출할 가능성도 있습니다.
레이블러는 AI Assistant ‘레이(Lay)’의 딥러닝 기반 텍스트 유사도 측정 알고리즘을 통해 대화 생성(Dialog Generation) 태스크의 다양성을 보장합니다. '레이'는 1개 작업 내에서 반복적인 문장을 발견하여 제외하며, 이미 제출된 대화들 중에서 유사한 패턴의 대화를 찾아내어 제거할 수 있습니다. 비속어나 맞춤법 오류가 있다면 맞춤법 검사기 API를 사용하여 이미 제출된 작업 내용을 보완하는 것도 가능합니다.
자연스러운 범위 내에서 맞춤법 오류를 약간만 허용하고 싶다면, 대화의 자연스러운 정도를 다른 사람들에게 평가하게 만들어보는 건 어떨까요? 나에게 필요한 조건에 따라 다양한 태스크 처리 방식과 옵션 추가가 가능한 레이블러의 유연하고 강력한 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’를 활용하면 태스크에 적합한 최적의 방법을 가장 쉽게 적용할 수 있습니다.
나의 태스크에 적합한 최적의 방식을 찾았다면, 레이블러 브레인 API를 통해 AI 서비스나 제품에 직접 연동할 수도 있습니다. 처음에는 작게 시작해서 적합한 방식을 찾아보고, 데이터의 양을 늘려가는 애자일 개발 프로세스를 적용하면 실시간으로 학습하는 AI 챗봇을 만들 수 있습니다.
Result
강아지 챗봇의 페르소나에 적합한 173만 문장의 대화 데이터가 생성되었습니다.
레이블러를 사용하여 호기심이 많고 사랑스러운 성격의 ‘코코’와 다정하고 듬직한 성격의 ‘마스’ 두 챗봇의 페르소나에 적합한 173만 문장의 대화 데이터가 만들어졌습니다. 주어만 변경하여 동일한 질문이나 답변을 하는 저품질 문장은 모두 삭제되었으며, 비속어와 맞춤법 오류는 자동 필터링을 통해 교정하거나 제외되었습니다. 173만 문장이라는 대량의 대화 데이터 생성을 위해 사람을 모집하여 교육하거나 관리하는 일은 필요하지 않았습니다.
수많은 사람을 모집하기 위해, 혹은 저품질 데이터를 일일이 제외하기 위해 사용되어야 했던 시간은 더 빠른 AI 서비스 개발에 사용될 수 있습니다. 레이블러는 AI 서비스와 제품을 개발하는 고객을 위한 새로운 AIOps로써, 고객사가 누구보다 빠르게 AI/ML 개발에 집중할 수 있도록 지원합니다.
자연스럽고 친근한 AI 챗봇 서비스를 위한 대화 데이터 생성
―
Info.
Overview
다양한 AI 채팅 메이트와 대화하기
코코랑 대화하기
마스랑 대화하기
나만의 친구 같은 AI 챗봇을 개발하려면 무엇이 필요할까요?
튜닙은 자연어 처리 기술을 통해 사람과 AI가 소통하는 세상을 꿈꾸고 있습니다. 한국어 챗봇 코코마스와 영어 챗봇 블루니 서비스는 사람과 정서적 교류가 가능한 AI로서 사람들과 친밀한 관계를 맺고 일상을 공유합니다. 점점 더 복잡해지고 외로워지는 세상에서 인공지능이 사람들에게 따뜻한 온기를 전달할 수 있을까요? 앞으로 다가올 메타버스 세상에서 디지털 휴먼과 사람들이 자유롭게 교류하려면 무엇이 필요할까요?
튜닙은 가상세계, 즉 메타버스에서 콘텐츠가 될 수 있는 지능을 생산하고 있습니다. 다양한 페르소나를 가진 소셜 챗봇도 그중 하나인데요. 이미 많은 인터넷 서비스가 자연어 처리 기반의 챗봇을 제공하고 있지만, 아직까지 다양성은 매우 부족합니다. 튜닙은 친구, 연인, 튜터, 반려견 등 가상 현실에서만 만날 수 있는 가상의 존재들을 통해 사람들에게 새로운 정서적 관계를 제공하고 있습니다.
사용자와 정서적 교감이 가능하면서, 자신만의 페르소나를 가진 챗봇을 만들려면 충분한 대화 데이터가 필요합니다. 튜닙은 디어메이트 앱을 통해 여행에 관심 많은 블루니, n행시를 짓는 n군 등 다양한 콘셉트를 가진 챗봇 서비스를 제공하고 있는데요. 그중에서도 강아지 컨셉의 반려 챗봇 ‘코코’와 ‘마스’의 개발을 위한 173만 문장의 대화 데이터 구축에 레이블러가 사용되었습니다.
Problem
수많은 사람과 자연스럽게 대화하면서도 캐릭터 설정이 유지되어야 해요.
사람들은 인공지능과 대화하면서 어떤 점에서 자연스러움을 느끼게 될까요? 진짜 친구 같은 챗봇이라면 나의 마음에 공감해주고 일상을 공유할 수 있을 것입니다. 당연히 나와 대화가 잘 통해야겠죠. 그러면서도 자신의 성격이나 태도에서 벗어나는 행동이나 말을 하지는 않을거에요. 진짜 인간이라면 말이죠. 사람과 대화하는 것처럼 자연스러운 챗봇이 되려면, 캐릭터의 설정에 어긋나지 않으면서도 모든 사람들의 성향과 특성에 맞춰 대화할 수 있어야 합니다.
자신의 고유한 설정, 즉 페르소나를 유지하면서도 수많은 사람들의 다양한 대화 방식에 잘 적응할 수 있어야 한다는 말인데요. 이렇게 뛰어난 성능의 AI 챗봇을 만들려면 학습을 위한 대화 데이터에 최대한 많은 사람이 참여하는 것이 좋습니다. 사람마다 말투나 대화하는 방식, 자주 쓰는 단어 등이 모두 다르기 때문이죠. 수많은 사람들의 다양한 언어 습관이 포함된 대화 데이터셋으로 학습해야 실제 사용자들의 언어 패턴에도 쉽게 적응할 수 있습니다.
그러나 페르소나를 유지하면서 다양한 사람들의 언어 습관을 포괄하는 일은 생각보다 쉽지 않습니다. 많은 사람들이 참여할수록 저품질 데이터가 포함될 확률이 높아지기 때문인데요. 맞춤법을 틀리거나, 똑같은 대화를 반복하거나, 비속어를 사용하는 등 정제되지 않은 언어 데이터가 포함되면 챗봇 성능에 좋지 않은 영향을 줄 수 있습니다.
반대로 충분한 사람을 모으지 못하면, 데이터의 다양성이 떨어질 수 있다는 문제가 있습니다. 소수의 사람들이 생각할 수 있는 대화 주제에는 한계가 있기 때문이죠. 다양성이 부족한 데이터로 학습한 챗봇은 비슷한 이야기만 반복하는 재미없는 존재가 될 수 있습니다. 결국, 충분한 사람을 모아 데이터의 다양성을 확보하면서도 저품질 데이터를 손쉽게 제외할 수 있는 해결책이 필요합니다.
Solution
다양성을 유지하면서도 페르소나에 맞는 데이터를 만드는 법
데이터의 다양성을 컨트롤하는 방법에는 여러 가지가 있습니다. 많은 사람을 모집하거나, 최대한 많은 글감을 제공하는 것인데요. 아무리 많은 글감을 제공하더라도 다양한 언어 습관을 포함해야 한다는 측면에서는 연령, 성별, 지역 등 다양한 배경을 가진 사람들의 참여가 권장됩니다. 반대로 10대 여성, 30대 남성 등 정해진 대상이 있다면 그에 적합한 사람들만 참여하도록 제한할 수도 있습니다. 레이블러는 20만 명의 풍부한 작업자 풀을 가진 플랫폼으로 대화 데이터 생성에 적합한 작업자를 쉽고 빠르게 찾을 수 있습니다.
그러나 참여자가 많다고 해서 데이터 다양성이 보장되는 것은 아닙니다. 챗봇의 페르소나를 유지하면서 맞춤법 규정에 맞게 자연스러운 대화를 생성할 수 있는 사람은 생각보다 많지 않을 수 있습니다. 작업을 오래 진행하다 보면, 나도 모르게 반복적인 대화를 생성하거나 가이드 기준에 맞지 않는 대화를 제출할 가능성도 있습니다.
레이블러는 AI Assistant ‘레이(Lay)’의 딥러닝 기반 텍스트 유사도 측정 알고리즘을 통해 대화 생성(Dialog Generation) 태스크의 다양성을 보장합니다. '레이'는 1개 작업 내에서 반복적인 문장을 발견하여 제외하며, 이미 제출된 대화들 중에서 유사한 패턴의 대화를 찾아내어 제거할 수 있습니다. 비속어나 맞춤법 오류가 있다면 맞춤법 검사기 API를 사용하여 이미 제출된 작업 내용을 보완하는 것도 가능합니다.
자연스러운 범위 내에서 맞춤법 오류를 약간만 허용하고 싶다면, 대화의 자연스러운 정도를 다른 사람들에게 평가하게 만들어보는 건 어떨까요? 나에게 필요한 조건에 따라 다양한 태스크 처리 방식과 옵션 추가가 가능한 레이블러의 유연하고 강력한 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’를 활용하면 태스크에 적합한 최적의 방법을 가장 쉽게 적용할 수 있습니다.
나의 태스크에 적합한 최적의 방식을 찾았다면, 레이블러 브레인 API를 통해 AI 서비스나 제품에 직접 연동할 수도 있습니다. 처음에는 작게 시작해서 적합한 방식을 찾아보고, 데이터의 양을 늘려가는 애자일 개발 프로세스를 적용하면 실시간으로 학습하는 AI 챗봇을 만들 수 있습니다.
Result
강아지 챗봇의 페르소나에 적합한 173만 문장의 대화 데이터가 생성되었습니다.
레이블러를 사용하여 호기심이 많고 사랑스러운 성격의 ‘코코’와 다정하고 듬직한 성격의 ‘마스’ 두 챗봇의 페르소나에 적합한 173만 문장의 대화 데이터가 만들어졌습니다. 주어만 변경하여 동일한 질문이나 답변을 하는 저품질 문장은 모두 삭제되었으며, 비속어와 맞춤법 오류는 자동 필터링을 통해 교정하거나 제외되었습니다. 173만 문장이라는 대량의 대화 데이터 생성을 위해 사람을 모집하여 교육하거나 관리하는 일은 필요하지 않았습니다.
수많은 사람을 모집하기 위해, 혹은 저품질 데이터를 일일이 제외하기 위해 사용되어야 했던 시간은 더 빠른 AI 서비스 개발에 사용될 수 있습니다. 레이블러는 AI 서비스와 제품을 개발하는 고객을 위한 새로운 AIOps로써, 고객사가 누구보다 빠르게 AI/ML 개발에 집중할 수 있도록 지원합니다.