더 똑똑한 AI 음성인식에 필요한 숫자발화 데이터 수집

Info.

Customer

Location

Seoul, Korea

AI Type

AI Voice Services

Task type

Audio Utterance Collection

Overview

음성인식 기반 AI 서비스 오디오 데이터 확인하기

숫자를 인식하는 AI를 개발하려면 방대한 양의 음성 데이터가 필요합니다.

KT alpha는 커머스와 G커머스, 콘텐츠 유통에 앞장서는 기업으로, NIA 인공지능 학습용 데이터 구축 사업에서 숫자가 포함된 패턴 발화 데이터 구축의 주관 기업으로 참여했습니다. 음성 인식은 업종과 분야를 막론하고 생활에 밀접하게 사용되는 AI 기술이죠. 커머스와 콘텐츠 분야도 마찬가지인데요. 보고 싶은 프로그램을 찾고 싶을 때 “지니야 드라마 찾아줘”라고 AI 스피커에게 말하는 일은 이제 우리에게 일상이 되었습니다.

더 뛰어난 성능의 지니를 만나려면 무엇이 필요할까요? 내가 밥을 먹으면서 우물거리면서 말해도, 지니가 찰떡같이 알아듣고 밥친구 영상을 틀어줄 수 있을까요? 혹은 더 나아가 목소리만으로 은행 업무를 처리하는 것도 가능할까요? 콜센터에 전화해서 오랜 시간을 대기하지 않아도 용건을 먼저 말하면 AI가 자동으로 내가 원하는 부서에 전화 연결을 해줄 수도 있습니다. 음성 인식 기술은 끝없이 발전하고 있고 활용 가능성도 무궁무진합니다.

AI 음성인식에서 숫자 표현의 올바른 이해는 매우 중요합니다. 숫자는 일반 단어와 다른 패턴의 읽기 방식을 가지고 있기 때문인데요. 자릿수가 같은 전화번호와 몇 억 원을 다르게 읽는 것처럼요. 전화번호나 계좌번호, 큰 단위의 금액처럼 숫자가 늘어날수록 읽는 방법은 더 복잡해집니다. 숫자 패턴에 대해 제대로 학습한 AI는 사람들의 말을 더 정확하게 이해할 수 있고, 더 넓은 분야에 활용될 수 있습니다. KT alpha는 1억 시간이 넘는 방대한 양의 숫자 패턴 발화 데이터 수집을 위해 레이블러를 이용했습니다.

Problem

지역, 성별은 물론 녹음 기기까지… 수많은 조건을 맞춘 음성 수집이 가능할까요?

대부분의 AI 학습데이터가 그렇지만, 특히 음성 데이터는 다양성 측면에서 매우 폭넓은 수집이 진행되어야 합니다. 동일한 문장이라도 다른 사람이 읽었다면 같은 데이터로 볼 수 없거든요. 적어도 음성 데이터에 한해서는 그렇습니다. 100명의 사람이 있다면 100개의 다른 음성과 발화 습관이 존재하니까요. 목소리는 연령과 성별에 따라 달라지며, 지역마다 다른 억양과 강세를 가지고 있습니다.

녹음 환경도 가지각색입니다. 매번 조용한 방 안에서만 전화하는 건 아니니까요. 때로는 시끄러운 매미 소리를 들으며 대화할 수 있고, 혹은 카페의 잔잔한 음악을 배경으로 말할 수도 있습니다. 통화 기기에 따라서도 차이가 발생합니다. 스피커폰과 유선 이어폰, 무선 이어폰의 통화 품질은 당연히 달라질 거예요.

이 모든 조건에 따라 각각의 카테고리별로 적절한 수량의 음성 데이터를 원활하게 수집하려면 어떻게 해야 할까요? 먼저 전국 각지에서 연령, 성별에 맞는 참여자를 골고루 모집해야겠죠. 전체 데이터에서 일부 지역이 제외된다면 해당 지역 사용자들의 음성을 제대로 인식하지 못하는 AI가 될 거예요. 같은 지역 내에서도 여성과 남성의 음성 데이터가 균등하게 수집되어야 합니다. 녹음 환경과 기기도 마찬가지입니다. 이 많은 사람들을 모집하고 관리하는 일을 어떻게 진행할 수 있을까요?

뛰어난 성능의 AI 음성인식을 위해서는 숫자 정보의 유형도 고려해야 합니다. KT alpha는 숫자 정보를 통계, 교통, 금융, 단위, 전화번호 등 유형에 따라 84개 카테고리로 구분했습니다. 여기에 지역·연령·성별·소음·녹음 기기 등 발화자와 녹음 환경을 함께 고려하면 총 864개의 카테고리에 맞춰 데이터를 수집해야 합니다.

당연히 864개의 카테고리별로 데이터 수량을 균일하게 조정할 방법도 필요합니다. 특정 카테고리에 데이터가 몰리면 전체 데이터의 다양성을 해치고 불필요한 비용이 증가할 수 있으니까요. 수많은 사람들을 동원하고 조건에 맞는 음성 데이터를 원할하게 수집하려면 보다 효율적인 방법이 필요합니다.

Solution

최적화된 모바일 작업 도구와 수량 조절 시스템을 통한 효율적 음성 수집

복잡한 조건을 가진 태스크일수록 가장 쉽고 간단한 방법을 사용해야 작업 효율을 높일 수 있습니다. 레이블러는 모바일로 간편하게 녹음할 수 있는 최적화된 작업 도구를 제공합니다. 참여자는 도구 내에서 지역이나 연령, 성별 등 참여자의 조건을 간단하게 선택할 수 있습니다. 또한, 휴대폰 마이크와 유선·무선 마이크 등 작업자가 선택한 녹음 기기를 자동으로 판단하고, 소음 데시벨을 자동 측정하여 휴먼 에러의 가능성을 차단합니다.

지역·연령·성별·주변 소음·녹음 기기 등에 따라 세분화된 864개 카테고리별 수량 조절은 어떻게 진행되었을까요? 레이블러는 카테고리별로 적정 수량이 채워지면 더 이상의 참여가 불가능하도록 자동으로 조정하는 프로세스를 가지고 있습니다. 음성뿐 아니라 텍스트, 이미지 등 모든 수집 태스크에 대해 적용되며 모집 수량을 충족한 카테고리는 자동으로 제출이 제한됩니다. 여기에 누적 작업자 20만 명에 이르는 레이블러 플랫폼이 전국 각지의 연령, 성별에 맞는 참여자를 지속적으로 제공하여 원활한 데이터 수집을 뒷받침합니다.

참여자가 읽어야 하는 스크립트에 오류가 있는 경우도 있습니다. ‘서울유유 200미리’라는 잘못된 스크립트를 그대로 읽으면 안 되겠죠. 혹은 스크립트가 중복으로 들어갈 수도 있습니다. 15만 개에 가까운 방대한 양의 스크립트를 제공하다보면 발생할 수 있는 문제들입니다. 레이블러는 공백문자, 특수기호 등을 제거하고 string hash를 생성해서 비교하는 방식으로 중복 스크립트를 제외하여 데이터를 정제합니다. 또한, 맞춤법 검사기 API를 사용하여 오탈자를 자동으로 교정하거나 삭제할 수 있습니다.

수백 개에 이르는 카테고리별 수량 조절과 오탈자 교정 및 삭제, 중복 스크립트 제거, 녹음 기기 인식 등의 모든 기능을 자동으로 컨트롤할 수 있다면 어떨까요? 레이블러의 유연하고 강력한 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’는 나에게 필요한 조건에 따라 다양한 옵션을 설정하여 수집 과정을 자동화할 수 있습니다. 녹음된 음성에 대해 여러 사람에게 평가를 맡기는 것도 가능합니다. 음성 수집에 어떤 방식이 가장 적합한지 고민되시나요? 레이블러 브레인 API는 유형에 따라 최적의 태스크 처리 방식을 보유하고 있어, 데이터 구축에 가장 효과적인 방식을 제공합니다.


Result

864개 카테고리에 적합한 1만 시간의 음성 데이터를 수집했습니다.

KT alpha는 레이블러를 사용하여 숫자 유형과 발화자, 발화 환경에 따른 864개 카테고리에 적합한 450만 개의 숫자 발화 음성 데이터를 수집했습니다. 총 1만 3천 시간의 녹음 분량은 한자어, 고유어, 외래어 등이 고루 분포되어 패턴에 대한 다양성을 반영했습니다. 이 과정에서 전국 각지에서 연령별로 사람을 모집하거나 수백 개에 달하는 카테고리별 수량을 맞추기 위해 시간과 비용을 무한대로 들일 필요는 없었습니다.

레이블러를 사용한 숫자 발화 음성 데이터는 한국정보통신기술협회(TTA)의 검증 목표 90%를 초과한 99.23%를 달성했습니다. 새로운 방식의 AIOps 레이블러는 고객이 더 적은 노력으로 더 좋은 품질의 데이터를 구축할 수 있도록 지원합니다.

더 똑똑한 AI 음성인식에 필요한 숫자발화 데이터 수집

Info.

Customer

Location

Seoul, Korea

AI Type

AI Voice Services

Task type

Audio Utterance Collection

Overview

음성인식 기반 AI 서비스 오디오 데이터 확인하기

숫자를 인식하는 AI를 개발하려면 방대한 양의 음성 데이터가 필요합니다.

KT alpha는 커머스와 G커머스, 콘텐츠 유통에 앞장서는 기업으로, NIA 인공지능 학습용 데이터 구축 사업에서 숫자가 포함된 패턴 발화 데이터 구축의 주관 기업으로 참여했습니다. 음성 인식은 업종과 분야를 막론하고 생활에 밀접하게 사용되는 AI 기술이죠. 커머스와 콘텐츠 분야도 마찬가지인데요. 보고 싶은 프로그램을 찾고 싶을 때 “지니야 드라마 찾아줘”라고 AI 스피커에게 말하는 일은 이제 우리에게 일상이 되었습니다.

더 뛰어난 성능의 지니를 만나려면 무엇이 필요할까요? 내가 밥을 먹으면서 우물거리면서 말해도, 지니가 찰떡같이 알아듣고 밥친구 영상을 틀어줄 수 있을까요? 혹은 더 나아가 목소리만으로 은행 업무를 처리하는 것도 가능할까요? 콜센터에 전화해서 오랜 시간을 대기하지 않아도 용건을 먼저 말하면 AI가 자동으로 내가 원하는 부서에 전화 연결을 해줄 수도 있습니다. 음성 인식 기술은 끝없이 발전하고 있고 활용 가능성도 무궁무진합니다.

AI 음성인식에서 숫자 표현의 올바른 이해는 매우 중요합니다. 숫자는 일반 단어와 다른 패턴의 읽기 방식을 가지고 있기 때문인데요. 자릿수가 같은 전화번호와 몇 억 원을 다르게 읽는 것처럼요. 전화번호나 계좌번호, 큰 단위의 금액처럼 숫자가 늘어날수록 읽는 방법은 더 복잡해집니다. 숫자 패턴에 대해 제대로 학습한 AI는 사람들의 말을 더 정확하게 이해할 수 있고, 더 넓은 분야에 활용될 수 있습니다. KT alpha는 1억 시간이 넘는 방대한 양의 숫자 패턴 발화 데이터 수집을 위해 레이블러를 이용했습니다.

Problem

지역, 성별은 물론 녹음 기기까지… 수많은 조건을 맞춘 음성 수집이 가능할까요?

대부분의 AI 학습데이터가 그렇지만, 특히 음성 데이터는 다양성 측면에서 매우 폭넓은 수집이 진행되어야 합니다. 동일한 문장이라도 다른 사람이 읽었다면 같은 데이터로 볼 수 없거든요. 적어도 음성 데이터에 한해서는 그렇습니다. 100명의 사람이 있다면 100개의 다른 음성과 발화 습관이 존재하니까요. 목소리는 연령과 성별에 따라 달라지며, 지역마다 다른 억양과 강세를 가지고 있습니다.

녹음 환경도 가지각색입니다. 매번 조용한 방 안에서만 전화하는 건 아니니까요. 때로는 시끄러운 매미 소리를 들으며 대화할 수 있고, 혹은 카페의 잔잔한 음악을 배경으로 말할 수도 있습니다. 통화 기기에 따라서도 차이가 발생합니다. 스피커폰과 유선 이어폰, 무선 이어폰의 통화 품질은 당연히 달라질 거예요.

이 모든 조건에 따라 각각의 카테고리별로 적절한 수량의 음성 데이터를 원활하게 수집하려면 어떻게 해야 할까요? 먼저 전국 각지에서 연령, 성별에 맞는 참여자를 골고루 모집해야겠죠. 전체 데이터에서 일부 지역이 제외된다면 해당 지역 사용자들의 음성을 제대로 인식하지 못하는 AI가 될 거예요. 같은 지역 내에서도 여성과 남성의 음성 데이터가 균등하게 수집되어야 합니다. 녹음 환경과 기기도 마찬가지입니다. 이 많은 사람들을 모집하고 관리하는 일을 어떻게 진행할 수 있을까요?

뛰어난 성능의 AI 음성인식을 위해서는 숫자 정보의 유형도 고려해야 합니다. KT alpha는 숫자 정보를 통계, 교통, 금융, 단위, 전화번호 등 유형에 따라 84개 카테고리로 구분했습니다. 여기에 지역·연령·성별·소음·녹음 기기 등 발화자와 녹음 환경을 함께 고려하면 총 864개의 카테고리에 맞춰 데이터를 수집해야 합니다.

당연히 864개의 카테고리별로 데이터 수량을 균일하게 조정할 방법도 필요합니다. 특정 카테고리에 데이터가 몰리면 전체 데이터의 다양성을 해치고 불필요한 비용이 증가할 수 있으니까요. 수많은 사람들을 동원하고 조건에 맞는 음성 데이터를 원할하게 수집하려면 보다 효율적인 방법이 필요합니다.

Solution

최적화된 모바일 작업 도구와 수량 조절 시스템을 통한 효율적 음성 수집

복잡한 조건을 가진 태스크일수록 가장 쉽고 간단한 방법을 사용해야 작업 효율을 높일 수 있습니다. 레이블러는 모바일로 간편하게 녹음할 수 있는 최적화된 작업 도구를 제공합니다. 참여자는 도구 내에서 지역이나 연령, 성별 등 참여자의 조건을 간단하게 선택할 수 있습니다. 또한, 휴대폰 마이크와 유선·무선 마이크 등 작업자가 선택한 녹음 기기를 자동으로 판단하고, 소음 데시벨을 자동 측정하여 휴먼 에러의 가능성을 차단합니다.

지역·연령·성별·주변 소음·녹음 기기 등에 따라 세분화된 864개 카테고리별 수량 조절은 어떻게 진행되었을까요? 레이블러는 카테고리별로 적정 수량이 채워지면 더 이상의 참여가 불가능하도록 자동으로 조정하는 프로세스를 가지고 있습니다. 음성뿐 아니라 텍스트, 이미지 등 모든 수집 태스크에 대해 적용되며 모집 수량을 충족한 카테고리는 자동으로 제출이 제한됩니다. 여기에 누적 작업자 20만 명에 이르는 레이블러 플랫폼이 전국 각지의 연령, 성별에 맞는 참여자를 지속적으로 제공하여 원활한 데이터 수집을 뒷받침합니다.

참여자가 읽어야 하는 스크립트에 오류가 있는 경우도 있습니다. ‘서울유유 200미리’라는 잘못된 스크립트를 그대로 읽으면 안 되겠죠. 혹은 스크립트가 중복으로 들어갈 수도 있습니다. 15만 개에 가까운 방대한 양의 스크립트를 제공하다보면 발생할 수 있는 문제들입니다. 레이블러는 공백문자, 특수기호 등을 제거하고 string hash를 생성해서 비교하는 방식으로 중복 스크립트를 제외하여 데이터를 정제합니다. 또한, 맞춤법 검사기 API를 사용하여 오탈자를 자동으로 교정하거나 삭제할 수 있습니다.

수백 개에 이르는 카테고리별 수량 조절과 오탈자 교정 및 삭제, 중복 스크립트 제거, 녹음 기기 인식 등의 모든 기능을 자동으로 컨트롤할 수 있다면 어떨까요? 레이블러의 유연하고 강력한 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’는 나에게 필요한 조건에 따라 다양한 옵션을 설정하여 수집 과정을 자동화할 수 있습니다. 녹음된 음성에 대해 여러 사람에게 평가를 맡기는 것도 가능합니다. 음성 수집에 어떤 방식이 가장 적합한지 고민되시나요? 레이블러 브레인 API는 유형에 따라 최적의 태스크 처리 방식을 보유하고 있어, 데이터 구축에 가장 효과적인 방식을 제공합니다.


Result

864개 카테고리에 적합한 1만 시간의 음성 데이터를 수집했습니다.

KT alpha는 레이블러를 사용하여 숫자 유형과 발화자, 발화 환경에 따른 864개 카테고리에 적합한 450만 개의 숫자 발화 음성 데이터를 수집했습니다. 총 1만 3천 시간의 녹음 분량은 한자어, 고유어, 외래어 등이 고루 분포되어 패턴에 대한 다양성을 반영했습니다. 이 과정에서 전국 각지에서 연령별로 사람을 모집하거나 수백 개에 달하는 카테고리별 수량을 맞추기 위해 시간과 비용을 무한대로 들일 필요는 없었습니다.

레이블러를 사용한 숫자 발화 음성 데이터는 한국정보통신기술협회(TTA)의 검증 목표 90%를 초과한 99.23%를 달성했습니다. 새로운 방식의 AIOps 레이블러는 고객이 더 적은 노력으로 더 좋은 품질의 데이터를 구축할 수 있도록 지원합니다.

더 똑똑한 AI 음성인식에 필요한 숫자발화 데이터 수집

Info.

Customer

Location

Seoul, Korea

AI Type

AI Voice Services

Task type

Audio Utterance Collection

Overview

음성인식 기반 AI 서비스 오디오 데이터 확인하기

숫자를 인식하는 AI를 개발하려면 방대한 양의 음성 데이터가 필요합니다.

KT alpha는 커머스와 G커머스, 콘텐츠 유통에 앞장서는 기업으로, NIA 인공지능 학습용 데이터 구축 사업에서 숫자가 포함된 패턴 발화 데이터 구축의 주관 기업으로 참여했습니다. 음성 인식은 업종과 분야를 막론하고 생활에 밀접하게 사용되는 AI 기술이죠. 커머스와 콘텐츠 분야도 마찬가지인데요. 보고 싶은 프로그램을 찾고 싶을 때 “지니야 드라마 찾아줘”라고 AI 스피커에게 말하는 일은 이제 우리에게 일상이 되었습니다.

더 뛰어난 성능의 지니를 만나려면 무엇이 필요할까요? 내가 밥을 먹으면서 우물거리면서 말해도, 지니가 찰떡같이 알아듣고 밥친구 영상을 틀어줄 수 있을까요? 혹은 더 나아가 목소리만으로 은행 업무를 처리하는 것도 가능할까요? 콜센터에 전화해서 오랜 시간을 대기하지 않아도 용건을 먼저 말하면 AI가 자동으로 내가 원하는 부서에 전화 연결을 해줄 수도 있습니다. 음성 인식 기술은 끝없이 발전하고 있고 활용 가능성도 무궁무진합니다.

AI 음성인식에서 숫자 표현의 올바른 이해는 매우 중요합니다. 숫자는 일반 단어와 다른 패턴의 읽기 방식을 가지고 있기 때문인데요. 자릿수가 같은 전화번호와 몇 억 원을 다르게 읽는 것처럼요. 전화번호나 계좌번호, 큰 단위의 금액처럼 숫자가 늘어날수록 읽는 방법은 더 복잡해집니다. 숫자 패턴에 대해 제대로 학습한 AI는 사람들의 말을 더 정확하게 이해할 수 있고, 더 넓은 분야에 활용될 수 있습니다. KT alpha는 1억 시간이 넘는 방대한 양의 숫자 패턴 발화 데이터 수집을 위해 레이블러를 이용했습니다.

Problem

지역, 성별은 물론 녹음 기기까지… 수많은 조건을 맞춘 음성 수집이 가능할까요?

대부분의 AI 학습데이터가 그렇지만, 특히 음성 데이터는 다양성 측면에서 매우 폭넓은 수집이 진행되어야 합니다. 동일한 문장이라도 다른 사람이 읽었다면 같은 데이터로 볼 수 없거든요. 적어도 음성 데이터에 한해서는 그렇습니다. 100명의 사람이 있다면 100개의 다른 음성과 발화 습관이 존재하니까요. 목소리는 연령과 성별에 따라 달라지며, 지역마다 다른 억양과 강세를 가지고 있습니다.

녹음 환경도 가지각색입니다. 매번 조용한 방 안에서만 전화하는 건 아니니까요. 때로는 시끄러운 매미 소리를 들으며 대화할 수 있고, 혹은 카페의 잔잔한 음악을 배경으로 말할 수도 있습니다. 통화 기기에 따라서도 차이가 발생합니다. 스피커폰과 유선 이어폰, 무선 이어폰의 통화 품질은 당연히 달라질 거예요.

이 모든 조건에 따라 각각의 카테고리별로 적절한 수량의 음성 데이터를 원활하게 수집하려면 어떻게 해야 할까요? 먼저 전국 각지에서 연령, 성별에 맞는 참여자를 골고루 모집해야겠죠. 전체 데이터에서 일부 지역이 제외된다면 해당 지역 사용자들의 음성을 제대로 인식하지 못하는 AI가 될 거예요. 같은 지역 내에서도 여성과 남성의 음성 데이터가 균등하게 수집되어야 합니다. 녹음 환경과 기기도 마찬가지입니다. 이 많은 사람들을 모집하고 관리하는 일을 어떻게 진행할 수 있을까요?

뛰어난 성능의 AI 음성인식을 위해서는 숫자 정보의 유형도 고려해야 합니다. KT alpha는 숫자 정보를 통계, 교통, 금융, 단위, 전화번호 등 유형에 따라 84개 카테고리로 구분했습니다. 여기에 지역·연령·성별·소음·녹음 기기 등 발화자와 녹음 환경을 함께 고려하면 총 864개의 카테고리에 맞춰 데이터를 수집해야 합니다.

당연히 864개의 카테고리별로 데이터 수량을 균일하게 조정할 방법도 필요합니다. 특정 카테고리에 데이터가 몰리면 전체 데이터의 다양성을 해치고 불필요한 비용이 증가할 수 있으니까요. 수많은 사람들을 동원하고 조건에 맞는 음성 데이터를 원할하게 수집하려면 보다 효율적인 방법이 필요합니다.

Solution

최적화된 모바일 작업 도구와 수량 조절 시스템을 통한 효율적 음성 수집

복잡한 조건을 가진 태스크일수록 가장 쉽고 간단한 방법을 사용해야 작업 효율을 높일 수 있습니다. 레이블러는 모바일로 간편하게 녹음할 수 있는 최적화된 작업 도구를 제공합니다. 참여자는 도구 내에서 지역이나 연령, 성별 등 참여자의 조건을 간단하게 선택할 수 있습니다. 또한, 휴대폰 마이크와 유선·무선 마이크 등 작업자가 선택한 녹음 기기를 자동으로 판단하고, 소음 데시벨을 자동 측정하여 휴먼 에러의 가능성을 차단합니다.

지역·연령·성별·주변 소음·녹음 기기 등에 따라 세분화된 864개 카테고리별 수량 조절은 어떻게 진행되었을까요? 레이블러는 카테고리별로 적정 수량이 채워지면 더 이상의 참여가 불가능하도록 자동으로 조정하는 프로세스를 가지고 있습니다. 음성뿐 아니라 텍스트, 이미지 등 모든 수집 태스크에 대해 적용되며 모집 수량을 충족한 카테고리는 자동으로 제출이 제한됩니다. 여기에 누적 작업자 20만 명에 이르는 레이블러 플랫폼이 전국 각지의 연령, 성별에 맞는 참여자를 지속적으로 제공하여 원활한 데이터 수집을 뒷받침합니다.

참여자가 읽어야 하는 스크립트에 오류가 있는 경우도 있습니다. ‘서울유유 200미리’라는 잘못된 스크립트를 그대로 읽으면 안 되겠죠. 혹은 스크립트가 중복으로 들어갈 수도 있습니다. 15만 개에 가까운 방대한 양의 스크립트를 제공하다보면 발생할 수 있는 문제들입니다. 레이블러는 공백문자, 특수기호 등을 제거하고 string hash를 생성해서 비교하는 방식으로 중복 스크립트를 제외하여 데이터를 정제합니다. 또한, 맞춤법 검사기 API를 사용하여 오탈자를 자동으로 교정하거나 삭제할 수 있습니다.

수백 개에 이르는 카테고리별 수량 조절과 오탈자 교정 및 삭제, 중복 스크립트 제거, 녹음 기기 인식 등의 모든 기능을 자동으로 컨트롤할 수 있다면 어떨까요? 레이블러의 유연하고 강력한 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’는 나에게 필요한 조건에 따라 다양한 옵션을 설정하여 수집 과정을 자동화할 수 있습니다. 녹음된 음성에 대해 여러 사람에게 평가를 맡기는 것도 가능합니다. 음성 수집에 어떤 방식이 가장 적합한지 고민되시나요? 레이블러 브레인 API는 유형에 따라 최적의 태스크 처리 방식을 보유하고 있어, 데이터 구축에 가장 효과적인 방식을 제공합니다.


Result

864개 카테고리에 적합한 1만 시간의 음성 데이터를 수집했습니다.

KT alpha는 레이블러를 사용하여 숫자 유형과 발화자, 발화 환경에 따른 864개 카테고리에 적합한 450만 개의 숫자 발화 음성 데이터를 수집했습니다. 총 1만 3천 시간의 녹음 분량은 한자어, 고유어, 외래어 등이 고루 분포되어 패턴에 대한 다양성을 반영했습니다. 이 과정에서 전국 각지에서 연령별로 사람을 모집하거나 수백 개에 달하는 카테고리별 수량을 맞추기 위해 시간과 비용을 무한대로 들일 필요는 없었습니다.

레이블러를 사용한 숫자 발화 음성 데이터는 한국정보통신기술협회(TTA)의 검증 목표 90%를 초과한 99.23%를 달성했습니다. 새로운 방식의 AIOps 레이블러는 고객이 더 적은 노력으로 더 좋은 품질의 데이터를 구축할 수 있도록 지원합니다.