AI-OCR 솔루션 최적화를 위한 의료 문서 수집 및 레이블링

Info.

Customer

Location

Gyeonggi-do, Korea

AI Type

OCR (Optical Character Recognition)

Task type

Image Collection, Polygon Annotation

Overview

AI-OCR 솔루션의 최적화를 위해서는 도메인에 적합한 양질의 데이터가 필요합니다.

업스테이지는 AI 기술 적용에 필요한 모든 시스템을 ‘One Package’로 담은 Total AI Solution인 ‘AI Pack’을 제공하여 기업의 AI 혁신을 돕습니다. 고객사는 Upstage AI Pack을 통해 AI 기술 도입 시 겪는 어려움을 쉽게 해결할 수 있으며, 적은 시간과 인력으로 맞춤형 AI 모델 및 서비스를 적용할 수 있습니다.

OCR Pack’은 문서 이미지 내 텍스트에서 고객이 원하는 정보를 추출하는 솔루션입니다. 대량의 문서를 다루는 기업이라면 업스테이지의 OCR Pack을 통한 업무 자동화로 수기 업무에 소요되는 시간과 비용을 절약하고, 더 많은 문서를 쉽고 빠르고 정확하게 데이터로 만들 수 있습니다.

특히 금융, 보험 등 전문적이고 민감한 문서를 다루는 고객사에 효과적인 솔루션을 제공하려면 해당 도메인에서 사용되는 모든 형태의 문서를 빠르고 정확하게 인식할 수 있는 AI-OCR 기술이 반드시 필요합니다.

더 빠르고 정확한 AI-OCR 기술 개발을 위해 업스테이지는 레이블러에서 보험금 청구 문서의 수집과 레이블링을 진행했습니다.

Problem

의료 정보가 담긴 민감한 데이터를 쉽고 안전하게 수집하여 레이블링할 방법이 있을까요?

OCR은 잘 알려진 기술이지만, 민감한 데이터에 대해서는 그 성능을 반드시 장담하기 어렵습니다. 의료 정보와 같은 개인의 내밀한 정보를 선뜻 데이터로 제공하는 사람은 많지 않기 때문입니다. 그러나 이런 민감한 데이터야말로 삶의 가장 중요한 정보들을 담고 있다는 점에서 가장 강력한 AI 혁신의 대상이 될 수 있습니다. 업스테이지가 OCR Pack에서 제공하는 보험금 청구 문서의 자동 데이터화도 그중 하나입니다.

보험 분야에서 뛰어난 성능의 OCR 솔루션을 제공하기 위해서는 보험금 청구에 사용되는 의료 데이터의 수집이 중요합니다. 데이터는 수많은 문서 형태를 포함할 수 있도록 최대한 다양해야 하며 많은 사람에게 제공받는 것이 좋습니다. 그러나 의료 정보가 담긴 민감한 데이터를 직접 수집하는 것은 좋은 해결책이 되기 어렵습니다. 사람들은 이런 데이터를 쉽게 제공하지 않으며, 데이터 수집 이후에도 저품질의 데이터를 선별하는 일에 많은 시간과 비용이 들어가기 때문입니다.

문서 내 개인정보 마스킹도 해결해야 할 문제입니다. 각종 개인정보가 담긴 의료문서를 그대로 수집하여 AI 학습에 사용하는 것은 위험할 수 있으며, 적절하지 않습니다. 또한, 개인정보를 마스킹하는 것에서 그치지 않고 해당 영역을 폴리곤(Polygon)으로 레이블링하여 다른 영역과 구분해야 제대로 된 학습 효과를 기대할 수 있습니다. 작업을 위한 도구 개발과 레이블링 인력도 당연히 필요합니다. 인력 확보 이후에도 지난한 교육과 피드백 과정이 있을 것이라는 점도 쉽게 예상할 수 있습니다.

이 과정에 들어가는 시간과 비용을 줄일 수 있다면 어떨까요? 더 빠른 주기로 AI/ML 제품을 개선한다는 가장 중요한 일에 집중하려면, 다른 해결책이 필요합니다.

Solution

레이블러의 풍부한 작업자 풀과 높은 신뢰도는 민감 데이터의 원활한 수집을 가능하게 합니다.

레이블러를 이용한 업스테이지의 보험금 청구 문서 수집은 원활하게 진행되었습니다. 의료 정보가 담긴 민감한 데이터의 수집을 위해 사람을 모을 필요는 없었습니다. 데이터를 제공할 의향이 있는 사람들이 이미 레이블러에 존재했기 때문입니다.

의료 문서처럼 민감한 데이터를 수월하게 수집하려면 플랫폼에 대한 데이터 제공자들의 신뢰가 무엇보다 중요합니다. 레이블러는 적절한 보상 체계와 관리 시스템을 통해 총 120억 원 규모의 AI 학습데이터 구축에 참여한 20만 명 작업자와 신뢰 관계를 형성했습니다. 사람들의 신뢰는 의료 정보와 같은 민감한 데이터의 원활한 수집을 통해 완성도 높은 데이터로 이어집니다.

수집 데이터의 다양성도 놓칠 수 없는 부분입니다. 진료비 영수증과 수술확인서의 수집 속도는 결코 같을 수 없습니다. 데이터의 불균형은 AI/ML 제품 개발 속도를 지연시키고 불필요한 비용을 발생시키는 원인이 될 수 있습니다. 레이블러는 이 과정을 효과적으로 제어하는 AIOps로써 데이터 수집에 들어갈 노력과 리스크를 줄이고, 더 중요한 AI/ML 제품 개선에 집중할 수 있도록 돕습니다.

이미지 수집(Image Collection) 태스크의 다양성은 레이블러의 AI Assistant ‘레이(Lay)’의 딥러닝 기반 이미지 유사도 측정 알고리즘을 통해 충족됩니다. '레이'는 수십만 장의 이미지 속에서 완전히 동일한 이미지뿐만 아니라 형태적으로 유사한 이미지를 찾아내 제거하며, 이 모든 과정은 레이블러의 강력한 퀄리티 컨트롤 시스템인 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’를 통해 완전히 자동으로 이루어집니다.

더 쉽고 빠른 해결책이 필요하다면 레이블러 브레인 API를 사용할 수 있습니다. 이미지 수집(Image Collection) API를 호출하면 레이블러 플랫폼(PC, MO)에서 사람들이 제출한 이미지에 대해 FRIDAY가 자동으로 필터링한 결과가 API Callback Response로 전달됩니다. 휴먼 리뷰가 필요한 태스크라면 EWF의 리뷰 시스템을 통해 검증된 작업자를 대상으로 평가받은 작업 결과를 받아볼 수 있습니다.

Result

짧은 시간에 민감한 데이터를 다양하게 수집했습니다. 절약한 시간과 비용은 더 중요한 AI 솔루션 개발에 사용됩니다.

업스테이지는 레이블러로 의료 정보가 담긴 민감한 문서 이미지를 단기간에 수집하여 레이블링했습니다. 진료비 영수증과 진단서 등 일반적인 의료 문서는 물론, 수술확인서처럼 수집이 어려운 문서를 포함한 다양한 데이터가 구축되었습니다.

문서 내 개인정보는 폴리곤으로 마스킹 되었으며, 별도의 작업 도구 개발이나 인력 모집 및 관리는 필요하지 않았습니다. 저품질 데이터를 선별하고 문서 유형에 따라 수량을 조절하여 데이터 균형을 맞추는 일에 과도한 노력을 기울일 필요도 없었습니다. 이렇게 절약한 시간과 비용은 가장 긴급하고 중요한 일에 사용될 것입니다.

레이블러는 신뢰도 높은 플랫폼과 효과적인 퀄리티 컨트롤 시스템을 가진 강력한 AIOps로써, 고객사가 누구보다 빠르게 AI/ML 제품과 서비스를 출시 및 개선해나갈 수 있도록 지원합니다.

"레이블러로 AI-OCR 솔루션 개발에 필요한 의료 문서 데이터를 다양하게 수집할 수 있었습니다. 요구사항의 빠른 반영과 예상치 못했던 이슈 리포팅도 도움이 되었습니다. 다음 기회에도 레이블러를 사용할 수 있으면 좋겠습니다."

- Upstage

AI-OCR 솔루션 최적화를 위한 의료 문서 수집 및 레이블링

Info.

Customer

Location

Gyeonggi-do, Korea

AI Type

OCR (Optical Character Recognition)

Task type

Image Collection, Polygon Annotation

Overview

AI-OCR 솔루션의 최적화를 위해서는 도메인에 적합한 양질의 데이터가 필요합니다.

업스테이지는 AI 기술 적용에 필요한 모든 시스템을 ‘One Package’로 담은 Total AI Solution인 ‘AI Pack’을 제공하여 기업의 AI 혁신을 돕습니다. 고객사는 Upstage AI Pack을 통해 AI 기술 도입 시 겪는 어려움을 쉽게 해결할 수 있으며, 적은 시간과 인력으로 맞춤형 AI 모델 및 서비스를 적용할 수 있습니다.

OCR Pack’은 문서 이미지 내 텍스트에서 고객이 원하는 정보를 추출하는 솔루션입니다. 대량의 문서를 다루는 기업이라면 업스테이지의 OCR Pack을 통한 업무 자동화로 수기 업무에 소요되는 시간과 비용을 절약하고, 더 많은 문서를 쉽고 빠르고 정확하게 데이터로 만들 수 있습니다.

특히 금융, 보험 등 전문적이고 민감한 문서를 다루는 고객사에 효과적인 솔루션을 제공하려면 해당 도메인에서 사용되는 모든 형태의 문서를 빠르고 정확하게 인식할 수 있는 AI-OCR 기술이 반드시 필요합니다.

더 빠르고 정확한 AI-OCR 기술 개발을 위해 업스테이지는 레이블러에서 보험금 청구 문서의 수집과 레이블링을 진행했습니다.

Problem

의료 정보가 담긴 민감한 데이터를 쉽고 안전하게 수집하여 레이블링할 방법이 있을까요?

OCR은 잘 알려진 기술이지만, 민감한 데이터에 대해서는 그 성능을 반드시 장담하기 어렵습니다. 의료 정보와 같은 개인의 내밀한 정보를 선뜻 데이터로 제공하는 사람은 많지 않기 때문입니다. 그러나 이런 민감한 데이터야말로 삶의 가장 중요한 정보들을 담고 있다는 점에서 가장 강력한 AI 혁신의 대상이 될 수 있습니다. 업스테이지가 OCR Pack에서 제공하는 보험금 청구 문서의 자동 데이터화도 그중 하나입니다.

보험 분야에서 뛰어난 성능의 OCR 솔루션을 제공하기 위해서는 보험금 청구에 사용되는 의료 데이터의 수집이 중요합니다. 데이터는 수많은 문서 형태를 포함할 수 있도록 최대한 다양해야 하며 많은 사람에게 제공받는 것이 좋습니다. 그러나 의료 정보가 담긴 민감한 데이터를 직접 수집하는 것은 좋은 해결책이 되기 어렵습니다. 사람들은 이런 데이터를 쉽게 제공하지 않으며, 데이터 수집 이후에도 저품질의 데이터를 선별하는 일에 많은 시간과 비용이 들어가기 때문입니다.

문서 내 개인정보 마스킹도 해결해야 할 문제입니다. 각종 개인정보가 담긴 의료문서를 그대로 수집하여 AI 학습에 사용하는 것은 위험할 수 있으며, 적절하지 않습니다. 또한, 개인정보를 마스킹하는 것에서 그치지 않고 해당 영역을 폴리곤(Polygon)으로 레이블링하여 다른 영역과 구분해야 제대로 된 학습 효과를 기대할 수 있습니다. 작업을 위한 도구 개발과 레이블링 인력도 당연히 필요합니다. 인력 확보 이후에도 지난한 교육과 피드백 과정이 있을 것이라는 점도 쉽게 예상할 수 있습니다.

이 과정에 들어가는 시간과 비용을 줄일 수 있다면 어떨까요? 더 빠른 주기로 AI/ML 제품을 개선한다는 가장 중요한 일에 집중하려면, 다른 해결책이 필요합니다.

Solution

레이블러의 풍부한 작업자 풀과 높은 신뢰도는 민감 데이터의 원활한 수집을 가능하게 합니다.

레이블러를 이용한 업스테이지의 보험금 청구 문서 수집은 원활하게 진행되었습니다. 의료 정보가 담긴 민감한 데이터의 수집을 위해 사람을 모을 필요는 없었습니다. 데이터를 제공할 의향이 있는 사람들이 이미 레이블러에 존재했기 때문입니다.

의료 문서처럼 민감한 데이터를 수월하게 수집하려면 플랫폼에 대한 데이터 제공자들의 신뢰가 무엇보다 중요합니다. 레이블러는 적절한 보상 체계와 관리 시스템을 통해 총 120억 원 규모의 AI 학습데이터 구축에 참여한 20만 명 작업자와 신뢰 관계를 형성했습니다. 사람들의 신뢰는 의료 정보와 같은 민감한 데이터의 원활한 수집을 통해 완성도 높은 데이터로 이어집니다.

수집 데이터의 다양성도 놓칠 수 없는 부분입니다. 진료비 영수증과 수술확인서의 수집 속도는 결코 같을 수 없습니다. 데이터의 불균형은 AI/ML 제품 개발 속도를 지연시키고 불필요한 비용을 발생시키는 원인이 될 수 있습니다. 레이블러는 이 과정을 효과적으로 제어하는 AIOps로써 데이터 수집에 들어갈 노력과 리스크를 줄이고, 더 중요한 AI/ML 제품 개선에 집중할 수 있도록 돕습니다.

이미지 수집(Image Collection) 태스크의 다양성은 레이블러의 AI Assistant ‘레이(Lay)’의 딥러닝 기반 이미지 유사도 측정 알고리즘을 통해 충족됩니다. '레이'는 수십만 장의 이미지 속에서 완전히 동일한 이미지뿐만 아니라 형태적으로 유사한 이미지를 찾아내 제거하며, 이 모든 과정은 레이블러의 강력한 퀄리티 컨트롤 시스템인 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’를 통해 완전히 자동으로 이루어집니다.

더 쉽고 빠른 해결책이 필요하다면 레이블러 브레인 API를 사용할 수 있습니다. 이미지 수집(Image Collection) API를 호출하면 레이블러 플랫폼(PC, MO)에서 사람들이 제출한 이미지에 대해 FRIDAY가 자동으로 필터링한 결과가 API Callback Response로 전달됩니다. 휴먼 리뷰가 필요한 태스크라면 EWF의 리뷰 시스템을 통해 검증된 작업자를 대상으로 평가받은 작업 결과를 받아볼 수 있습니다.

Result

짧은 시간에 민감한 데이터를 다양하게 수집했습니다. 절약한 시간과 비용은 더 중요한 AI 솔루션 개발에 사용됩니다.

업스테이지는 레이블러로 의료 정보가 담긴 민감한 문서 이미지를 단기간에 수집하여 레이블링했습니다. 진료비 영수증과 진단서 등 일반적인 의료 문서는 물론, 수술확인서처럼 수집이 어려운 문서를 포함한 다양한 데이터가 구축되었습니다.

문서 내 개인정보는 폴리곤으로 마스킹 되었으며, 별도의 작업 도구 개발이나 인력 모집 및 관리는 필요하지 않았습니다. 저품질 데이터를 선별하고 문서 유형에 따라 수량을 조절하여 데이터 균형을 맞추는 일에 과도한 노력을 기울일 필요도 없었습니다. 이렇게 절약한 시간과 비용은 가장 긴급하고 중요한 일에 사용될 것입니다.

레이블러는 신뢰도 높은 플랫폼과 효과적인 퀄리티 컨트롤 시스템을 가진 강력한 AIOps로써, 고객사가 누구보다 빠르게 AI/ML 제품과 서비스를 출시 및 개선해나갈 수 있도록 지원합니다.

"레이블러로 AI-OCR 솔루션 개발에 필요한 의료 문서 데이터를 다양하게 수집할 수 있었습니다. 요구사항의 빠른 반영과 예상치 못했던 이슈 리포팅도 도움이 되었습니다. 다음 기회에도 레이블러를 사용할 수 있으면 좋겠습니다."

- Upstage

AI-OCR 솔루션 최적화를 위한 의료 문서 수집 및 레이블링

Info.

Customer

Location

Gyeonggi-do, Korea

AI Type

OCR (Optical Character Recognition)

Task type

Image Collection, Polygon Annotation

Overview

AI-OCR 솔루션의 최적화를 위해서는 도메인에 적합한 양질의 데이터가 필요합니다.

업스테이지는 AI 기술 적용에 필요한 모든 시스템을 ‘One Package’로 담은 Total AI Solution인 ‘AI Pack’을 제공하여 기업의 AI 혁신을 돕습니다. 고객사는 Upstage AI Pack을 통해 AI 기술 도입 시 겪는 어려움을 쉽게 해결할 수 있으며, 적은 시간과 인력으로 맞춤형 AI 모델 및 서비스를 적용할 수 있습니다.

OCR Pack’은 문서 이미지 내 텍스트에서 고객이 원하는 정보를 추출하는 솔루션입니다. 대량의 문서를 다루는 기업이라면 업스테이지의 OCR Pack을 통한 업무 자동화로 수기 업무에 소요되는 시간과 비용을 절약하고, 더 많은 문서를 쉽고 빠르고 정확하게 데이터로 만들 수 있습니다.

특히 금융, 보험 등 전문적이고 민감한 문서를 다루는 고객사에 효과적인 솔루션을 제공하려면 해당 도메인에서 사용되는 모든 형태의 문서를 빠르고 정확하게 인식할 수 있는 AI-OCR 기술이 반드시 필요합니다.

더 빠르고 정확한 AI-OCR 기술 개발을 위해 업스테이지는 레이블러에서 보험금 청구 문서의 수집과 레이블링을 진행했습니다.

Problem

의료 정보가 담긴 민감한 데이터를 쉽고 안전하게 수집하여 레이블링할 방법이 있을까요?

OCR은 잘 알려진 기술이지만, 민감한 데이터에 대해서는 그 성능을 반드시 장담하기 어렵습니다. 의료 정보와 같은 개인의 내밀한 정보를 선뜻 데이터로 제공하는 사람은 많지 않기 때문입니다. 그러나 이런 민감한 데이터야말로 삶의 가장 중요한 정보들을 담고 있다는 점에서 가장 강력한 AI 혁신의 대상이 될 수 있습니다. 업스테이지가 OCR Pack에서 제공하는 보험금 청구 문서의 자동 데이터화도 그중 하나입니다.

보험 분야에서 뛰어난 성능의 OCR 솔루션을 제공하기 위해서는 보험금 청구에 사용되는 의료 데이터의 수집이 중요합니다. 데이터는 수많은 문서 형태를 포함할 수 있도록 최대한 다양해야 하며 많은 사람에게 제공받는 것이 좋습니다. 그러나 의료 정보가 담긴 민감한 데이터를 직접 수집하는 것은 좋은 해결책이 되기 어렵습니다. 사람들은 이런 데이터를 쉽게 제공하지 않으며, 데이터 수집 이후에도 저품질의 데이터를 선별하는 일에 많은 시간과 비용이 들어가기 때문입니다.

문서 내 개인정보 마스킹도 해결해야 할 문제입니다. 각종 개인정보가 담긴 의료문서를 그대로 수집하여 AI 학습에 사용하는 것은 위험할 수 있으며, 적절하지 않습니다. 또한, 개인정보를 마스킹하는 것에서 그치지 않고 해당 영역을 폴리곤(Polygon)으로 레이블링하여 다른 영역과 구분해야 제대로 된 학습 효과를 기대할 수 있습니다. 작업을 위한 도구 개발과 레이블링 인력도 당연히 필요합니다. 인력 확보 이후에도 지난한 교육과 피드백 과정이 있을 것이라는 점도 쉽게 예상할 수 있습니다.

이 과정에 들어가는 시간과 비용을 줄일 수 있다면 어떨까요? 더 빠른 주기로 AI/ML 제품을 개선한다는 가장 중요한 일에 집중하려면, 다른 해결책이 필요합니다.

Solution

레이블러의 풍부한 작업자 풀과 높은 신뢰도는 민감 데이터의 원활한 수집을 가능하게 합니다.

레이블러를 이용한 업스테이지의 보험금 청구 문서 수집은 원활하게 진행되었습니다. 의료 정보가 담긴 민감한 데이터의 수집을 위해 사람을 모을 필요는 없었습니다. 데이터를 제공할 의향이 있는 사람들이 이미 레이블러에 존재했기 때문입니다.

의료 문서처럼 민감한 데이터를 수월하게 수집하려면 플랫폼에 대한 데이터 제공자들의 신뢰가 무엇보다 중요합니다. 레이블러는 적절한 보상 체계와 관리 시스템을 통해 총 120억 원 규모의 AI 학습데이터 구축에 참여한 20만 명 작업자와 신뢰 관계를 형성했습니다. 사람들의 신뢰는 의료 정보와 같은 민감한 데이터의 원활한 수집을 통해 완성도 높은 데이터로 이어집니다.

수집 데이터의 다양성도 놓칠 수 없는 부분입니다. 진료비 영수증과 수술확인서의 수집 속도는 결코 같을 수 없습니다. 데이터의 불균형은 AI/ML 제품 개발 속도를 지연시키고 불필요한 비용을 발생시키는 원인이 될 수 있습니다. 레이블러는 이 과정을 효과적으로 제어하는 AIOps로써 데이터 수집에 들어갈 노력과 리스크를 줄이고, 더 중요한 AI/ML 제품 개선에 집중할 수 있도록 돕습니다.

이미지 수집(Image Collection) 태스크의 다양성은 레이블러의 AI Assistant ‘레이(Lay)’의 딥러닝 기반 이미지 유사도 측정 알고리즘을 통해 충족됩니다. '레이'는 수십만 장의 이미지 속에서 완전히 동일한 이미지뿐만 아니라 형태적으로 유사한 이미지를 찾아내 제거하며, 이 모든 과정은 레이블러의 강력한 퀄리티 컨트롤 시스템인 ‘엘라스틱 워크플로우(Elastic Workflow, EWF)’를 통해 완전히 자동으로 이루어집니다.

더 쉽고 빠른 해결책이 필요하다면 레이블러 브레인 API를 사용할 수 있습니다. 이미지 수집(Image Collection) API를 호출하면 레이블러 플랫폼(PC, MO)에서 사람들이 제출한 이미지에 대해 FRIDAY가 자동으로 필터링한 결과가 API Callback Response로 전달됩니다. 휴먼 리뷰가 필요한 태스크라면 EWF의 리뷰 시스템을 통해 검증된 작업자를 대상으로 평가받은 작업 결과를 받아볼 수 있습니다.

Result

짧은 시간에 민감한 데이터를 다양하게 수집했습니다. 절약한 시간과 비용은 더 중요한 AI 솔루션 개발에 사용됩니다.

업스테이지는 레이블러로 의료 정보가 담긴 민감한 문서 이미지를 단기간에 수집하여 레이블링했습니다. 진료비 영수증과 진단서 등 일반적인 의료 문서는 물론, 수술확인서처럼 수집이 어려운 문서를 포함한 다양한 데이터가 구축되었습니다.

문서 내 개인정보는 폴리곤으로 마스킹 되었으며, 별도의 작업 도구 개발이나 인력 모집 및 관리는 필요하지 않았습니다. 저품질 데이터를 선별하고 문서 유형에 따라 수량을 조절하여 데이터 균형을 맞추는 일에 과도한 노력을 기울일 필요도 없었습니다. 이렇게 절약한 시간과 비용은 가장 긴급하고 중요한 일에 사용될 것입니다.

레이블러는 신뢰도 높은 플랫폼과 효과적인 퀄리티 컨트롤 시스템을 가진 강력한 AIOps로써, 고객사가 누구보다 빠르게 AI/ML 제품과 서비스를 출시 및 개선해나갈 수 있도록 지원합니다.

"레이블러로 AI-OCR 솔루션 개발에 필요한 의료 문서 데이터를 다양하게 수집할 수 있었습니다. 요구사항의 빠른 반영과 예상치 못했던 이슈 리포팅도 도움이 되었습니다. 다음 기회에도 레이블러를 사용할 수 있으면 좋겠습니다."

- Upstage