NEWS/비투엔 뉴스

[B2EN News] 비투엔, 고품질 AI 학습용 데이터 7종 확보…이미지·텍스트 88만건, 음성 1만7천시간 분량

비투엔2004 2022. 2. 7. 10:55

빅데이터 및 인공지능 전문 기업 비투엔(대표 조광원)은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘인공지능(AI) 학습용 데이터 구축 2차 사업’에서 ‘주제별 음성 데이터(솔트룩스 컨소시엄)’, ‘요약 텍스트 데이터(와이즈넛 컨소시엄)’, ‘반려동물 질병진단을 위한 영상 데이터(이노그리드 컨소시엄)’ 과제에 참여해 총 7종 88만건(이미지 60만, 텍스트 28만), 17000시간(음성)의 인공지능 학습용 데이터의 품질 점검을 완료하고 고품질 인공지능 학습용 데이터를 확보했다고 밝혔다.


 

비투엔은 이번 사업에서 품질관리 실무책임자로서 품질관리 계획 수립, 각 단계별 품질관리 활동 점검, 품질관리 실무와 관련된 협의체 구성 및 운영, 품질 관련 TTA 및 NIA 대응 등 품질 관리 전반의 업무를 수행했다. 또한 소리자바, 딥네츄럴, 유클리드소프트, 지케스 등 라벨링 전문기업들과 긴밀하게 협업해 체계적인 데이터 품질관리체계를 구축했다.

비투엔은 자사 AI 학습용 데이터 품질관리 솔루션 'SDQ for AI'를 활용해 파일의 완전성 진단, 구조의 정확성, 형식의 유효성 진단 등 구문 정확성 검사와 데이터 클래스 분포, 인스턴스 분포, 문장 길이, 어휘 개수 등 데이터 특성에 맞는 분석 가능 항목의 통계적 분포를 검증함으로써 고품질 학습용 데이터를 확보했다.

특히 ‘반려동물 질병진단을 위한 영상 데이터’ 과제에서는 구문 정확성과 통계 다양성에 더불어 구축된 학습용 데이터의 인공지능 알고리즘을 활용한 품질 점검 항목인 모델 유효성까지 업무 영역을 확장해 모델 유효성 검증 지표 설정, 구축된 학습용 데이터 기반의 모델 학습 및 목표 달성 여부 점검, 모델 유효성 관련 TTA 협의 및 분석 결과 제출 등의 세부 업무를 완벽하게 수행했다.

비투엔은 인공지능 학습용 데이터 구축 컨소시엄 내 품질 검사 도구를 확보하고 있지 않은 과제들을 대상으로 품질 검증 서비스와 SDQ for AI 도구를 제공하는 등 다양한 형태로 인공지능 학습용 데이터 구축 사업에 참여했다.

빅데이터 및 인공지능 전문 기업 비투엔(대표 조광원)은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘인공지능(AI) 학습용 데이터 구축 2차 사업’에서 ‘주제별 음성 데이터(솔트룩스 컨소시엄)’, ‘요약 텍스트 데이터(와이즈넛 컨소시엄)’, ‘반려동물 질병진단을 위한 영상 데이터(이노그리드 컨소시엄)’ 과제에 참여해 총 7종 88만건(이미지 60만, 텍스트 28만), 17000시간(음성)의 인공지능 학습용 데이터의 품질 점검을 완료하고 고품질 인공지능 학습용 데이터를 확보했다고 밝혔다.

 

 

▶ 관련 기사 : 전자신문아이티데일리데이터넷 등