[인터뷰]“고품질 AI 서비스를 위해선 학습용 데이터 품질 관리가 기본”
[비투엔 AIX그룹 박순혁 그룹장]
챗GPT(ChatGPT)바람이 불고 있다. 긍정적인 예측이 대부분이지만 모든 일이 그렇듯이 긍정적인 측면이 있으면 부정적인 측면이 있기 마련이다. 특히 챗GPT에 필수 요소인 AI 학습 데이터의 품질에 문제가 있을 경우 나타날 수 있는 부정적인 상황에 대한 우려가 많다. 이와 관련하여 비투엔의 박순혁 그룹장을 만나 학습용 데이터 품질 관리의 중요성과 품질 관리를 위안 방안 등에 대해 이야기를 나누었다.
Q. 챗GPT(ChatGPT)로 인해 AI 서비스 품질의 중요성이 강조되고 있다고 한다. 그 이유는?
2022년 12월 오픈 AI의 챗GPT(챗GPT) 출시 이후 글로벌 IT 시장이 뜨겁게 달아오르고 있다. 챗GPT는 5일 만에 100만 명 이상의 신규 사용자를 확보했고 월 활성 사용자(MAU)가 1억 명 이상인 것으로 추정된다.
챗GPT는 텍스트를 활용하며 콘텐츠를 새로 만들어 내는 생성 AI로 프로그래밍 언어가 아닌 일상 언어(자연어)로 컴퓨터에게 특정 목적에 맞는 요청을 하고 결과를 얻는 것이 특징으로 어렵기만 했던 AI가 대중성이라는 강력한 무기를 장착한 것이다. 세계 각국 모든 산업 분야에서 챗GPT를 활용하기 위한 논의가 진행 중이다.
오픈 AI의 챗GPT를 필두로 구글의 바드(Bard), 메타의 라마(LLaMa)까지 공개되며 초거대 생성 AI 언어 모델을 둘러싼 빅테크 간 대격돌이 시작된 것이다. 하지만 챗GPT를 사용하면서 나타나고 있는 오답, 폭력성, 인종차별, 성차별, 가짜 뉴스와 같은 서비스 품질에 대해 많은 전문가들은 우려를 나타내고 있다. 이와 같은 문제가 존재하는 이상 AI 서비스가 우리 생활에 깊게 침투하지 못할 것으로 예상하고 있다.
AI 서비스 품질을 위해서는 알고리즘의 성능이 뛰어나야 하고 이 알고리즘의 성능은 AI 학습 데이터의 품질에 의해 결정된다. 고성능의 AI 서비스를 위해서는 고품질의 AI 학습 데이터를 확보해야 한다는 뜻이다.
Q. 국내에서도 AI 서비스 품질 강화를 위한 움직임이 있는지?
영국의 데이터 분석업체 ‘토터스인텔리전스’에서 한국의 인공지능(AI) 경쟁력이 조사대상 62개국 중 7위라고 발표했다. 정부는 2027년까지 한국의 인공지능(AI) 경쟁력을 세계 3위 수준으로 끌어올리겠다는 목표로 총 6조원을 투자할 계획이며, ‘신성장 4.0 전략’ 추진 대책에 따라 한국판 챗GPT 개발을 위한 제도적 지원 방안을 마련하겠다고 밝혔다.
오픈 AI의 챗GPT는 영어 기반으로 구동해 한국어 처리가 미흡하여 카카오와 네이버, SKT, KT 등과 같은 대기업들은 자체적으로 한국판 초거대 생성 AI 언어 모델을 구축할 것이라고 발표했고, 문화체육관광부와 국립국어원은 이를 지원하기 위해 2027년까지 한국어 특성을 반영한 고품질 말뭉치 10억 어절을 구축한다는 방침이다.
이러한 초거대 생성 AI 언어 모델 구축을 위해서는 다양한 산업과 주제(도메인)를 가진 많은 양의 학습 데이터가 필요하다. 챗GPT 출시를 기점으로 데이터 편향 및 윤리적인 이슈가 없는 학습 데이터의 품질(Quality)을 확보하고 이를 인공지능(AI) 서비스 품질로 이어지게 하는 것으로 그 초점이 빠르게 이동하고 있다.
Q. 인공지능 학습용 데이터 구축 사업에 대해서 조금 더 자세히 설명해 달라.
인공지능(AI) 학습용 데이터 구축 사업은 과학기술정보통신부와 한국정보사회진흥원(이하 NIA)에서 추진하는 정부 주도 사업으로 인공지능(AI) 성능은 학습용 데이터와 직결되어 고품질, 대규모 데이터 확보를 위한 국가적 지원 필요성이 증대됨에 따라 추진되었다. AI 연구, 기술, 서비스 개발을 위한 학습용 데이터 셋을 구축하고 AI Hub를 통해 누구나 활용할 수 있도록 민간에 개방하는 것이다.
“AI 학습 데이터의 품질관리는 수집부터 시작되어야 한다”
Q. AI 학습용 데이터 구축사업에서 품질관리는 어떻게 진행해야 하는지?
AI Hub에 공개된 ‘인공지능(AI) 학습용 데이터 품질관리 가이드라인’을 기준으로 사업 계획 수립부터 수집, 정제, 라벨링(가공) 등 학습 데이터 개방까지 전체 프로세스에 걸쳐 단계별로 체계적인 품질 관리를 진행해야 한다.
특히 수집 단계에서 정의한 품질 기준을 달성하지 못할 경우, 정제 및 가공에 불필요한 비용과 시간이 추가적으로 발생하기 때문에 주의가 요구되며, 이후 정제 단계에서는 비식별화, 해상도 및 사이즈 조정, 노이즈 제거 등의 활동을 기준에 맞게 수행하고 라벨링 대상이 되는 원천 데이터를 생성한다. 이후 모델 학습에 정답 값으로 입력될 라벨을 생성하고 원천 데이터와 라벨링 데이터로 구성된 학습 데이터 셋을 완성하게 된다.
마지막으로 학습 데이터 품질 평가 단계에서는 구문 정확성, 통계 다양성, 의미 정확성 3개의 주요 지표에 대한 품질 검증을 실시하여 라벨링 데이터의 구조 및 값의 정확성 점검, 인스턴스 및 카테고리의 통계적 편향성 예방, 의미 정확성을 점검하여 라벨 값의 품질을 확보한다.
NIA는 인공지능(AI) 학습용 데이터 품질관리를 위한 전문가 및 전문 도구의 활용을 권고하고 있다. 비투엔은 다양한 도메인의 학습 데이터 품질관리 경험을 보유한 전문가와 많은 레퍼런스를 보유한 학습 데이터 품질관리 도구인 ‘SDQ for AI’를 활용하여 2020년부터 각종 과제에 참여하여 인공지능(AI) 학습 데이터 품질관리의 핵심적인 역할을 수행하고 있다.
Q. SDQ for AI에 대해 소개해 달라.
비투엔은 지난 2021년 인공지능(AI) 학습용 데이터 품질관리 솔루션인 ‘SDQ for AI’를 출시했으며 현재까지 인공지능(AI) 학습 데이터 품질관리 분야에서 많은 레퍼런스를 보유하고 있다. SDQ for AI는 ‘어노테이션 자동 진단 시스템’ 기술 특허를 기반으로 구현돼 AI 학습 데이터에 대한 파일 완전성, 구조 및 형식 정확성, 값의 유효성 등 구문적 정확성 검사와 데이터 편향성 예방을 위한 통계적 다양성 분석 기능을 제공한다.
‘SDQ for AI’는 TTA가 2021년부터 도입해 ‘인공지능(AI) 학습용 데이터 구축 사업’에서 구축되는 학습 데이터의 구문적 정확성, 통계적 다양성 2개 지표에 대한 검사에 활용하고 있다. 또 파일의 완전성, 구조의 정확성, 값의 유효성에 대한 세부적인 데이터 품질을 빠른 시간 내에 효과적으로 검증하였다 이 밖에도 지난 3년 동안 인공지능(AI) 학습용 데이터 구축 사업에 참여하는 다수의 컨소시엄에 ‘SDQ for AI’가 도입되어 고품질의 인공지능(AI) 학습용 데이터를 확보하는데 활용되었다.
Q. ‘SDQ for AI’의 특징이 있다면.
‘SDQ for AI’는 GS 1등급을 획득한 인공지능(AI) 학습 데이터 품질관리 솔루션이다. 지난 3년간 총 670여 종의 다양한 도메인의 학습 데이터들의 품질 검증을 수행하며 범용성, 성능 및 안정성을 입증받았다.
또한 다양한 유형의 학습 데이터들이 혼재되어 있는 저장소에서 조건에 맞는 학습 데이터들을 선별 추축하는 기능을 통해 보다 효율적인 품질관리가 가능하다. 이뿐만 아니라 업무 규칙 또는 특정 조건에 따라 검사되어야 하는 구조와 값 검사를 지원하기 때문에 보다 정밀한 인공지능(AI) 학습 데이터의 품질 검사를 제공한다.
▶ 관련 기사 : 아이티데일리 등