반응형
초거대 AI 데이터 품질관리 지표는 데이터 생애주기 분석, 데이터 구축 및 품질 관점의 일치성 분석,
데이터 품질관리 기준 분석을 통해 구축 및 활용 관점을 반영한 12가지 지표*로 구성
구분 | 품질 지표 | 설명 |
구축공정 | 준비성 | ∙ 초거대 AI 데이터 품질관리를 위해 기본적으로 관리해야 하는 정책, 규정(저작권, 초상권, 개인정보보호 및 정보보호 등에 대한 검토 결과를 포함), 조직, 절차 등을 마련하고, 최신의 내용으로 충실하게 관리되는지를 검사 |
완전성 | ∙ 초거대 AI 데이터를 구축함에 있어 물리적인 구조를 갖추고, 정의한 데이터 형식 및 입력값 범위에 맞게 데이터가 저장되도록 설계・구축되었는지를 검사 | |
유용성 | ∙ 발주기관(수요자)의 요구사항이 충분히 반영되었는지, 임무정의에 적합한 인공지능 학습용 데이터의 범위와 상세화 정도를 충족시키는지를 검사 | |
데이터 적합성 | 기준 적합성 | ∙ 구축 데이터가 초거대 AI 학습용으로 적합한지 기준을 선정하기 위해, 다양성, 신뢰성, 충분성, 균일성, 사실성 등 측정 |
기술 적합성 | ∙ 초거대 AI 학습용으로 적합한지 기술적으로 판단하기 위해, 파일포맷, 문장길이, 음질 등 측정 | |
다양성 | ∙ 데이터의 편향성 방지를 위한 문어체/구어체, 수집처별 분포, 문장길이, 어휘갯수 등을 측정 ※ 초거대 AI 특성상 편향성 방지가 중요하여 주제 분류별 다양성이 골고루 분포되는지 확인 |
|
유사성 (중복성) | ∙ 데이터의 중복 및 내용적인 유사도를 측정 ※ 초거대 AI 데이터의 특성상 유사한 문장이 많을 수 있으며, 증강기법 사용시 유사도 높아짐 |
|
편향성 (유해성) | ∙ 특정 성별, 인종, 나이 등에 대한 경향성 및 사회적으로 부정적 의미에 해당하는 데이터 또는 혐오표현 등의 포함 여부 확인 ※ 초거대 AI의 특성상 환각현상 방지를 위한 사실성 측면의 검사를 포함 |
|
구문 정확성 | ∙ 기본적인 데이터 구조(형식) 및 입력값 범위와의 일치성을 측정하는 지표 ∙ 데이터 개방시 데이터를 쉽게 활용하기 위해 필요 |
|
의미 정확성 (전달성) |
∙ 구축 목적에 대한 의미 적정성과, 데이터의 의미가 명료하고 표현이 자연스러운 의미 전달성 측정 ∙ 초거대 AI 데이터의 원문 적정성, 내용 전달성, 질의 적정성, 답변 적정성 등을 측정 ※ 초거대 AI는 말뭉치 이외에 지시학습을 위한 질의/응답 데이터가 중요하여 질의/응답 적정성 포함 |
|
학습모델 | 알고리즘 적정성 | ∙ 학습모델의 Task가 적정한지 판단 ※ 초거대 AI 학습을 위한 파운데이션 모델 및 미세조정, 지시학습 방식의 적정성 판단 필요 |
유효성 | ∙ AI 모델을 학습용 데이터로 훈련후 측정된 성능이 유효한지 측정하는 지표 ※ 초거대 AI의 유효성 지표는 PPL, BLEU, ROUGE 등의 정량적 지표와 사람이 판단하는 정성적 지표로 구분 |
반응형
'데이터' 카테고리의 다른 글
[DA 가이드 - 4.3. 개념 데이터 모델링] 엔터티 후보 수집 (0) | 2024.03.14 |
---|---|
[DA가이드 - 4.2 개념 데이터 모델링] 특수한 형태의 관계 (순환, 배타적 관계) (2) | 2024.03.13 |
[DA 가이드 - 2. 데이터 요건 분석] 1. 정보 요구 사항 개요 - 3. 정보 요구 사항 수집 (1) | 2023.08.07 |
[DA 가이드 - 2. 데이터 요건 분석] 1. 정보 요구 사항 개요 - 1. 정보 요구 사항, 2. 정보 요구 사항 관리 (0) | 2023.06.27 |
[DA 가이드 - 1. 전사 아키텍처 이해] 3. 전사 아키텍처 관리 및 활용 - 2. 전사 아키텍처 활용 (1) | 2023.06.12 |