외부 모델과 데이터셋 도입 점검 체크리스트
Categories:
이 글은 Claude Code를 이용해 작성했고, 인용한 핵심 사실은 1차 출처로 교차 검증했습니다.
이 체크리스트는 자사 개발팀이 외부 AI 모델이나 데이터셋을 가져와 활용할 때, AI를 위한 부품 명세서(AI Bill of Materials, AI BOM)를 근거로 투명성과 위험을 점검하는 기준입니다. 확인 항목은 「AI BOM 필드 요구사항 매트릭스」의 도입 열에서 도출했습니다.
도입 점검의 목적은 모델을 만드는 것이 아니라 들여오는 것이므로, 위험 평가에 직접 쓰이는 필드를 우선합니다. 라이선스는 컴플라이언스 위험을, 출처와 민감도는 데이터 적법성과 개인정보 위험을, 취약점 참조는 보안 위험을 판단하는 근거입니다.
1. AI BOM 존재와 형식
- 도입 대상에 AI BOM이 제공되는가
- 형식이 SPDX 3.0 이상 또는 CycloneDX 1.6 이상인가
- AI BOM의 타임스탬프가 도입 대상 버전과 일치하는가
AI BOM이 없거나 AI 전용 프로파일이 없는 형식이면, 도입 전 공급처에 요청하거나 자체적으로 최소 정보를 확보합니다.
2. 식별과 버전 (필수 확인)
| 확인 항목 | 판정 기준 |
|---|---|
| 모델 이름과 식별자 | 표준 식별자(PURL/CPE)로 식별되는가 |
| 모델 버전 | 도입하려는 버전과 일치하는가 |
| 데이터셋 이름과 식별자 | 학습 데이터셋이 식별되는가 |
| 시스템 이름과 버전 | 공급 시스템이 식별되고 버전이 표기되는가 |
| 시스템 구성요소 | 포함된 구성요소가 열거되는가 |
| 의존성 관계 | 구성요소 간 관계가 표기되는가 |
3. 라이선스 점검 (필수 확인)
| 확인 항목 | 판정 기준 |
|---|---|
| 모델 라이선스 | 라이선스가 명시되고, 자사 사용 목적과 양립하는가 |
| open weight 여부 | open weight, open architecture, open data 중 무엇인지 확인 |
| 데이터셋 라이선스 | 학습 데이터셋의 라이선스가 명시되고 사용 목적과 양립하는가 |
라이선스가 비어 있거나 사용 목적과 충돌하면 도입 보류 사유입니다. 모델 라이선스와 데이터셋 라이선스는 별개이므로 각각 확인합니다.
4. 데이터 적법성과 위험 (필수 확인)
| 확인 항목 | 판정 기준 |
|---|---|
| 데이터셋 출처 | 출처, 수집 방법, 전처리 단계가 표기되는가 |
| 데이터셋 민감도 | 개인식별정보, 저작권 보호 데이터, 민감 데이터 포함 여부가 표기되는가 |
| 모델 설명과 계보 | 모델의 한계와 선행 모델 계보가 기술되는가 |
데이터셋 출처가 불명확하거나 민감 데이터 포함 여부가 표기되지 않으면, 데이터 적법성과 개인정보 위험을 별도로 평가해야 합니다.
5. 보안 위험 (필수 확인)
| 확인 항목 | 판정 기준 |
|---|---|
| 취약점 참조 | 알려진 취약점 정보 링크가 제공되고, 알려진 취약점이 도입 환경에서 수용 가능한가 |
취약점 참조는 사이버 복원력법과 미국 식품의약국 가이던스가 직접 요구하는 항목이므로, 도입 점검에서 필수로 확인합니다.
6. 권장 확인 항목
다음은 위험 수준이 높거나 규제 대상 용도일 때 추가로 확인합니다.
- 모델 타임스탬프와 생산자
- 모델 속성, 입출력 속성, 학습 속성
- 모델 해시 값과 알고리즘(무결성 검증)
- 데이터셋 내용과 해시
- 시스템 데이터 흐름과 데이터 사용
- 의도된 응용 분야와 자사 사용 목적의 일치 여부
7. 도입 판정
위 1절부터 5절까지의 필수 확인 항목을 모두 충족하면 도입 가능으로 판정합니다. 라이선스 충돌, 출처 불명확, 민감 데이터 미표기, 수용 불가 취약점 중 하나라도 해당하면 도입 보류로 두고 공급처에 보완을 요청하거나 대체 모델을 검토합니다.
판정 결과는 도입 대상의 AI BOM 식별자, 버전, 판정 일자와 함께 기록해 두어, 이후 재평가와 공급망 추적에 활용합니다.