자사 개발팀 AI BOM 작성 지침
Categories:
이 글은 Claude Code를 이용해 작성했고, 인용한 핵심 사실은 1차 출처로 교차 검증했습니다.
이 문서는 자사 개발팀이 AI 모델이나 AI 시스템을 만들 때 작성해야 하는 AI를 위한 부품 명세서(AI Bill of Materials, AI BOM)의 지침입니다. 생산 시점에는 정보 접근성이 가장 좋으므로 요구 수준을 가장 높게 잡습니다. 필수 항목은 「AI BOM 필드 요구사항 매트릭스」의 생산 열에서 도출했습니다.
생산팀이 남기지 않으면 도입팀과 공급망 하류가 영영 확보할 수 없는 정보가 많습니다. 그래서 합의 기준으로 선택인 모델과 데이터셋 상세 정보도 생산 시에는 권장으로 작성합니다.
1. 작성 원칙
AI BOM은 모델 학습이나 시스템 빌드가 끝난 뒤 생성합니다. 생성 시점의 수명주기 단계(빌드 이전, 빌드, 빌드 이후)를 메타데이터에 기록합니다. 형식은 SPDX 3.0 이상 또는 CycloneDX 1.6 이상을 사용하고, 가능하면 생성 도구로 자동 생성한 뒤 누락 항목을 수기로 보완합니다.
값을 확정할 수 없는 항목은 비워 두지 말고 “확인 불가"로 명시합니다. 모델이나 데이터셋을 갱신하면 AI BOM 버전과 타임스탬프를 함께 올립니다.
2. 필수 작성 항목
다음은 반드시 작성합니다. 매트릭스에서 표준 두 곳 이상이 존재를 요구한 항목입니다.
| 클러스터 | 필수 항목 |
|---|---|
| 메타데이터 | 작성자, 데이터 형식 이름, 데이터 형식 버전, 타임스탬프, 의존성 관계 |
| 시스템 수준 | 시스템 이름, 시스템 구성요소, 시스템 생산자, 시스템 버전 |
| 모델 | 모델 이름, 모델 식별자, 모델 버전, 모델 타임스탬프, 모델 생산자, 모델 라이선스 |
| 데이터셋 | 데이터셋 이름, 데이터셋 내용, 데이터셋 식별자, 데이터셋 출처, 데이터셋 라이선스 |
3. 권장 작성 항목
다음은 합의 기준으로 선택이지만, 생산 시점에만 정확히 기록할 수 있으므로 작성을 권장합니다. 특히 모델 카드와 데이터 카드를 운영한다면 그 내용을 AI BOM에 연결합니다.
| 클러스터 | 권장 항목 | 작성 이유 |
|---|---|---|
| 메타데이터 | SBOM 버전, 작성자 서명, 도구 이름과 버전, 생성 맥락 | 무결성과 추적성 확보 |
| 시스템 수준 | 데이터 흐름, 데이터 사용, 입출력 속성, 의도된 응용 분야 | 하류의 위험 평가 근거 |
| 모델 | 모델 설명과 계보, 모델 해시 값과 알고리즘, 모델 속성, 입출력 속성, 학습 속성, 외부 참조 | 재현성과 무결성 검증, 모델 카드 연계 |
| 데이터셋 | 데이터셋 설명, 데이터셋 해시, 통계적 속성, 데이터셋 민감도, 의존성 관계 | 데이터 적법성과 위험 평가 근거 |
| 보안과 지표 | 보안 통제, 보안 준수, 취약점 참조, 보안 지표, 운영 성과 지표 | 사이버보안 위험관리 연계 |
4. 모델 해시와 무결성
모델 해시 값과 알고리즘은 합의 기준으로는 선택이지만 권장 강도가 높습니다. 가중치 파일이나 모델 아티팩트의 해시를 기록해 두면, 하류에서 모델 무결성을 검증할 수 있습니다. 해시 알고리즘은 인터넷 할당 번호 관리기관(IANA)의 해시 함수 명칭을 사용하고, 미국 국립표준기술연구소(NIST)가 승인한 알고리즘을 씁니다.
5. 데이터셋 출처와 민감도
생산팀은 학습에 사용한 데이터셋의 출처를 가장 잘 아는 위치에 있습니다. 출처, 수집 방법, 전처리와 라벨링 단계, 합성 데이터 여부를 기록하고, 개인식별정보나 저작권 보호 데이터, 민감 데이터의 포함 여부를 표기합니다. 이 정보는 인공지능법(AI Act)의 학습 데이터 문서화 의무와 국내 AI 기본법의 학습데이터 개요 요구에 대응하는 근거가 됩니다.
6. 작성 후 확인
- 2절 필수 항목이 모두 채워졌는가
- 3절 권장 항목 중 모델 카드나 데이터 카드로 확보 가능한 것을 연결했는가
- 모델 가중치와 데이터셋 각각에 라이선스를 명시했는가
- 생성 시점의 수명주기 단계를 기록했는가
- 모델이나 데이터셋 갱신 시 버전과 타임스탬프를 올렸는가