메뉴 바로가기 본문 바로가기

최신기술동향

게시판 상세보기

[한국데이터산업진흥원] AI 학습용 데이터의 생태계 및 법제도 변화

한국환경산업협회 2026-02-12 15:07 조회수: 26회

※ 세부 내용은 링크 참고 부탁드립니다.


    시사점

▶ AI 모델 확산으로 인해 학습용 데이터 환경의 구조적 변화가 나타남

○ 본 동향 리포트는 5개의 해외 원문 보고서에서 학습용 데이터 환경에서 나타난 변화와 법·제도적 논의,
     그리고 최신 AI 훈련 기술의 산업적 활용 동향 등의 내용을 요약·정리하여 종합적으로 소개함

○ 각 장에서 확인된 내용은 학습용 데이터의 확보 방식과 품질 관리, 데이터 활용 과정에서의 규제 요구 사항
     산업별 특화된 데이터 활용 방식이 상호연결되어 있음을 보여주며, 이러한 변화가 향후 AI 기술 발전과 데이터 거버넌스에 대한 시사점을 제공함


▶ 학습용 데이터 생태계 변화 및 산업 법제도 시사점

○ 학습용 데이터 생태계가 점진적으로 대규모화됨에 따라 데이터 확보 전략의 구조적 전환이 요구됨

- 2017~2024년 사이 대형 모델 학습용 데이터셋은 8개월마다 2배로 확대되었고, Llama 3.1은 15조 토큰 규모에 도달함.
  또한, 데이터가 조 단위로 확장되면서 기존의 ‘정제·큐레이션 중심’ 방식에서 ‘웹 기반 대규모 데이터 수집·필터링’ 방식으로 전환되는 흐름을 보임

- 이러한 데이터 규모 증가가 기술적 우위의 핵심 요인이 되면서, 기관·기업은 안정적 대규모 데이터 공급망 구축이 필수적임을 시사

- 이에, 웹 기반 고품질 데이터 부족이 임박함에 따라, 합성 데이터 생성·보강, 누적 학습 방식 등 데이터의 전략적 활용이 필요하나 장기적으로는 성능 저하·모델 붕괴 가능성이 존재하므로 중장기적 데이터 인프라 투자가 필요함


○ 이러한 생태계 변화는 산업 현장 중심의 특화 데이터 수요 증가로 이어짐

- 법률, 의료, 제조 등 전문 분야에서는 범용 모델의 성능 한계와 규제 리스크로 인해 도메인 특화 데이터셋 기반의 파운데이션 모델
  또는 소규모 특화 모델 학습이 증가하고 있으며, 산업별 특화 데이터 구축·품질관리·검증 체계가 국가·기업 경쟁력의 핵심 요소로 부상하고 있음

- 파운데이션 모델이 구조화되지 않은 원시 데이터와 멀티모달 데이터까지 활용할 수 있게 되면서,
  기관 내 사일로 데이터 등 내부 미활용 데이터의 가치가 상승하고 있음

- 또한, 데이터 출처가 다양해진 만큼 조직 내부 데이터의 정비·표준화, 그리고 산업별 맞춤형 AI 적용 전략의 필요성이 강화되고 있음


○ 산업에서의 활용 변화는 법·제도 영역에서도 새로운 규범 및 의무를 촉발

- EU AI Act 제53조(d)는 GPAI 제공자에게 학습용 데이터 투명성 의무를 부과하며,
  이는 훈련 장소(EU 외부 포함), 모델 규모, 라이선스 여부와 무관하게 적용됨

- TDM 옵트아웃 확산으로 인한 직접 라이선스 시장이 성장하고 있으며, 주요 기업(OpenAI, Google 등)이
  이미 대형 언론사와 계약을 체결한 사례가 나타나는 등 AI 학습용 데이터 시장은 저작권 규제를 중심으로 ‘정식 거래 시장’으로 확대되고 있음

- 한편, TDM 예외의 유효성 논란 및 베른 협약 3단계 테스트 충돌 등 국제 규범 간 법적 모호성 해결 및 데이터 활용과
  저작권 보호의 균형을 위한 국가 차원의 법제 업데이트가 요구되고 있음


○ 학습용 데이터 생태계의 구조적 변화는 산업 활용 전략과 법·제도 정비 방향을 새롭게 규정하고 있음

- 대규모 데이터 공급망 구축 및 내부 데이터 자산의 체계적 활용을 기반으로, 산업별 특화 데이터 구축·검증 체계 고도화 및
  저작권·데이터 출처 관리 체계 강화가 필수적이며 데이터 투명성 확보가 글로벌 경쟁력 확보의 핵심 조건으로 부상하고 있음

- 결과적으로, 웹 기반 대규모 생태계 확대·산업별 특화 데이터 수요·저작권 중심 규제 강화라는 세 흐름이 상호 연결되며,
  국가·기업 모두가 중장기적 데이터 인프라 및 관리·운영 체계 마련에 대한 필요성이 높아지고 있음



출처 : 한국데이터산업진흥원 글로벌 데이터산업 동향리포트 7호 : AI 학습용 데이터의 생태계 및 법제도 변화(2025.11.28.)

게시판 리스트
번호 제목 작성자 작성일
336 [한국산업기술평가관리원] 자동차용 초고강도강(AHSS) 기술 동향 링크 있으면 표시 한국환경산업협회 2026-02-12
335 [한국지능정보사회진흥원] 글로벌 AX 리더 도시의 AI 도입·활용 사례 분석과 시사점 링크 있으면 표시 한국환경산업협회 2026-02-12
334 [과학기술정책연구원] 트럼프 2기 미국 국가안보전략(National Security Strategy)이 과학기술혁신정책에 주는 시사점 링크 있으면 표시 한국환경산업협회 2026-02-12
열람중 [한국데이터산업진흥원] AI 학습용 데이터의 생태계 및 법제도 변화 링크 있으면 표시 한국환경산업협회 2026-02-12
332 [한국해양수산개발] 국제 물류시장 동향(아세안·유럽) 링크 있으면 표시 한국환경산업협회 2026-02-12
331 [에너지경제연구원] 데이터센터 입지 선정의 주요 요소: ICF 보고서의 미국 사례 소개 링크 있으면 표시 한국환경산업협회 2026-02-05
330 [한국과학기술기획평가원] 수소경제 활성화 로드맵 6년, 경과와 전망 링크 있으면 표시 한국환경산업협회 2026-02-05
329 [한국로봇산업진흥원] 'CES 2026에서 본 로보틱스·피지컬 AI 기술 트렌드' 링크 있으면 표시 한국환경산업협회 2026-02-05
328 [한국연구재단] 미국 NSF와 DOE의 2026년 예산안으로 본 에너지 정책 재편 동향 링크 있으면 표시 한국환경산업협회 2026-02-05
327 [현대경제연구원] 2026년 한국 경제, 어둡고 긴 터널 그 끝이 보이는가?- 경제성장률 2025년 1.0%에서 2026년 1.9%로 반등 링크 있으면 표시 한국환경산업협회 2025-10-24