정부, AI 학습용 데이터셋 310종 7월말까지 개방한다

김나윤 기자 / 기사승인 : 2023-04-30 12:00:02
  • -
  • +
  • 인쇄
AI허브 회원가입만 하면 누구나 활용가능

인공지능(AI) 학습용 데이터셋 310종이 개방된다. 역대 최대 규모다.

과학기술정보통신부와 한국지능정보사회진흥원은 2022년도에 '인공지능 학습용 데이터 구축사업'을 통해 구축한 학습용 데이터셋 310종을 30일부터 오는 7월말까지 'AI허브'(aihub.or.kr)를 통해 순차 개방한다고 밝혔다.

이 사업은 전문영역부터 일상생활까지 전분야로 확산되고 있는 인공지능 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심데이터 인프라 사업이다. 기업, 연구자, 개발자는 물론 인공지능 개발 등에 관심있는 우리 국민이라면 누구나 'AI허브'를 통해 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 본격적으로 민간‧공공 수요 등에 맞춰 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방하면서 'AI허브' 연간 방문자수가 최초로 100만명을 돌파했다.

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 구축 분야를 6대 분야에서 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸기 때문이다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 'AI허브' 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 대규모 개방인 점을 고려해, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다.

한편 'AI허브'에 공개되는 데이터들은 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영해 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

엄열 인공지능정책관은 "챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다"며 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 밝혔다.

Copyright @ NEWSTREE All rights reserved.

뉴스트리 SNS

  • 뉴스트리 네이버 블로그
  • 뉴스트리 네이버 포스트
  • 뉴스트리 유튜브
  • 뉴스트리 페이스북
  • 뉴스트리 인스타그램
  • 뉴스트리 트위터

핫이슈

+

Video

+

ESG

+

국가녹색기술연구소 5대 소장에 '오대균 박사' 임명

한국과학기술연구원(KIST) 부설 국가녹색기술연구소(NIGT) 제5대 소장으로 오대균 박사가 5일 임명됐다. 이에 따라 오 신임 소장은 오는 2029년 2월 4일까지

기초지자체 69% '얼치기' 탄소계획...벼락감축이거나 눈속임

전국 226개 기초지방자치단체 가운데 국가가 정한 2030년까지 온실가스 감축목표 40% 이상의 목표를 수립한 곳은 23곳에 불과했다. 이는 전체 기초지자체

스프링클러가 없었다...SPC 시화공장 화재로 또 '도마위'

화재가 발생한 건물에는 스프링클러가 없었다. 의무 설치대상이 아니었다. 옥내 설치된 소화전만으로 삽시간에 번지는 불길을 끄기는 역부족이었다.

"AI는 새로운 기후리스크...올해 글로벌 ESG경영의 화두"

AI 확산이 가져다주는 기후 리스크를 관리하는 것이 글로벌 ESG 경영의 새로운 과제로 등장했다. 국내에서는 상법 개정에 따른 기업 지배구조 개편이 중

현대제철 '탄소저감강판' 양산 돌입..."고로보다 탄소배출량 20% 저감"

현대제철이 기존 자사 고로 생산제품보다 탄소배출량을 20% 감축한 '탄소저감강판'을 본격 양산하기 시작했다고 3일 밝혔다.현대제철은 "그동안 축적한

LS 해외봉사단 '20주년'..."미래세대 위한 사회공헌 지속"

LS의 대표적인 글로벌 사회공헌활동인 'LS 대학생 해외봉사단'이 20주년을 맞은 지난해 베트남과 인도네시아 각지의 초등학교에서 예체능 실습과 위생

기후/환경

+

기후변화에 '동계올림픽' 앞당겨지나...IOC, 1월 개최 검토

동계올림픽 개최 일정이 앞당겨질 전망이다. 기후변화로 기온이 오르고 동계스포츠에 필수인 적설량이 적어지는 탓이다.4일(현지시간) 카를 슈토스 국

에너지연, 1년만에 이산화탄소 포집 기술성능 19배 늘렸다

국내 연구진이 건식흡수제를 이용해 공기중 이산화탄소를 직접 포집하고 제거하는 기술의 성능을 19배 늘리는데 성공했다.한국에너지기술연구원 CCS연

하다하다 이제 석탄홍보까지...美행정부 '석탄 마스코트' 활용

미국 트럼프 행정부가 석탄을 의인화한 마스코트까지 앞세워 화석연료 홍보에 적극 나서고 있어 눈살을 찌푸리게 하고 있다.3일(현지시간) 가디언에

[영상]열흘 넘게 내린 눈 3m 넘었다...폭설에 갇혀버린 日

일본 서북부 지역에 열흘 넘게 폭설이 내리면서 30명이 사망하는 등 피해가 속출하고 있다.4일 일본 기상청·소방청에 따르면 지난달 21일부터 이달

빈발하는 기후재난에...작년 전세계 재난채권 시장규모 45% '껑충'

지난해 재난채권(재해채권) 시장규모가 역대급으로 늘었다. 기후위기가 심화되는 가운데 보험사의 위험 이전 수요와 투자자의 분산 투자 욕구가 맞물

EU, 전세계 최초 '영구적 탄소제거' 인증기준 마련

유럽연합(EU)이 대기중에 남아있는 불필요한 이산화탄소를 완전히 제거하는 기술에 대해 인증기준을 전세계 처음으로 마련했다.EU집행위원회(European Com

에너지

+

순환경제

+

오피니언

+