정부, AI 학습용 데이터셋 310종 7월말까지 개방한다

김나윤 기자 / 기사승인 : 2023-04-30 12:00:02
  • -
  • +
  • 인쇄
AI허브 회원가입만 하면 누구나 활용가능

인공지능(AI) 학습용 데이터셋 310종이 개방된다. 역대 최대 규모다.

과학기술정보통신부와 한국지능정보사회진흥원은 2022년도에 '인공지능 학습용 데이터 구축사업'을 통해 구축한 학습용 데이터셋 310종을 30일부터 오는 7월말까지 'AI허브'(aihub.or.kr)를 통해 순차 개방한다고 밝혔다.

이 사업은 전문영역부터 일상생활까지 전분야로 확산되고 있는 인공지능 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심데이터 인프라 사업이다. 기업, 연구자, 개발자는 물론 인공지능 개발 등에 관심있는 우리 국민이라면 누구나 'AI허브'를 통해 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 본격적으로 민간‧공공 수요 등에 맞춰 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방하면서 'AI허브' 연간 방문자수가 최초로 100만명을 돌파했다.

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 구축 분야를 6대 분야에서 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸기 때문이다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 'AI허브' 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 대규모 개방인 점을 고려해, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다.

한편 'AI허브'에 공개되는 데이터들은 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영해 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

엄열 인공지능정책관은 "챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다"며 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 밝혔다.

Copyright @ NEWSTREE All rights reserved.

뉴스트리 SNS

  • 뉴스트리 네이버 블로그
  • 뉴스트리 네이버 포스트
  • 뉴스트리 유튜브
  • 뉴스트리 페이스북
  • 뉴스트리 인스타그램
  • 뉴스트리 트위터

핫이슈

+

Video

+

ESG

+

"ESG '환경·사회' 지표 투자전략 반영했더니 지수 수익률 상회"

투자전략에 ESG 세부지표를 반영하면 시장대비 높은 장기수익률과 안정적인 위험관리 성과를 낼 수 있다는 분석이 나왔다.ESG 평가 및 투자자문기관 서

'몸짱 소방관' 2026년 달력 만든다...'우리동네GS'에서 사전예약

오는 11월 9일 소방의 날을 맞아 2026년도 '몸짱 소방관 달력'이 나온다.몸짱 소방관 달력의 정식명칭은 '소방관 희망나눔달력'으로, 서울시 소방재난본

SK이노, 에이트린 재생플라스틱 우산에 전과정평가(LCA) 무상 지원

SK이노베이션이 소셜벤처 '에이트린'의 재생플라스틱 우산에 대한 전과정평가(LCA)를 무상 지원한다.SK이노베이션은 지난 4일 서울 종로구 SK서린빌딩에

KT도 '유심' 무상교체 시행...김영섭 대표는 연임포기

KT는 최근 발생한 무단 소액결제 피해 및 개인정보 유출에 대해 다시한번 사과하고, 고객의 보안 우려를 해소하기 위해 5일부터 교체를 희망하는 전 고

노동부 칼 빼들었다...'런베뮤' 지점과 계열사도 근로감독

고용노동부가 과로사 의혹이 불거진 '런던베이글뮤지엄'의 모든 지점과 운영사인 엘비엠의 계열사까지 근로감독을 확대하기로 했다. 이에 런던베이글

SPC 허진수-허희수 형제 '나란히 승진'...경영승계 '속도낸다'

SPC그룹은 허진수 사장을 부회장으로, 허희수 부사장을 사장으로 각각 승진 발령하면서 3세 경영승계 작업을 가속화했다.4일 SPC그룹은 이같은 인사단행

기후/환경

+

아마존 '지구허파' 옛말?...14만건 산불로 '탄소배출원'으로 전락

'지구의 허파'로 불리는 아마존 열대우림이 지난해 산림벌채보다 산불로 인해 발생한 이산화탄소가 더 많았던 것으로 나타났다.유럽연합(EU) 공동연구

韓선박 무더기 운항제한 직면하나?..."탄소감축 못하면 국제규제"

한국 해운업계가 탄소배출을 줄이지 못해 일부 선박이 운항제한이나 벌금을 맞을 위기에 직면했다.기후솔루션은 5일 전세계 100대 해운사의 온실가스

화석연료 못버리는 국가들..."파리협약 1.5℃ 목표달성 불가능"

전세계가 지구온난화를 1.5℃ 이내로 억제하기로 합의한 '파리기후변화협약'이 사실상 실패했다는 분석이 잇따르고 있다.5일(현지시간) 미국 시사주간

[뷰펠] 에너지 저장하는 '모래 배터리' 개발...베트남 스타트업의 도전

뉴스트리가 재단법인 아름다운가게 '뷰티풀펠로우'에 선정된 기업을 차례로 소개하는 코너를 마련했습니다. 뷰티풀펠로우는 지속가능하고 혁신적인

[단독] 정부 2035 국가온실가스 감축률 '61%안'으로 가닥

2035년 국가온실가스 감축목표(2035 NDC)가 '61%안'이 거의 확실시되고 있다.4일 정부 안팎 관계자들에 따르면 기후에너지환경부는 2018년 대비 온실가스를 5

국제기후기금 97%는 기술에 '몰빵'...사회적 지원은 '찔끔'

국제적으로 조성된 기후기금의 97%는 기술투자에 투입됐고, 사람과 지역사회를 위한 지원은 거의 이뤄지지 않은 것으로 드러났다.3일(현지시간) 영국

에너지

+

순환경제

+

오피니언

+