정부, AI 학습용 데이터셋 310종 7월말까지 개방한다

김나윤 기자 / 기사승인 : 2023-04-30 12:00:02
  • -
  • +
  • 인쇄
AI허브 회원가입만 하면 누구나 활용가능

인공지능(AI) 학습용 데이터셋 310종이 개방된다. 역대 최대 규모다.

과학기술정보통신부와 한국지능정보사회진흥원은 2022년도에 '인공지능 학습용 데이터 구축사업'을 통해 구축한 학습용 데이터셋 310종을 30일부터 오는 7월말까지 'AI허브'(aihub.or.kr)를 통해 순차 개방한다고 밝혔다.

이 사업은 전문영역부터 일상생활까지 전분야로 확산되고 있는 인공지능 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심데이터 인프라 사업이다. 기업, 연구자, 개발자는 물론 인공지능 개발 등에 관심있는 우리 국민이라면 누구나 'AI허브'를 통해 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 본격적으로 민간‧공공 수요 등에 맞춰 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방하면서 'AI허브' 연간 방문자수가 최초로 100만명을 돌파했다.

올해 개방하는 데이터는 310종으로 역대 최대 규모다. 지난해 구축 분야를 6대 분야에서 제조‧로보틱스‧교육‧금융‧스포츠 등의 14대 분야로 확장하면서 사업 규모를 크게 늘렸기 때문이다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 'AI허브' 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 대규모 개방인 점을 고려해, 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 먼저 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해보다 3개월 앞당겨진다. 매달 약 80여종 내외를 개방해 7월말까지 전체 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의‧검색‧생성 데이터, 고서(古書)한자‧한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함돼 있다.

한편 'AI허브'에 공개되는 데이터들은 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업‧기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성, 정확성 등을 확인하는 활용성 검토를 받는다. 또한 개방 이후 약 3개월 동안은 사용자들로부터 데이터 품질 요구사항, 오류 등의 의견을 반영해 데이터 품질 제고를 위한 보완 과정을 거칠 예정이다.

엄열 인공지능정책관은 "챗GPT 등 초거대 인공지능의 등장으로 인공지능 산업이 빠르게 발전하고 있다"며 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 밝혔다.

Copyright @ NEWSTREE All rights reserved.

뉴스트리 SNS

  • 뉴스트리 네이버 블로그
  • 뉴스트리 네이버 포스트
  • 뉴스트리 유튜브
  • 뉴스트리 페이스북
  • 뉴스트리 인스타그램
  • 뉴스트리 트위터

핫이슈

+

Video

+

ESG

+

현대제철, CDP 선정 기후대응 원자재 부문 우수기업 수상

현대제철이 글로벌 지속가능경영 평가기관인 CDP(Carbon Disclosure Project, 탄소정보공개프로젝트)로부터 기후변화 대응 분야 우수기업으로 선정됐다.현대

'해킹사고' 부실 대응 SK텔레콤..."ESG 등급 하락 불가피"

SK텔레콤 해킹사태로 고객 개인정보가 무방비로 유출되면서 SKT의 ESG평가에서 사회(S)부문과 종합부문 등급이 1등급씩 하락할 가능성이 제기됐다. 고객

KB국민은행, 올해 지역에 '작은 도서관' 9곳 더 늘린다

KB국민은행이 올해까지 134개의 'KB작은도서관'을 조성해 미래세대를 위한 독서 인프라를 확대할 예정이라고 30일 밝혔다.KB국민은행은 지난 14일에는 울

LG유플러스, CDP '탄소경영 아너스 클럽' 수상

LG유플러스가 서울 여의도 페어몬트 앰버서더 서울호텔에서 열린 '2024 CDP(탄소정보공개 프로젝트) 코리아 어워즈'에서 CDP 기후변화 대응 부문(CDP Climate

11번가 사령탑 교체...신임 대표로 박현수 CBO 선임

SK스퀘어 자회사 11번가가 지난 29일 오후 열린 이사회에서 신임 대표이사로 박현수 11번가 CBO(최고사업책임)를 선임했다고 30일 밝혔다. 안정은 전임 대

경기도 푸드뱅크, 세제와 휴지 등 '생활용품'도 기부받는다

경기도가 푸드뱅크를 통해 식품뿐만 아니라 세제와 휴지 등 다양한 생활용품도 기부받고 있다고 30일 밝혔다. 푸드뱅크·마켓은 취약계층에 기부

기후/환경

+

대구 함지산 산불 '재발화'...강풍에 불씨 되살아나

이틀만에 주불이 잡히면서 완전된 것으로 알았던 대구 함지산 산불이 다시 발화하면서 주민들이 다시 대피했다. 건조한 상태에서 계속해서 불어대는

기후위기로 야외 음악공연도 '위기'...티켓 판매부진 현상

호주에서 기후위기로 야외 뮤직 페스티벌이 사라질지도 모른다는 보고서가 나왔다.호주 로열 멜버른 공과대학(RMIT)이 지난 23일(현지시간) 발간한 '뮤

"해운탄소세 피하려면 '전기추진선'으로 교체해야"

탄소배출이 많은 선박을 전기추진선으로 대체하고 녹색해운항로를 개척하면 해운부문 탄소배출량을 크게 줄일 수 있다는 주장이 제기됐다. 해운은 전

기후재해 보상은 왜 제한?...손보사 車보험약관 공정위 '심판대'

기후위기로 올여름도 무더위와 수해 피해에 대한 우려가 높은 가운데 기후위기로 인한 재해 피해는 보상하지 않는 보험약관의 불공정 조항을 개정해

대구 산불 이틀째 진화율 82%...주불 아직도 못잡아

지난 28일 발생해 이틀째 번지고 있는 대구 함지산 산불이 아직도 주불을 잡지 못하고 있다.산림 당국에 따르면 29일 오전 8시 기준 대구시 북구 노곡&mid

트럼프 '해저광물' 개발규제 완화에..."생태계에 치명적" 비판

미국이 해저 광물 개발을 장려하기로 한 결정에 "해양생태계에 돌이킬 수 없는 피해를 입힐 것"이라는 우려가 커지고 있다.도널드 트럼프 미국 대통령

에너지

+

순환경제

+

오피니언

+