[세명소프트, 2020년 인공지능 학습용 데이터 구축] 열화상 카메라 이미지, 상하수도 데이터(하수관로 내부 이미지)



본 과업은 디지털뉴딜 수행 기관인 한국지능정보사회진흥원(NIA)에서 지원하는 인공지능 학습용 데이터 구축 사업으로 세명소프트는 본 과업에서 정제, 라벨링(가공) 업무를 수행하였습니다.


엔에이치네트웍스㈜가 사업 총괄한 '열화상 카메라 이미지 데이터(산업단지)'와 ㈜유솔이 사업 총괄한 '하수관로 내부 이미지 데이터'를 저희 세명소프트가 ㈜티맥스에이아이로부터 위탁 용역을 받아 정제, 라벨링(가공) 업무를 수행했습니다.

인공지능 학습용 데이터셋의 총 구축량은 열화상 카메라 이미지 데이터 100만장, 상하수도 내부 이미지 데이터 47만장입니다.

​라벨링 데이터 포맷: 이미지(JPG, PNG)

어노테이션 및 라벨링 정보: JSON

라벨링 타입: bounding box


"데이터 바우처 / 데이터 구축 문의: help@smsoft.kr"


이송배관 누출, 정상 열화상 카메라 이미지 / 하수관로 내부 이미지(결함)에 대한 bounding box
이송배관 누출, 정상 열화상 카메라 이미지 / 하수관로 내부 이미지(결함)에 대한 bounding box


저희 세명소프트는 2020년 09월 중반부터 2020년 12월까지 정제, 가공, 검수 업무를 수행하였으며 약 70명 이상의 크라우드 워커가 함께 가공 작업을 진행하였습니다.


본 프로젝트 수행에 애로사항은 초기 수집 설계 시 정상 이미지와 이상 이미지에 대한 명확한 가이드가 없었고, 다수의 크라우드 워커가 온라인상에서 동시 작업함에 따라 관리적 측면에 어려움이 있었습니다.


따라서, 공통된 품질과 결과물을 만들어내는 것이 관건이였습니다.


저희 세명소프트는 담당 매니저들과 검수자들이 함께 사전 가공 작업을 통해 공통된 작업 가이드를 만들고, 변화되는 작업 방법 및 상황을 실시간 업데이트 하고, 실시간 Q&A 등을 운영하는 등 관리적 운영방안을 설계하고 도입하여 작업 리스크를 줄일 수 있었습니다. 덕분에 대량의 데이터 다루는 본 프로젝트를 안정적이고 성공적으로 완료할 수 있었습니다.


boundig box 라벨링(가공) 저작도구
boundig box 라벨링(가공) 저작도구

크라우드 워커 데이터 라벨링 업무 현황 관리표
크라우드 워커 데이터 라벨링 업무 현황 관리표

아래는 저희 세명소프트가 구축한 '열화상 카메라 이미지 데이터(산업단지)'와 '하수관로 내부 이미지 데이터'의 명세 정보 요약입니다.

1.열화상 카메라 이미지 데이터 1) 데이터 정보 요약


데이터 이름

- 데이터93번 열화상 카메라 데이터(산업단지 등)


활용 분야

- 열화상카메라로부터 획득된 영상을 통해 영상 내의 이상상황 객체를 검출하고, AI 모델을 통해 이상상황을 감지할 수 있도록 열화상 이미지 학습데이터를 구축, 이를 통해 산업단지 내 안전관리 및 시설물 모니터링을 통해 사고 안전예방을 위한 AI 응용 분야에 적용(기업, 공공, 연구, 산업 분야 전반)하여 전문가에 준하는 열화상 영상 판독 시스템으로서의 역할을 제공


데이터 요약

- 산업단지 내에 존재하는 객체를 중심으로 10종의 객체에 대해 총 50시간 이상의 동영상을 확보, 10초 video clip으로 구성(9FPS), 각 객체 당 10만장 이상, 총 100만장(Labeling 개수 100만 건) 이상의 열화상카메라 데이터 (정상상황 및 이상상황) 셋을 구축 ※ 객체별 이상상황을 1개의 객체로 정의 1. 고정형 객체: 움직이지 않는 객체 ① 저장탱크 ② 이송밸브 ③ 이송배관 ④ 배전반 ➄ 에어컨 실외기 ⑥ 공장 내부 ⑦ 공장 외부 2. 이동형 객체: 움직이는 객체 ⑧ 자동차 ⑨ 사람 ⑩ 배 ※ 객체 검출을 통한 정상/비정상을 판단


데이터 출처

- 산업단지공단, 여천공단, 장성 나노산단, 하남공단, 첨단산단, 부안항만, 구미산단 등에 입주하고 있는 업체에서 확보한 열화상 이미지 데이터 ※ 적외선 방식으로 형태만 컬러로 표시되는 열화상 카메라 데이터는 개인 식별성이 없기 때문에 개인정보에 포함되지 않음


2) 데이터 구성

열화상 이미지 어노테이션 데이터 예시
열화상 이미지 어노테이션 데이터 예시

3) 데이터 분포

산업현장에서의 이상상황(화재(불, 불꽃), 액체누출 등)은 극히 드물게 나타남. 따라서 데이터 구축에 있어, 정상 상황 이미지(750,000장, 75%), 이상 상황 이미지(250,000장, 25%)를 수집하고 가공(라벨링)함
산업현장에서의 이상상황(화재(불, 불꽃), 액체누출 등)은 극히 드물게 나타남. 따라서 데이터 구축에 있어, 정상 상황 이미지(750,000장, 75%), 이상 상황 이미지(250,000장, 25%)를 수집하고 가공(라벨링)함

4) 데이터 구축 프로세스


원시 데이터 수집 및 데이터 활용

- 국내 주요 산업단지 내 기업을 중심으로 현실에서의 실 객체에 대한 이상상황과 정상상황을 수집 ※ 촬영 시나리오에 따라서 10초(90FPS) ~ 20초(180FPS) 영상을 촬영 후 열화상 이미지로 변환 및 추출하여 열화상 이미지 데이터로 전부 활용함 · 산업단지공단, 여천공단, 장성 나노산단, 하남공단, 첨단산단, 부안항만,구미산단 등 - 산업단지 내 이상상황 데이터 수집이 어려울 경우, 가상상황 재현을 통해 데이터 수집 · 한국가스안전공사, 한국전기안전연구원으로부터 전문가 지원을 통해 이상상황을 재현


데이터 정제

- 열화상 이미지 데이터 검토 후 화질 및 객체 식별 확인, 1차 정제 (교차검증, 2단계 검수, 필요시 검수 단계 및 인원 추가) - 이미지 데이터 화질 검토 : 블랙 화면, 블루 화면, 흑백 화면 - 객체 식별 검토 : 객체 고유 형태 2/3 이상 확인


학습데이터 가공

- 열화상카메라 원천데이터를 PNG(RGB)이미지로 변환 · 카메라 제조사에서 제공하는 분석S/W 활용 · AI 학습데이터는 열화상 이미지 (PNG) 사용 · 실화상 이미지(PNG)는 라벨링 참조자료로 활용 - 원천 데이터의 메타정보 입력 · 이미지, 클래스, 환경, 기술 등 정보에 대한 메타데이터 입력 - 각 객체별로 이상상황, 정상상황 라벨링(크라우드소싱 병행 라벨링 수행) · 라벨링 및 어노테이션 가이드라인 준용



2. 하수관로 내부 이미지 데이터


1) 데이터 정보 요약


데이터 이름

- 하수관로 내부 이미지 데이터


활용 분야

- 하수관로 내부 촬영 데이터(영상/이미지)를 활용한 하수관로 내부 이상항목 분석, 유지관리 의사결정 등의 “스마트 하수관로 상태진단” AI 솔루션


데이터 요약

- (원천데이터) 하수관로 CCTV 조사영상에서 추출한 11개 클래스(균열, 표면손상, 파손, 연결관-돌출, 이음부-손상, 이음부-단차, 토사퇴적, 기타결함, 이음부, 하수관로 내부, 하수관로 외부)에 대한 이미지(png) 총 470,000장 (※ 개인정보, 공간정보, 조사정보 텍스트에 대한 비식별화 작업이 완료된 이미지) - (라벨링) 각 클래스별 전체 이미지(470,000장)에 대한 BBox 및 결함 클래스 이미지 (29,000장)에 대한 Segmentation-Polygon - (어노테이션) 원천데이터 정보, 라벨링 정보, 메타데이터 입력(*.json, MS COCO Set)


데이터 출처

- 지자체 보유 하수관로 CCTV 조사영상에서 추출된 하수관로 내부 이미지 - 조사·판독업체·관련기관 보유 하수관로 내부 미가공 이미지 ※ 하수관로 내부 이미지에는 지자체명, 관로 고유번호 등의 개인정보 뿐만 아니라 관로의 좌표(위도/경도)가 포함된 공간정보로서 하수관로 내부 이미지는 개인정보와 공간정보에 대해 100% 비식별화된 이후 공개가 가능함에 따라 데이터의 출처는 무기명으로 진행함


2) 데이터 구성

"클래스 별 이미지(PNG) 세트" + 어노테이션 정보(JSON) 1ea"로 구성 (N:1 구조)
"클래스 별 이미지(PNG) 세트" + 어노테이션 정보(JSON) 1ea"로 구성 (N:1 구조)

3) 데이터 분포

라벨링은 균열(Crack, CR)은 “균열-길이(Crack Longitudinal, CL)와 균열-원주(Crack Circumferential, CC)”로 구분하여 시행하고, AI 모델 학습 및 검증 시에는 “균열”로 통합하여 학습 및 검증하였음
라벨링은 균열(Crack, CR)은 “균열-길이a(Crack Longitudinal, CL)와 균열-원주(Crack Circumferential, CC)”로 구분하여 시행하고, AI 모델 학습 및 검증 시에는 “균열”로 통합하여 학습 및 검증하였음

4) 데이터 구축 프로세스


1단계>데이터 획득 1. 원시 데이터 수집

- 원시 데이터는 하수관로 내부 이미지로 정의함 - 수집 방법은 두가지 방식으로 이루어짐 1) 하수관로 CCTV 조사영상 및 미가공 이미지 등을 이용하여 하수관로 내부 이미지 수집(지자체 및 조사·판독업체·관련기관 기 보유 자료 활용) 2) 10km 하수관로 내부 직접조사


1단계>데이터 획득 2. 원시 데이터 클래스 분류

- 11가지 클래스별 해당 이미지 선별 - 도메인(하수관로 상태조사 및 판독) 전문가에게 교육받은 인원에 의한 하수관로 내부 이미지 수집자료 전수 검토를 통한 클래스 분류 - 클래스 분류 전수검사(이미지 유의미성, 클래스 분류 유효성)


2단계>데이터 정제(원천 데이터)

- 11가지 클래스별 해당 이미지 선별 - 도메인(하수관로 상태조사 및 판독) 전문가에게 교육받은 인원에 의한 하수관로 내부 이미지 수집자료 전수 검토를 통한 클래스 분류 - 클래스 분류 전수검사(이미지 유의미성, 클래스 분류 유효성)


2단계>데이터 정제(원천 데이터)

- 이미지 내 개인정보, 공간정보, 조사정보 관련 텍스트 비식별화 - 비식별화 결과 전수검사(비식별화 100% 여부)


3단계>데이터 가공(라벨링/어노테이션)

- 다양성 : 손상 및 비손상 클래스별 비율, 손상/비손상 비율 등 - 정확성 : 클래스 분류 정확성(98% 이상), 어노테이션 데이터 구조 정확성(100%)


4단계>AI 학습 모델 개발

- “EfficientDet-D0” 모델 적용 - Train:Validation:Test = 8:1:1 - mAP@0.5 0.7 이상


5단계>응용서비스 개발

- 하수관로 운영자를 위한 운영관리 관점에서의 응용서비스 개발 ex> 하수관로 퇴적물 유지관리 의사결정 서비스, 하수관로 연결관 정비 의사결정 서비스 등



* AI Hub에 공개된 열화상 카메라 이미지 데이터: https://aihub.or.kr/aidata/27710

* AI Hub에 공개된 상하수도 데이터(하수관로 내부 이미지): https://aihub.or.kr/aidata/33640

"세명소프트와 함께 고품질의 데이터를 구축하세요. 데이터 바우처 / 데이터 구축 문의 : help@smsoft.kr" https://www.smsoft.kr

#NIA #비전데이터 #이미지데이터 #데이터가공 #데이터바우처 #인공지능학습데이터 #AI학습데이터 #세명소프트