- Link
- 일시: 2022.04.14(목) 16:00 ~ 16:50
- 장소: 코엑스 3층 Hall D 內 Artificial Room
- 강연자: 크라우드웍스 / 이형주 CPO
Presentation
Data Labeling?
- 지도학습을 위해 원천 데이터에 정답을 표시하는 일련의 작업
- 인형 눈 붙이는 작업이라는 인식이 있음
- 데이터 하나에 따라 결과가 크게 달라짐
- 배경 지식과 많은 skill을 요구함
ML을 Data Labeling에 적용했던 과정
ML을 Data Labeling에 어떻게 적용하지?
- 초기 생각: Auto Labeling 구현 (당연한 것 아닌가..?)
- 사람이 데이터 가공 ⇒ Model 학습 ⇒ Model이 똑똑해짐 ⇒ 사람이 검수만 ⇒ Model이 모든 것을 진행
- 잘못된 생각이었음
[1 step] Object Dectection Model을 활용해 이미지 바운딩 자동화를 진행함
- 실행 이유
- 활용할 수 있는 라이브러리, 모델이 많았음
- 의뢰가 많이 들어옴
- 작업 수량이 많아서 개선 효과가 커보였음
- 쉬워보였다.
- 현실에 대한 자각
- 이미지의 정답 결과가 tight한 사각형 안에 들어와야 됐음..
- 모델 결과물을 수정, 검수하게끔 하려고 했으나..
- 수정 과정에서 많은 항의 및 질의가 들어왔음 (결과가 애매해서)
- 수정보다는 사람이 하는게 더 빠르다는 판단
- 배운 점
- Client들의 요건은 생각보다 까다롭다
- ML 라벨링을 위해 직접 사용할 경우, 다음을 고려해야됨
- “수정하는 노력 + 머신러닝을 적용하는 노력 < 매뉴얼 작업에 대한 노력”이 되어야 함!
- 자동화 적용
- 작업 1
- 작업 내용
- 얼굴에 468개의 랜드마크를 표기
- 랜드마크의 순서와 위치를 지켜야됨
- 상황
- 작업자가 순서와 위치를 지키면서 표기하기에는 난이도가 너무 높음
- 모델이 허용 가능한 오류를 내는 상황
- 결론
- 모델로 작업 수행 후, 작업자가 검증하는 형태로 진행
- 작업 2
- 작업 내용
- 자동차 인식 후 52개의 점으로 polygon 생성
- 빈틈을 최소화해서 점을 찍어야됨 (순서/위치 제약 x)
- 상황
- 작업자가 순서 위치 가이드 없이 빈틈 최소화하기 어렵다고 판단
- 결론
- 점의 위치를 최적화하는 알고리즘 적용
- 모델로 작업 수행 후, 작업자가 검증하는 형태로 진행
[2 step] 차량 Segmentation 작업을 자동화
- 실행 이유
- 첫 번째 시도에서 얻은 insight에 부합하는 작업
- 모델의 segmentation 결과가 나쁘지 않았음
- 자율 주행 등 유사 작업으로의 적용이 용이해보였음
- 현실에 대한 자각
- 새로운 조건이 발생함
- 차선을 위반한 차량만 작업하라는 요청
- Rare한 케이스라고 생각했으나, 생각보다 많았음
- 교차로 내에 있는 차만 바운딩, 사진에서 처음으로 등장한 차만 바운딩해달라는 난해한 요청이 존재
- 배운 점
- Client들의 요건은 “작업 할 객체"와 객체가 처한 “상황"으로 이루어져 있다.
- 자동화를 위해서는 다양한 “상황"에 대한 처리가 필요
- ML로 “상황"의 조건이 있는 문제를 위한 자동화 구현은 현실적이지 않음