less than 1 minute read

이미지 데이터 - 크롤링 검증 완료.

  • 어제 만든 크롤링 코드를 활용하여 구한 이미지들의 검증 작업을 완료했다.

  • 검증 결과, 72개의 후보군이 선정되었다.
    탈락한 랜드마크들은 다음과 같은 이유에서 제외되었다.

    • 장소를 특정할만한 특별한 조형물이 존재하지 않는 경우
      • 몽촌토성, 보라매공원 등의 공원이 대다수였다.
    • 여러 랜드마크들을 통합하여 부르는 경우, 세분화 작업을 거쳤다.
      • 목동 종합 운동장 -> 주경기장, 아이스링크, 야구장으로 세분화
      • 창덕궁 및 비원 -> 창덕궁, 창덕궁 비원 으로 세분화
  • 실험할 가치가 있어보이는 이미지들도 몇개 포함해보았다.
    이를 ‘챌린지’로 정의한다.

    • 챌린지 데이터들의 경우, 실험 실패시 다른 데이터로 대체하여 수집하거나 정제 과정을 한번 더 거친다.

    • 목록은 다음과 같다.

      • 남산골 한옥마을 챌린지
        • 남산타워 + 한옥마을 이라는 조합으로 해당 장소임을 인식할수 있는지의 여부
      • 목동 종합운동장 챌린지
        • 근거리에 붙어있는 세개의 장소(아이스링크, 야구장, 주경기장)의 구분이 가능할까?
        • 세개의 데이터가 최대한 안겹치도록 제작했으나, 장소들이 한꺼번에 찍힌 사진의 경우 의도적으로 제거하지 않았다.
      • 서울숲 챌린지
        • 크롤링한 데이터를 정제하지 않고도 이미지 인식을 통과할수 있을까?
        • 특징적인 조형물이 존재하지 않아 제외했어야 하는 데이터지만, 한번 실험에 사용해보기로 했다.
      • 파크원 챌린지
        • 이미지 모델 학습 과정에서 rgb데이터를 제거하여 불필요한 데이터 크기를 줄이는것으로 알고있다.
        • 그렇다면, 파크원 랜드마크의 경우 건물 외곽의 붉은 선이 가장 큰 특징인데 이것을 다른 건물과 구별할수 있을까?