2 minute read

데이터 셋 개요

  • 기존 프로젝트에서 사용하던 데이터는 크게 두가지로 분류할수 있다.
    • 랜드마크 이미지를 인식한 후 사용하는 해당 랜드마크에 대한 정보가 담겨있는 이미지 정보 데이터
    • 랜드마크 주변의 관광지를 추천받을때 사용하는 관광지 정보 데이터

이미지 정보 데이터 - AI HUB

  • AI HUB의 한국형 사물 데이터중 랜드마크 이미지를 활용한다.

  • 해당 데이터는 다음과 같은 카테고리로 이루어져 있다.
    • 유적/건조물 이미지
    • 관광객들이 많이 찾는 상품의 이미지
    • 각 도시의 랜드마크 이미지
  • 이 데이터들 중에서, 과거 프로젝트 당시의 문제점중 하나였던 비슷한 한옥, 고궁의 이미지는 인식되지 않았던 문제 때문에 유적/건조물 이미지는 일단 제외하였다.

  • 이전 프로젝트가 종료된 후 AI HUB 페이지를 찾아가본것은 처음이었는데, 그 사이 홈페이지가 상당히 개편되어있었다.
    • 예전에는 이미지 파일 다운로드를 하려면 20GB짜리 알집파일을 하나하나 직접 다운했어야 했으나,
      새로 바뀐 홈페이지에서는 다운로드 통합 프로그램을 제공하여 손쉽게 원하는 카테고리의 데이터를 다운로드 받을수 있었다.
  • 다른 데이터들을 둘러보던 도중 랜드마크 이미지가 있어 살펴봤는데, 확인 결과 해당 데이터가 과거 Dacon 경진대회에서 수집했던 데이터였다는것이 확인되었다.
    • 해당 데이터를 검증하는 과정에서 Dacon의 경진대회를 열었던 것이고, 우리는 그 당시의 데이터를 수집했던 셈이다.
    • 이 프로젝트의 구축 활용 가이드에 우리가 했던 프로젝트와 상당히 유사한것(랜드마크 이미지를 인식하여 해당 랜드마크가 무엇인지 알려주는 시스템)이 제시되어 있기에 굉장히 묘한 기분이 들었다.
    • 분명 우리가 만들때만 해도 굉장히 참신한 아이디어라 생각했는데, 데이터가 비슷해서 그런지 결국 비슷한 프로젝트가 나오는것 같았다.
      • 물론, 우리 프로젝트는 저 데이터에 연결지어 데이터를 구할수 있었던 서울시 한정으로 인근 관광지 데이터까지 연결해 제시해주었다는것이 차이점이다.
    • 공개되어있는 데이터가 대전광역시와 부산광역시의 것만 존재했기 때문에, 우선 관광지 데이터를 확보한 이후에 해당 데이터를 사용하는 방안으로 진행하기로 했다.

관광지 정보 데이터 - 서울 열린데이터 광장

데이터 탐색 후기.

  • 데이터 찾아보고 느낀건데, 전국 단위로 이런 관광지 데이터를 수집해서 작업하는건 개인 단위의 프로젝트에서 할 짓이 아니라고 느꼈다.
    • 따라서, 이번 프로젝트의 범위를 서울시 내부의 랜드마크만으로 한정하기로 결정했다.
  • 서울시의 데이터만 활용하기로 마음먹으니, 2021 서울특별시 빅데이터캠퍼스 공모전이라는 공모전이 눈에 띄었다.
    • 접수 기간이 9월 30일까지, 결과 제출이 10월 20일까지이니 각이 나온다 싶으면 신청해보는것도 재미있을것 같아보인다.
    • 제공되는 데이터중 서울시 15년 미래유산 위치도가 상당히 흥미로워 보였다.
      • 해당 데이터는 문화재로 등록되지 않은 서울의 근현대 문화유산 중에서 미래세대에게 전달할 만한 가치가 있는 유․무형의 모든것에 대한 위치정보와 건립시기, 보존필요성, 인접 지하철역, 주차장, 유무 등을 제공하는 데이터이다.
      • 내 프로젝트와 결합하게 된다면 관광지탭의 데이터에 들어갈 항목으로 추가해서 만들면 될것같다.