1 minute read

관광지 데이터 - 전처리기 제작 완료.

  • 4일차 글에서 다뤘던 서울시 공공데이터들을 전처리하여 데이터를 추출하는 전처리기를 제작했다.

  • 완성된 전처리기의 코드는 이곳의 tour_site_data_crawler.py에서 볼수있다.

데이터 가공 과정

  • 1차적으로 데이터에서 이름,주소,위도,경도 등의 데이터를 선정해 추출하였고, 각 특성에 맞는 데이터들을 추가로 크롤링하는 방식으로 데이터를 정제함.

    • 상점, 음식점, 숙소의 경우 영업코드를 통해 영업중인 점포의 데이터만 추출하였다.

    • 일부 데이터의 좌표계가 위/경도 좌표계가 아닌 중부원점 좌표계로 표시되어있어 좌표계 변환 함수를 Tools.py에 명시하여 x,y좌표를 경도,위도로 변경해주었다.

    • 관광지(유적 데이터)의 경우 해당 장소에 대한 설명을 간략하게 크롤링하여 첨부했다.
      • 추후 지도에 표시될때 마커 클릭시 나타날 설명문으로 사용하기 위해 수집했다.
    • 식당 데이터는 수집 당시 관광식당일반음식점 두개의 데이터를 수집했으나, 일반 음식점 데이터에 관광식당의 데이터가 포함되어있어 일반음식점의 데이터만 사용했다.

    • 숙소 데이터 역시 관광숙박업숙박업두가지 데이터를 수집했으나, 숙박업 데이터에 관광숙박업 데이터가 포함되어있어 숙박업 데이터만 사용했다.

    • 상점 데이터 또한 전통시장대규모점포두가지 데이터를 수집했지만, 같은 이유로 대규모점포의 데이터만 사용했다.

    • 문화시설의 데이터 및 관광지 데이터(유적 데이터)는 시,구,동 까지만 기재되어있었으므로, 검색을 통한 크롤링으로 최대한 주소를 확보하는 방향으로 데이터를 수집했다.

다음 할 일

  • 1차로 가공된 데이터들을 보니 결측값 및 이상치가 다양한 방식으로 생성된것을 확인했다.

  • 더 나은 데이터 추출을 위해 최대한 결측치를 줄이는 방향으로 코드를 개선시키기로 했다.

    • 주소만 존재하고 위/경도가 존재하지 않는 데이터는 지오코딩 또는 구글 지도 검색을 통해 좌표 데이터를 확보

    • 위/경도만 존재하고 주소가 존재하지 않는 데이터는 역지오코딩을 통해 주소 데이터를 확보

    • 주소 데이터 자리에 들어간 이상 데이터들의 제거 및 수정

  • 결측치들만 전부 수정하고 나면 다음은 이 프로젝트의 메인 이벤트인 이미지 인식모델 생성이다.

    • AI-HUB에서 가져온 랜드마크 데이터를 통해 모델별 실험 및 crop에 따른 이미지 인식률 비교등을 실험한다.

    • 그 후, crop하지 않았을때 가장 성능이 좋았던 모델을 선정하여(크롤링하여 수집한 이미지는 crop할수 없으므로) 수집한 이미지들을 기반, 서비스에 사용할 모델을 생성한다.

    • 생성한 이미지들도 말이좋아 챌린지이지, 엉망인 데이터들이 몇개 있으므로 챌린지 결과 인식률이 저조하다면 데이터 재수집 또는 해당 데이터를 사용하지 않는 방향으로 진행한다.