이번 주 한 일 회고
피드백 내용
현재 크롤링을 어떻게 사용하고 있나요?
- 현재 데이터를 크롤링 시 생각보다 시간이 많이 소요되어 물리적으로 혼자 할 수 없어 팀원 4명이서 분배하여 진행 중
- 1명이 24시간 크롤링을 돌릴 경우 약 1만건의 데이터를 넣을 수 있음
- 오래걸리는 사유는 크롬 드라이버를 통한 검색을 하여 html에 있는 정보를 긁어와서 저장하기 때문에 속도적인 지연도 발생하고, 네이버에서 Block처리를 하여 500건에 한번씩 sleep도 들어감 ..
크롤링하는 방법이 효율적이지 않은 것 같은데 효율적으로 데이터를 가져올 수 있는 방법을 검토하면 어떨까요?
- 우리가 가지고 있는 엑셀 리스트에 일치하는 데이터만을 수집하기 위해 오래걸리는 것 같은데 꼭 이 방법을 사용해야하는지? 생각해보기
- 예를 들어 공공 데이터 포탈에서 받은 데이터를 우선 DB에 밀어넣고 → 네이버로 추가적으로 필요한 알맹이(요소)들을 채워넣고 → 더미데이터로 랜덤한 데이터도 넣고 → 수집된 데이터를 네이버와 비교해가면서 ‘네이버 인증’필드 들을 만들어서 인증된 데이터는 이후에 검사하지않고, 인증 안된 데이터만 비교하는 방식은 어떨지
프로젝트 기획 관련
- 현재 MVP를 보았을 때 성능개선 부분은 Elastic Search, Radis를 써서 검색 속도를 빠르게 하고,
Scale-out(ELB) 이중화 하는 것 외 없는 것 같아서 보완이 필요해 보임
- 지도를 사용한 검색 기능을 사용하는데 사용자 위치 기반으로 검색하는 기능을 추가하는것은 어떤지?
- 리뷰 테이블을 만들어서 평점에 대한 통계도 계산하고, 순식간에 트래픽이 증가하였을 때 핸들링 할 수 있는 방안을 생각해보는 것 도 좋을 것 같음