Software Development/Data Engineering
-
대용량 데이터를 수집하기 위한 생산성있는 웹 크롤러의 구조Software Development/Data Engineering 2020. 11. 5. 19:26
1. 웹 크롤러? 웹 스크래퍼? 웹 크롤링과 웹 스크래핑의 정의에 의하면 둘의 의미는 엄연히 다르다고 볼 수 있지만 위키피디아 정의에 따르면 웹 스크래핑이 웹 크롤링의 부분 집합이라 볼 수 있습니다. 웹 크롤링: 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다[1]. 웹 스크래핑: 웹 스크래핑은 페이지를 가져 와서 추출하는 것을 포함하여 ..