본문 바로가기

프로그래밍 /용어

웹 크롤링(WEB SCRAPING)이란

웹 크롤링( web scraping) 이란??


컴퓨터 소프트웨어 기술로 웹 사이트들에서 원하는 정보를 추출하는 것!!!

쉽게 말하면

각 페이지 개발자검사 로 보면 HTML 형태로 보여지는데

이런 소스들은 어떤 정형화된 형태로 관리하기에 

이런 정형화된 규칙을 분석해서 원하는 정보를 추출해오는 것을 웹 크롤링이다

(더쉽게 페이지에 원하는 정보만 뽑아온다)


예를 들면 현재 영화 순위 사이트에서 자료가 필요하다고하면 하나하나씩 찾아서 DB 에 담아서 할수도 있지만

딱 우리는 영화제목 평점 장르 배우만 필요하다고 할 때

개발자 소스로 분석을 해서 원하는 정보를 뽑아온다고 생각하면 좋겠다


웹 크롤러란?


인터넷에 있는 웹페이지를 방문해서 자료를 수집하는 일을 하는 프로그램을 지칭한다.

페이지 단 하나만 방문하는 것이 아니라 페이지에  링크되어 있는 또 다른 페이지를 차례차례 방문하고 

이처럼 링크를 따라 웹을 돌아다니는 모습이 거미와 같다고 해서 스파이더 라고 한다.

웹문서의 데이터가 워낙 많기 때문에 사람이 직접 하나하나 구분해서 하는것은 불가능!!

웹문서 검색에서는 이 일을 자동으로 수행 해준다. 




※※※

웹 크롤링에 대해서는 -> Web Scraping with something" 으로 검색해서 자료 찾기

'프로그래밍 > 용어' 카테고리의 다른 글

[git] 이클립스 GIT 연동 -> gitHub 업로드  (0) 2018.01.15
[GIT] GIT 이란??  (0) 2018.01.12