고통은 사라지고 결과는 남는다. Records of Chansolve

크롤링 본문

Computer Science

크롤링

엄청큰노란닭 2023. 7. 4. 09:22

크롤링 이란 무엇일까?

  • 웹 스크래핑, 웹스파이더링, 웹크롤링이라고 불리는 이 기술은 웹페이지에 널려져있는 데이터들을 프로그래밍적으로 추출하는 행위를 말한다.
    • 쉽게 이해하자면 웹페이지상에서 데이터를 긁어와서 가져오는 것

크롤링의 활용 예

1) 네이버뉴스, 다음뉴스 등등 여러가지 뉴스웹사이트에서 나오는 정보들을 일괄적으로 자신이 원하는 입맛에 맞춘 데이터들만 뽑아낼 때
2) 멜론 사이트에서 현재 음악차트 순위를 가져와 엑셀파일로 만들때
3) 여러 쇼핑몰사이트에서 내가원하는 키워드에대해 모든 가격을 가져와서 최저가비교를 할 때

요약

  • Web상에 존재하는 Contents를 수집 하는 작업 (프로그래밍으로 자동화 가능)
  1. HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
  2. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
  3. Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법
    • *짧은 시간 동안 과도하게 데이터를 수집하면 해당 서버에 무리를 줌 *디도스(DDoS) 공격으로 감지 될 수 있음
Comments