일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- GPT #챗봇
- Python
- 문자열
- 라이브러리 #IT지식 #CS지식
- 스톱워치
- Anaconda #가상환경
- 추상클래스 #인터페이스
- Java #객체지향 # 프로그래밍 # SOLID #OOP
- 맵핑
- 백준 #알고리즘
- 프로그래머스 #파이썬 #python #슬라이싱 #코딩
- 알고리즘 #백준 #집합과맵
Archives
- Today
- Total
고통은 사라지고 결과는 남는다. Records of Chansolve
크롤링 본문
크롤링 이란 무엇일까?
- 웹 스크래핑, 웹스파이더링, 웹크롤링이라고 불리는 이 기술은 웹페이지에 널려져있는 데이터들을 프로그래밍적으로 추출하는 행위를 말한다.
- 쉽게 이해하자면 웹페이지상에서 데이터를 긁어와서 가져오는 것

크롤링의 활용 예
1) 네이버뉴스, 다음뉴스 등등 여러가지 뉴스웹사이트에서 나오는 정보들을 일괄적으로 자신이 원하는 입맛에 맞춘 데이터들만 뽑아낼 때
2) 멜론 사이트에서 현재 음악차트 순위를 가져와 엑셀파일로 만들때
3) 여러 쇼핑몰사이트에서 내가원하는 키워드에대해 모든 가격을 가져와서 최저가비교를 할 때
요약
- Web상에 존재하는 Contents를 수집 하는 작업 (프로그래밍으로 자동화 가능)
- HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
- Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
- Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법
- *짧은 시간 동안 과도하게 데이터를 수집하면 해당 서버에 무리를 줌 *디도스(DDoS) 공격으로 감지 될 수 있음
'Computer Science' 카테고리의 다른 글
VScode Anaconda 가상환경 실행 및 세팅 (0) | 2023.11.20 |
---|---|
외부 클라이언트 내부 서버에 연결 (0) | 2023.09.20 |
Django REST framework에서 ViewSet과 APIView (0) | 2023.04.24 |
나만 보려고 만든 Anaconda & Django Rest Framwork 프젝생성 (0) | 2023.03.16 |
Django와 Django Rest Framwork의 차이 (0) | 2023.03.03 |