티스토리 뷰
2022 우아한스터디 "HTTP 완벽가이드"를 진행하면서
'HTTP 완벽 가이드' 책을 읽고, 글쓴이의 생각을 정리하는 글 입니다.
https://book.naver.com/bookdb/book_detail.nhn?bid=8509980
1. 웹로봇(=스파이더, 크롤러, 봇...)?
이름이 거창한데, 그냥 웹페이지를 정해진 규칙으로 지속적으로 Data를 수집하는 것을 의미합니다.
(게임의 매크로와 비슷하다고 볼 수 있겠네요)
WWW의 World Wide "Web" 이라는 이름 때문에, 지 Web위를 기어다닌 다는 의미로 스파이더 혹은 크롤러(crwal :기어다니기)라고 불린다 합니다.
다량의 Web Page정보를 수집하거나, 검색엔진의 DataBase 확보 목적으로 주로 사용됩니다.
2. 크롤링의 위험 요소
크롤링은 자동으로 하이퍼링크를 따라서 움직입니다. 하지만, 만약에 아래와 같은 경우가 있다면, 림보에 빠지게 됩니다.
[A] ----> [B] ------> [C]
^ |
| |
| |
| |
----------[D]
크롤링 순서 : A -> B -> C -> D -> B -> C....
위처럼 간단한 순환참조가 발생하면 특별한 대책이 없는 웹로봇은 B, C, D를 무한대로 순환하면서 결국 Server를 터뜨리게 됩니다.
이를 위한 대책으로
2_1. 트리&해시테이블을 활용해서 방문기록 관리
(하지만 메모리가 너무 많이들고, Page의 수가 증가할수록 크롤링이 느려지게 됩니다)
중복된 Page의 저장을 최소화 하기 위해서 URL을 정규화 하여 저장하게 됩니다.
간단한 정규화 방법
기본적인 정규표현식 +
1. 포트 번호가 명시되지 않았다면, 호스트 명에 ':80'을 추가한다.
2. 모든 %xx 이스케이핑된 문자들을 대응되는 문자로 변환한다.
3. #태그들을 전부 제거한다.
2_2. 너비우선 크롤링
한 페이지의 reaf를 찾을때가지 계속 크롤링을 하는게 아니라, root에 달려있는 다수의 child를 탐색하는 방법 입니다.
아무래도 한 페이지에서 발생할 수 있는 순환참조에 빠지더라도, 웹로봇 자체가 죽지는 않는 장점이 있습니다.
2_3. 스로틀링.
특정 웹사이트에 접근한 횟수를 추적하고, 중복 회수의 제한을 두는 방식입니다.
2_4. URL/사이트 블랙리스트
악의적이던, 아니면 의도하지 않았던 무한루프에 빠트리는 웹사이트를 임의적으로 제외시키는 방법
2_5. 이외에 패턴인식, 콘텐츠 지문, URL 크기제한 등이 존재합니다.
3. 웹로봇의 HTTP Message
웹 로봇을 사용할 경우에 대한 특별한 HTTP 프로토콜이 있지는 않습니다.
대신, 서버관리자가 크롤러를 식별할 수 있게
User-Agent : 서버에게 요청을 만든 로봇의 이름
From : 로봇의 사용자/관리자의 이메일 주소
Accept : 서버에게 어떤 미디어 타입을 보내도 되는지를 알려줌
Referer : 현재의 요청 URL을 포함한 문서의 URL을 제공
을 구현하도록 권장하고 있습니다.(말 그대로 권장이라, 실제 잘 지켜지는 지는 미지수입니다)
4. 웹로봇의 차단하기
인터넷에는 다양한 정보가 있고, 그 중에는 외부로 노출되면 안되는 민감한 정보도 있을 수 있습니다.
이런 경우 Server에서는 robots.txt 라는 파일을 생성해 놓고
웹로봇은 robots.txt를 요청 하여 해당 데이터를 text/plain으로 받아들이고, 이를 parsing합니다.
robots.txt의 경우 아래처럼 간단한 text형태로 되어있습니다.
user-agent : <robot-name>
Disallow : <address>
Allow : <addresss>
ex. Teus-Spyder라는 웹 로봇은
/Dynamic, /Static은 접근 불가능
/private/spyder-stuff만 접근 가능
--> 결국, Allow 한 곳만 가능하고, 나머지는 모두 Disallow와 같아짐
user-Agent : Teus-Spyder
Disallow: /Dynamic
Disallow: /Static
Allow: /private/spyder-stuff
Disallow만 있으면 나머지는 접근이 가능하고
Allow만 있으면 나머지는 접근이 불가능하게 됩니다.
하지만, 웹로봇 방식 역시 사용자마다 구현이 제각각 이기 때문에, 웹로봇을 만든 제작자가 robots.txt를 를 요청하는 작업을 구현해야 합니다.
<로봇> -----> <Server> ----> robots.txt가 있는가? --Yes--> robots.txt를 사용해서 예외 처리
|
No
|
일반적인 사이트로 판단하고
전체 크롤링
5. 웹로봇의 차단하기2(META Tag)
위 방법은, 결국 Server관리자만이 가능합니다.
Server관리자가 아니라 HTML단위의 작성자의 경우, HTML Tag에 <META>를 추가함으로써 특정 컨텐츠의 크롤링을 제한할 수 있습니다.
ex. <META NAME = "ROBOTS" CONTENTS = "NOINDEX, NOARCHIVE">.
CONTENTS에 사용할 수 있는 지시자는 아래와 같습니다.
5_1. NOINDEX, NONE : 웹 로봇에게 이 페이지를 처리하지 말라고 표기
5_2. NOFOLLOW, NONE : 현재 페이지가 링크한 페이지를 크롤링 하지 말라고 표기
(결국, NONE은 NOINDEX와 NOFOLLOW의 합집합이 됩ㄴ디ㅏ)
5_3. INDEX, ALL : <-> NOINDEX
5_4. FOLLOW, ALL : <-> NOFOLLOW
5_5. NOARCHIVE : 해당 페이지의 사본을 저장하지 말라고 표기
META Tag는 HTML head부분에서 포함되어야 합니다.
'네트워크 > HTTP' 카테고리의 다른 글
15. 인증 (0) | 2022.07.13 |
---|---|
14. 쿠키 (0) | 2022.06.16 |
12. 게이트웨이 (0) | 2022.06.05 |
11. 캐시(2편) (0) | 2022.06.01 |
10. 캐시(1편) (0) | 2022.06.01 |
- Total
- Today
- Yesterday
- git
- 프로그래머스
- 자료구조
- stack
- AVX
- Greedy알고리즘
- 코딩테스트
- Python
- 병렬처리
- 동적계획법
- prime number
- hash
- 컴퓨터그래픽스
- Sort알고리즘
- 이분탐색
- 분할정복
- 완전탐색 알고리즘
- heap
- Search알고리즘
- C++
- 사칙연산
- GDC
- 알고리즘
- SIMD
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |