티스토리 뷰

네트워크/HTTP

13. 웹로봇

Teus 2022. 6. 8. 11:43
728x90
반응형

2022 우아한스터디 "HTTP 완벽가이드"를 진행하면서

'HTTP 완벽 가이드' 책을 읽고, 글쓴이의 생각을 정리하는 글 입니다.

https://book.naver.com/bookdb/book_detail.nhn?bid=8509980 

 

HTTP 완벽 가이드

성공적인 웹 트랜잭션 뒤의 숨은 핵심, HTTP의 모든 것『HTTP 완벽 가이드』는 HTTP 규약이 어떻게 작동하고 웹 기반 애플리케이션을 개발하는 데 어떻게 사용하는지 설명하고, HTTP가 효율적으로 동

book.naver.com

 

1. 웹로봇(=스파이더, 크롤러, 봇...)?

이름이 거창한데, 그냥 웹페이지를 정해진 규칙으로 지속적으로 Data를 수집하는 것을 의미합니다.

(게임의 매크로와 비슷하다고 볼 수 있겠네요)

 

WWW의 World Wide "Web" 이라는 이름 때문에, 지 Web위를 기어다닌 다는 의미로 스파이더 혹은 크롤러(crwal :기어다니기)라고 불린다 합니다.

 

다량의 Web Page정보를 수집하거나, 검색엔진의 DataBase 확보 목적으로 주로 사용됩니다.

 

2. 크롤링의 위험 요소

크롤링은 자동으로 하이퍼링크를 따라서 움직입니다.  하지만, 만약에 아래와 같은 경우가 있다면, 림보에 빠지게 됩니다.

[A] ----> [B] ------> [C] 
           ^           |
           |           |
           |           |
           |           |
            ----------[D]
크롤링 순서 : A -> B -> C -> D -> B -> C....

위처럼 간단한 순환참조가 발생하면 특별한 대책이 없는 웹로봇은 B, C, D를 무한대로 순환하면서 결국 Server를 터뜨리게 됩니다.

 

이를 위한 대책으로

2_1. 트리&해시테이블을 활용해서 방문기록 관리

(하지만 메모리가 너무 많이들고, Page의 수가 증가할수록 크롤링이 느려지게 됩니다)

 

중복된 Page의 저장을 최소화 하기 위해서 URL을 정규화 하여 저장하게 됩니다.

간단한 정규화 방법
기본적인 정규표현식 + 
1. 포트 번호가 명시되지 않았다면, 호스트 명에 ':80'을 추가한다.
2. 모든 %xx 이스케이핑된 문자들을 대응되는 문자로 변환한다.
3. #태그들을 전부 제거한다.

 

2_2. 너비우선 크롤링

한 페이지의 reaf를 찾을때가지 계속 크롤링을 하는게 아니라, root에 달려있는 다수의 child를 탐색하는 방법 입니다.

 

아무래도 한 페이지에서 발생할 수 있는 순환참조에 빠지더라도, 웹로봇 자체가 죽지는 않는 장점이 있습니다.

 

2_3. 스로틀링.

특정 웹사이트에 접근한 횟수를 추적하고, 중복 회수의 제한을 두는 방식입니다.

 

2_4. URL/사이트 블랙리스트

악의적이던, 아니면 의도하지 않았던 무한루프에 빠트리는 웹사이트를 임의적으로 제외시키는 방법

 

2_5. 이외에 패턴인식, 콘텐츠 지문, URL 크기제한 등이 존재합니다.

 

3. 웹로봇의 HTTP Message

웹 로봇을 사용할 경우에 대한 특별한 HTTP 프로토콜이 있지는 않습니다.

 

대신, 서버관리자가 크롤러를 식별할 수 있게

User-Agent : 서버에게 요청을 만든 로봇의 이름

From : 로봇의 사용자/관리자의 이메일 주소

Accept : 서버에게 어떤 미디어 타입을 보내도 되는지를 알려줌

Referer : 현재의 요청 URL을 포함한 문서의 URL을 제공

 

을 구현하도록 권장하고 있습니다.(말 그대로 권장이라, 실제 잘 지켜지는 지는 미지수입니다)

 

4. 웹로봇의 차단하기

인터넷에는 다양한 정보가 있고, 그 중에는 외부로 노출되면 안되는 민감한 정보도 있을 수 있습니다.

 

이런 경우 Server에서는 robots.txt 라는 파일을 생성해 놓고

 

웹로봇은 robots.txt를 요청 하여 해당 데이터를 text/plain으로 받아들이고, 이를 parsing합니다.

 

robots.txt의 경우 아래처럼 간단한 text형태로 되어있습니다.

user-agent : <robot-name>
Disallow : <address>
Allow : <addresss>

ex. Teus-Spyder라는 웹 로봇은
    /Dynamic, /Static은 접근 불가능
    /private/spyder-stuff만 접근 가능
    --> 결국, Allow 한 곳만 가능하고, 나머지는 모두 Disallow와 같아짐
user-Agent : Teus-Spyder
Disallow: /Dynamic
Disallow: /Static
Allow: /private/spyder-stuff

Disallow만 있으면 나머지는 접근이 가능하고

Allow만 있으면 나머지는 접근이 불가능하게 됩니다.

 

 

하지만, 웹로봇 방식 역시 사용자마다 구현이 제각각 이기 때문에, 웹로봇을 만든 제작자가 robots.txt를 를 요청하는 작업을 구현해야 합니다.

<로봇> -----> <Server> ----> robots.txt가 있는가? --Yes--> robots.txt를 사용해서 예외 처리
                                     |
                                    No
                                     |
                         일반적인 사이트로 판단하고
                             전체 크롤링

 

5. 웹로봇의 차단하기2(META Tag)

위 방법은, 결국 Server관리자만이 가능합니다.

 

Server관리자가 아니라 HTML단위의 작성자의 경우, HTML Tag에 <META>를 추가함으로써 특정 컨텐츠의 크롤링을 제한할 수 있습니다.

ex. <META NAME = "ROBOTS" CONTENTS = "NOINDEX, NOARCHIVE">.

 

CONTENTS에 사용할 수 있는 지시자는 아래와 같습니다.

5_1. NOINDEX, NONE : 웹 로봇에게 이 페이지를 처리하지 말라고 표기

5_2. NOFOLLOW, NONE : 현재 페이지가 링크한 페이지를 크롤링 하지 말라고 표기

(결국, NONE은 NOINDEX와 NOFOLLOW의 합집합이 됩ㄴ디ㅏ)

5_3. INDEX, ALL :  <-> NOINDEX

5_4. FOLLOW, ALL : <-> NOFOLLOW

5_5. NOARCHIVE : 해당 페이지의 사본을 저장하지 말라고 표기

 

META Tag는 HTML head부분에서 포함되어야 합니다.

728x90
반응형

'네트워크 > HTTP' 카테고리의 다른 글

15. 인증  (0) 2022.07.13
14. 쿠키  (0) 2022.06.16
12. 게이트웨이  (0) 2022.06.05
11. 캐시(2편)  (0) 2022.06.01
10. 캐시(1편)  (0) 2022.06.01
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함