Sangil's blog

https://github.com/ChoiSangIl Admin

WEB 내 사이트에 크롤러가? robots.txt란 무엇인가? DEV / WEB

2018-09-01 posted by sang12


웹 크롤러란, 특정 목적을 가지고 웹을 탐색하는 프로그램 입니다. 또한 크롤러가 웹을 탐색하여 데이터를 가져오는 행위를 크롤링이라고 부릅니다. 다양한 목적으로 크롤링이란 행위가 이루어지며 검색 엔진또한 사용자에게 원하는 데이터를 제공하기 위하여 웹상의 정보들을 끊임없이 검색하여 색인하는 작업을 반복합니다. 이 블로그도, 검색엔진이 주기적으로 들어와 블로그에 추가 및 변화된게 있는지 크롤링을 해가는데, 이때 검색엔진은 robots.txt 문서및 html의 메타 태그를 참조하여 어느 곳을 크롤링해갈지 판단하게 됩니다. 하지만 robots.txt에 크롤링을 못하게 명시해놨다고 해서, 무조건 차단되는 것은 아닙니다. 참조 문서일 뿐이지 크롤링을 하는 봇이 접근하고자 한다면 할 수 있습니다. 하지만 대다수의구글이나 네이버등의 봇들은 해당 robots.txt를 참조하여 정보를 검색합니다.  하지만 robots.txt가 설정되어 있지 않다면 어떻게 될까요? 검색엔진은 이를 정보수집을 허용한다고 판단하고 모든페이지를 크롤링하게됩니다.

자, 그럼 어떻게 문서를 작성해야, 검색엔진 봇들에게 수집되어야 할 페이지와, 수집 안해도 될 페이지를 알려줄까요

현재 이 페이지는 /md로 시작하는 url로 접속하면, 관리자 전용 페이지에 접속하게 됩니다. 이페이지는 외부에 노출시킬 필요가 없으므로. 저는/md라는 url은 disallow 허락하지 않겠다라고 문서를 작성해놨습니다. 

User-agent: *
Allow: /
Disallow: /md/
User-agent : 검색봇
Allow: 허락 
Disallow: 불허

만약 네이버 봇에게는 크롤링을 허용하지 않고, 구글봇에게만 크롤링을 허용하게 할려면  아래와 같이 설정하면 됩니다.

User-agent: 구글봇
Allow: /

User-agent: 네이버봇
Disallow: / 

이렇게 robots.txt를 이용하여 검색로봇의 크롤링 가능 지역을 알려주어, 블로그 품질 및 검색 순위에 악영향을 줄 수 있는 상황을 줄일 수 있습니다.

#robots.txt #crawler #bot #검색엔진 #블로그 검색 로봇 #검색봇
REPLY