본문 바로가기

IT

로봇 배제 표준 robots.txt

2013.01.27 12:28 작성

 

robots.txt는 '로봇 배제 표준'이라고 하며, 검색 로봇 등의 접근을 제어하는 기능을 하는 규약이다. 쉽게 말해 웹서버에 있는 정보를 긁어갈 수 있는 범위를 제어하는 파일이다.

이 규약은 권고안이며 로봇에 대한 것이기 때문에, 다른 사람들이 파일에 직접 접근할 수는 있다.

 

robots.txt
다운로드

 

접근 제한에 대한 설명을 적은 위와 같은 이름의 텍스트 문서를 루트에 설치하면 기능한다.

 

User-agent: *

Disallow: /

 

User-agent            %% 적용 대상 설정

ex) User-agent: *        %%모든 로봇에 적용

 

Disallow: /            %% 인덱싱 금지

Allow: /                %% 인덱싱 허용

 

 

HTML의 meta 태그를 이용할 수도 있지만,

일반적인 방법이 아니며, 아직 일부 로봇에만 적용된다고 한다.

 

<meta name="Robots" content="Noindex,Nofollow" />

 

 

robots.txt에 관한 자세한 정보는 http://www.robotstxt.org/ 에서 얻을 수 있다.