robots.txt 파일을 사용하여 블로그, 사이트에 대한 액세스 제어하기

2009. 2. 27. 16:00 BLOG Story ·

robots.txt 파일을 사용하여 블로그, 사이트에 대한 액세스 제어하기

robots.txt 파일을 만드는 가장 간편한 방법은 웹마스터 도구에서 robots.txt 생성 도구를 사용하는 것입니다. 파일을 만든 후 robots.txt 분석 도구를 사용하여 파일이 올바르게 작성되었는지 확인할 수 있습니다.

robots.txt 파일을 생성한 후 도메인의 루트 디렉토리에 robots.txt 라는 이름으로 저장합니다. 로봇은 이 파일을 루트 디렉토리에서 찾기 때문에 파일을 다른 곳에 저장하면 로봇이 찾을 수 없습니다.

robots.txt 파일은 수동으로 작성하거나 텍스트 편집기를 사용하여 만들 수 있습니다. HTML 파일이 아닌 영숫자로 인코딩된 텍스트 파일이어야 하며, 파일 이름에는 소문자를 사용해야 합니다.

구문
가장 간단한 형식의 robots.txt 파일은 다음 두 가지 규칙을 사용합니다.
User-agent: 아래에 나오는 규칙이 적용되는 로봇
Disallow: 차단할 URL

이 두 행은 파일 내에서 단일 항목으로 간주됩니다. 원하는 만큼 항목을 추가할 수 있으며 하나의 항목에 여러 Disallow 행 및 여러 User-agent를 포함할 수도 있습니다.

User-agent 행에는 무엇을 포함해야 하나요?

User-agent는 특정 검색 엔진 로봇입니다. 웹 로봇 데이터베이스에는 다양한 일반적인 봇이 나와 있습니다. 이름을 표시하여 특정 검색 로봇에 대한 항목을 설정할 수도 있고, 별표(*)를 사용하여 모든 검색 로봇에 대한 항목을 설정할 수도 있습니다. 모든 검색 로봇이 해당되는 항목의 경우 다음과 같이 지정합니다.

User-agent: *
Google은 다양한 검색 로봇(user-agent)을 사용합니다. Google 웹 검색에 사용하는 로봇은 Google 검색 로봇입니다. Google 검색 로봇-Mobile 및 Google 검색 로봇-Image 같은 봇은 Google 검색 로봇에 설정된 규칙을 따르지만 해당 봇에만 적용되는 특정 규칙을 설정할 수도 있습니다.

Disallow 행에는 무엇을 포함해야 하나요?

Disallow 행에는 차단할 페이지를 표시합니다. 특정 URL이나 패턴을 포함할 수 있으며, 각 항목은 슬래시(/)로 시작해야 합니다.

사이트 전체를 차단하려면 슬래시를 사용합니다.
Disallow: /

디렉토리 및 디렉토리에 포함된 모든 항목을 차단하려면 디렉토리 이름 다음에 슬래시를 사용합니다.
Disallow: /junk-directory/

특정 페이지를 차단하려면 해당 페이지를 표시합니다.
Disallow: /private_file.html

Google 이미지 검색에서 특정 이미지를 삭제하려면 다음과 같이 설정합니다.
User-agent: Google 검색 로봇-Image

Disallow: /images/dogs.jpg
Google 이미지 검색에서 사이트 내 모든 이미지를 삭제하려면 다음과 같이 설정합니다.

User-agent: Google 검색 로봇-Image
Disallow: / 특정 파일 형식(예: .gif)을 차단하려면 다음과 같이 설정합니다.

User-agent: Google 검색 로봇
Disallow: /*.gif$

사이트 페이지에 애드센스 광고를 게재하면서도 크롤링되지 않도록 하려면 Mediapartners-Google을 제외한 모든 로봇을 차단합니다. 이렇게 하면 해당 페이지가 검색 결과에는 표시되지 않지만 Mediapartners-Google 검색 로봇이 페이지를 분석하여 광고를 게재하도록 합니다. Mediapartners-Google 로봇은 다른 Google user-agent와 페이지를 공유하지 않습니다. 예를 들면 다음과 같이 설정합니다.
User-agent: *
Disallow: /folder1/

패턴 일치

별표(*)를 사용하여 일치하는 문자열을 찾을 수 있습니다. 예를 들어 private으로 시작하는 모든 하위 디렉토리에 대한 액세스를 차단하려면 다음과 같이 설정합니다.

User-agent: Google 검색 로봇
Disallow: /private*/

물음표(?)를 포함하는 모든 URL에 대한 액세스를 차단할 수 있습니다. 즉, 도메인 이름으로 시작되는 임의의 문자열 다음에 물음표가 있는 모든 URL을 크롤링하지 않도록 차단하려면 다음과 같이 설정합니다.
User-agent: Google 검색 로봇
Disallow: /*?

URL의 마지막 부분이 일치하도록 지정하려면 $ 문자를 사용합니다. 예를 들어 .xls로 끝나는 모든 URL를 차단하려면 다음과 같이 설정합니다.
User-agent: Google 검색 로봇
Disallow: /*.xls$

이 패턴 일치를 Allow 명령어와 함께 사용할 수 있습니다. 예를 들어 ?가 세션 ID를 나타내는 경우, 이를 포함하는 모든 URL을 제외시켜 Google 검색 로봇이 중복된 페이지를 크롤링하지 않도록 해야 합니다. 그러나 ?로 끝나는 URL은 크롤링하려는 페이지의 버전이 될 수 있습니다. 이런 경우 robots.txt 파일을 다음과 같이 설정합니다.

User-agent: *
Allow: /*?$
Disallow: /*?

Disallow: / *? 명령어는 ?가 포함된 모든 URL을 차단합니다. 즉, 도메인 이름으로 시작되고 임의의 문자열, 물음표, 임의의 문자열로 구성된 모든 URL을 차단합니다.

Allow: /*?$ 명령어는 ?로 끝나는 모든 URL을 허용합니다. 즉, 도메인 이름으로 시작되고 임의의 문자열과 ?로 구성되며 ? 뒤에 문자가 없는 모든 URL을 허용합니다.

참고 : 구글 웹마스터 도움말