site logo
Published on

robots.txt 확인 및 설정 방법, disallow 차단 방법

Authors
  • avatar
    Name
    디지털 매뉴얼
    Twitter

robots.txt 란?

흔히 '게이트웨이'라고 불리는 사이트들이 있죠. 사람들이 어떤 사이트나 정보에 접근하고자 할 때 꼭 거쳐가는 곳이라는 뜻에서 이런 이름이 붙었습니다. 세계에서 가장 유명한 게이트웨이 사이트는 바로 구글입니다. 그런데 구글에 검색해서 나오는 사이트들을 구글은 어떻게 미리 알고 있다가 우리에게 보여주는 걸까요?

이렇게 사이트들의 목록을 작성해주는 로봇이 있습니다. 이 로봇은 웹을 떠돌아다니면서 여기저기서 사이트 주소와 사이트 내용을 긁어모읍니다. 이런 행동을 크롤링(Crawling)이라고 합니다. 이렇게 크롤링된 데이터를 바탕으로 구글, 네이버와 같은 사이트에서는 색인(Index)를 생성하고, 사용자가 검색창을 통해 무언가를 입력하면 거기에 해당되는 정보를 이 색인에서 찾아서 보여주는 것이 검색의 원리입니다.

그럼 내가 가지고 있는 웹사이트를 로봇이 알 수 없게 하는 방법은 없을까요? 사이트에서 로봇이 가져가도 되는 정보와 아닌 정보를 설명해놓은 것이 바로 robots.txt입니다. 오늘은 이 파일을 설정하는 방법을 알아보겠습니다.

robots.txt 확인 방법

howto_setup_robot.txt_01

이 화면은 디지털 매뉴얼의 robots.txt 예시입니다.

https://(내 홈페이지 주소)/robots.txt

로봇이 내 사이트의 robots.txt 위치를 어떻게 알까요? 그래서 모든 사이트는 루트 위치에 해당 파일이 있어야 합니다. 지금 해당 파일이 내 홈페이지에 있는지 확인하려면 위 주소로 접속하시면 됩니다.

robots.txt 기본 설정

robots.txt가 존재하는 이유는 검색로봇이 내 사이트에 접근할 수 있는 접근 권한을 설정해 주기 위함입니다. 만일 robots.txt 파일이 루트에 없으면 모든 페이지를 크롤링합니다. 로봇 검색 허용값에 대해 설정할 수 있는 항목은 다음과 같은 것들이 있습니다.

  • User-agent
  • Allow
  • Disallow
  • sitemap
  • 쿼리 항목

User-agent

User-agent 구문은 검색엔진 로봇의 이름을 값으로 가집니다. 만일 *라고 입력하면 모든 검색로봇에 대한 접근을 허용한다는 뜻입니다. 만일 특정 검색로봇에 대해 설정하려면 색인 범위를 지정하고 싶다면 다음과 같이 설정할 수 있습니다.

User-agent: Yeti
User-agent: Bigbot
Disallow : /

User-agent: Googlebot
Allow: /

네이버 검색로봇 Yeti와 빙의 검색로봇 Bingbot에게는 사이트 크롤링을 차단하고, 구글 검색로봇 Googlebot은 허용해 주었습니다.

Allow

Allow 는 접근을 허용할 페이지를 설정하는데 / 는 최상위 페이지를 나타냅니다. 다시 말해 모든 페이지에 대해 크롤링을 허용하는 것입니다. 만일 Allow 라고 명시하지 않는 경우에도 검색로봇은 허용(Allow)으로 간주합니다.

Disallow

Disallow 는 크롤링을 허용하지 않을 페이지를 선언합니다. 예를 들어 /tag/pc/ 경로를 차단하고 싶다면 Disallow : /tag/pc/와 같이 작성하세요.

sitemap

검색로봇에게 사이트맵 주소를 알려줍니다. 일반적인 사이트맵 주소는 https://(내 홈페이지 주소)/sitemap.xml입니다. 해당 경로를 설정해주세요.

쿼리 항목

쿼리 항목은 Disallow선언과 함께 사용되며, 특정 파일을 크롤링하지 못하게 할 때 사용합니다. 만일 .jpg파일을 수집하지 못하게 하려면 Disallow /*.jpg$라고 작성하면 됩니다.

위 항목을 종합해 작성해본 예시는 다음과 같습니다.

예시

User-agent: Yeti
User-agent: Bigbot
Disallow : /

User-agent: Googlebot
Allow: /

Disallow: /tag/pc/
Disallow: /*.jpg$
sitemap: https://domain.com/sitemap.xml

검색로봇 설정 관련해서 더 궁금하신 사항이 있으시면 댓글로 남겨주세요!