검색엔진 Robots.txt 로봇 검색 차단 해결방법
웹사이트를 운영하고 있는 모든 분들은 자신의 웹사이트가 검색 엔진에 잘 노출되길 희망합니다. 이를 위해서는 몇 가지 주요 작업이 필요한데, 그 중에는 사이트맵 생성 및 RSS 피드 생성이 포함됩니다. 이러한 작업들은 웹사이트의 구조와 콘텐츠를 검색 엔진에 알리는 역할을 합니다.
그러나 이러한 작업만으로는 충분하지 않을 수 있으며 그 이유는 Robots.txt 파일 때문입니다. Robots.txt 파일은 검색 엔진 로봇에게 웹사이트의 어느 부분을 크롤링할 수 있는지, 어느 부분을 크롤링할 수 없는지 지시하는 역할을 합니다. 이를 비유하자면, 사이트맵은 도시의 지도와 같고, 워드프레스 Robots.txt 위치는 그 도시로 들어올 수 있는 입구나 통행길을 제어하는 관문과 같다고 볼 수 있습니다.
따라서 훌륭한 지도(사이트맵)를 만들어도, 관문이 닫혀 있다면 검색 엔진 로봇은 그 도시(웹사이트)로 들어올 수 없습니다.
워드프레스 사용자들은 Robots.txt 파일의 위치와 이를 조정하여 네이버 웹마스터 도구나 구글 서치 콘솔에서 검색 차단 설정을 “검색 허용“으로 변경하는 방법을 알아봐야 합니다. 이를 통해 검색 엔진 로봇이 웹사이트를 쉽게 크롤링할 수 있도록 설정할 수 있습니다.
기본적으로 워드프레스 검색엔진에 등록해서 노출이 되길 원한다면 관리자페이지에서 검색엔진 가시성을 체크합니다.
일단의 예로 네이버웹마스터도구에 들어가 웹페이지 최적화 검증을 실행해봅니다.
구글검색엔진 등록 누락 시 참고
네이버 웹마스터도구 최적화
그리고 검증을 해보면 검색로봇에 문제가 발생했음을 볼 수 있으며 이러한 문제가 발생하는 원인으로는 웹사이트의 의도적인 차단으로 노출이 되지않도록 차단하거나 기본 설정이 오류가 발생한 경우로 웹사이트 구축 시 사용하는 템플릿이나 플러그인의 충돌 및 오류로 일부 차단된 경우입니다.
하지만 이러한 문제가 발생하는 대부분의 원인은 웹사이트 업데이트 및 수정 과정 중 워드프레스 Robots.txt 파일을 잘못 수정하여 네이버 검색로봇의 접근이 차단된 경우가 대부분입니다.
조회한 웹 페이지가 robots.txt 파일로 네이버 검색로봇의 접근을 차단하고 있습니다.
이렇게 로봇의 TXT 파일이 검색 봇이 들어오지 못하게 문을 잠궈서 다른 웹사이트에서 검색엔진에 노출되지 못하도록 색인을 막고 있습니다.
그렇다면 구글이나 다음, 네이버등 각 검색엔진에 색인이 등록될 수 있도록 문을 열어줘야 하는데 그러기 위해 해결방법은 총 4가지가 있습니다.
- robots.txt 파일 검토: 먼저 해당 웹사이트의
robots.txt
파일을 열어보세요. (예:https://example.com/robots.txt
)- 네이버 검색 로봇의 User-agent 이름을 확인하세요. 일반적으로 “Yeti”로 알려져 있습니다.
- 해당 파일에서 “Yeti” 또는 “User-agent: *”에 대한 “Disallow” 명령이 있는지 확인하세요.
- 차단 지시 수정: 만약 네이버 검색 로봇이 차단되어 있다면, 해당 “Disallow” 명령을 삭제하거나 수정하세요.
- 검색엔진에 알리기: 수정 후, 네이버 웹마스터 도구를 사용하여 웹사이트를 다시 제출하세요. 이렇게 하면 네이버 검색 로봇이 수정된
robots.txt
파일을 인식하고 웹사이트를 다시 크롤링 시작할 수 있습니다. - 변경 사항 모니터링: 몇 일~몇 주 후, 웹사이트가 네이버 검색 결과에 잘 나타나는지 확인하세요.
윈도우 사용자라면메모장을 하나 엽니다.
그리고 파일제목은 “robots.txt” 정합니다.
그리고 각각 원하는 설정갑으로 입력합니다.
네이버 검색로봇만 접근 가능하게 설정
User-agent: Yeti Allow: / |
모든 검색엔진의 로봇에 대하여 접근 가능하게 설정
User-agent: * Allow: / |
사이트의 루트 페이지만 접근 가능하게 설정
User-agent: * Disallow: / Allow: /$ |
각각 원하는 설정값으로 입력 후 저장을 해 FTP 프로그램을 이용해 업로드합니다.
여기서 사용되는 워드프레스 Robots.txt 주요 명령어에 대한 설명은 아래 참고하세요
지시어 | 설명 | 예시 |
---|---|---|
User-agent | 크롤러(로봇)를 지정합니다. | User-agent: Googlebot |
Disallow | 지정된 URL 패턴의 크롤링을 금지합니다. | Disallow: /private/ |
Allow | Disallow에 의해 차단된 영역 중 특정 URL 패턴의 크롤링을 허용합니다. (주로 Googlebot에서 사용) | Allow: /private/public.html |
Crawl-delay | 로봇이 페이지를 크롤링하는 빈도를 제한합니다. | Crawl-delay: 10 (10초 간격으로 크롤링) |
Sitemap | 사이트맵의 위치를 알립니다. | Sitemap: https://yourwebsite.com/sitemap.xml |
여기에 나온 지시어들은 robots.txt
의 기본적인 명령어들입니다. 아래는 이를 활용한 robots.txt
의 예시입니다:
User-agent: *
Disallow: /private/
Allow: /private/public.html
Crawl-delay: 10
Sitemap: https://yourwebsite.com/sitemap.xml
직접 Robots.txt 파일을 생성하는게 어렵고 부담된다면 직접 네이버 웹마스터 도구로 접속해서 Robots.txt 파일을 다운로드 받을 수 있습니다.
네이버웹마트서도구로 접속 후 로그인합니다.
모든 검색로봇이 수집할수 있게와 네이버 검색로봇만이 수집할수 있게 할것인지 선택 후 다운로드 한 다음 직접 수동으로 워드프레스에 업로드하면 됩니다.
워드프레스 Robots.txt 위치
워드프레스에서 robots.txt
위치는 웹사이트의 루트 디렉토리에 있습니다.
이는 웹사이트의 주요 파일들 (예: wp-config.php
, .htaccess
등)이 위치하는 곳과 동일합니다.
웹 브라우저를 통해 웹사이트의 robots.txt
파일에 접근하려면, 웹사이트의 기본 URL 뒤에 /robots.txt
를 추가하면 됩니다. 예를 들면 사진의 워드프레스 사이트 주소 바로 뒤 아래와 같은 위치에 Robots.txt 위치에 저장됩니다.
https://yourwebsite.com/robots.txt
워드프레스의 경우, 기본적으로 robots.txt
파일은 물리적으로 생성되지 않습니다.
대신 워드프레스는 가상의 robots.txt
파일을 동적으로 생성해주는 기능을 가지고 있습니다. 그러나, 웹사이트의 루트 디렉토리에 직접 robots.txt
파일을 만들게 되면, 워드프레스는 이 파일을 우선시하고 가상의 robots.txt
대신 이를 사용하게 됩니다.
만약 직접 워드프레스 robots.txt
파일을 수정하거나 추가하고 싶다면, FTP 클라이언트나 웹 호스팅 제어판의 파일 관리자 기능을 사용하여 웹사이트의 루트 디렉토리에 접근하면 됩니다.
그리고 저는 파일질라를 이용해 최상위 위치에 robots.txt 파일을 업로드 했습니다.
robots.txt 파일 위치는 루트위치 “Root“에 있으나 간혹 사이트맵과 SEO Plugin 등에서 로봇파일을 별도로 설정하는 경우가 있습니다.
만약 찾기가 힘든분들은 워드프레스 플러그인으로 추가할 수 있습니다.
참고 : 네이버 웹마스터도구 색인 안될때 해결방법
워드프레스 Robots.txt 수정 플러그인
플러그인 Robots.tx Editor 설치해서 설정으로 들어갑니다.
그리고 원하는 코드를 추가하고 저장하면 robots.txt 수정이 완료됩니다.
이렇게 업로드 후 로봇툴 검증을 통해 수집요청을 해본 결과 Allow 로 변경된것을 볼 수 있습니다. 이후 하단의 수집가능여부를 확인해봅니다.
정상적으로 수집이 가능한 상태라고 표시되느것을 볼 수 있습니다.
시간이 지남에 따라 검색엔진에서 차단되어 등록되지 않는 워드프레스 웹사이트가 정상적으로 색인되는 과정을 관찰할 수 있습니다. 그러나 때로는 이 과정이 너무 오래 걸린다고 느낄 수 있습니다. 이럴 때, 수동으로 조치를 취하여 검색 엔진 색인을 개선하는 것이 좋습니다.
우선, 웹사이트의 검색 엔진 색인을 더 빨리 업데이트하고 싶다면, 검색 엔진 도구 또는 서비스에서 수동으로 색인을 추가하고 색인 시간을 빠르게 설정할 수 있습니다. 이를 통해 웹사이트 변경 사항이 빠르게 반영되어 사용자에게 제공됩니다.
또한, 2024년 현재까지의 최신 정보를 반영하여 웹사이트 운영과 검색 엔진 최적화를 계속 진행하시길 권장합니다. 검색 엔진에서 잘 노출되는 웹사이트는 더 많은 관객과 사용자에게 도달할 수 있으며, 이를 통해 웹사이트의 가치를 확대할 수 있습니다. 최신 트렌드와 검색 엔진 알고리즘 변경 사항을 주시하고, 웹사이트 내용과 구조를 최적화하여 사용자들에게 더 나은 경험을 제공하실 수 있습니다.