Файл robots.txt — это простой текстовый документ в корне вашего сайта, который управляет доступом поисковых роботов к контенту. Он не гарантирует полную защиту данных, но правильно настроенный robots.txt экономит краулинговый бюджет, скрывает служебные разделы от индексации и улучшает SEO. Создать его можно в любом текстовом редакторе, главное — соблюдать синтаксис и избегать распространённых ошибок.

Что такое robots.txt и зачем он нужен

Robots.txt — это набор инструкций для поисковых роботов. Он говорит, какие части сайта можно сканировать, а какие — нет. Файл не скрывает данные полностью — если страница заблокирована в robots.txt, но на неё есть прямая ссылка, поисковик может проигнорировать запрет. Для полной защиты используйте пароли или метатеги.

Основные задачи robots.txt:

  • управление краулинговым бюджетом — роботы не тратят время на служебные страницы;
  • защита конфиденциальных данных — временно скрывайте разделы в разработке;
  • предотвращение дублей — блокировка параметров сортировки и фильтров;
  • указание карты сайта — ускорение обнаружения нового контента.

Как создать файл robots.txt

Создайте текстовый файл с именем robots.txt. Используйте Блокнот, Notepad++ или аналоги — избегайте Word, он добавляет лишнее форматирование. Сохраните файл в кодировке UTF-8 без BOM. Разместите его в корне сайта — по пути your-site.com/robots.txt.

Пример минимальной структуры:

User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://site.com/sitemap.xml

После создания загрузите файл на сервер через FTP или панель хостинга. Убедитесь, что файл доступен по прямому URL и возвращает код ответа 200.

Синтаксис и основные директивы

Директивы чувствительны к регистру. Пишите их с большой буквы, через двоеточие и пробел. Комментарии начинаются с решётки #.

Директива Назначение Пример
Определяет робота, для которого правила
Запрещает доступ к пути
Разрешает доступ, несмотря на запрет Allow: /admin/public.txt
Указывает путь к карте сайта Sitemap: https://site.com/sitemap.xml
Задержка между запросами (устарело)

Порядок директив важен. Правила обрабатываются сверху вниз. Сначала укажите User-agent, затем Disallow/Allow, в конце — Sitemap.

Практические примеры robots.txt

Разберём типовые случаи использования.

Разрешить всё

User-agent: *
Disallow:
Sitemap: https://site.com/sitemap.xml

Пустой Disallow означает полный доступ. Подходит для большинства сайтов.

Заблокировать всё

User-agent: *
Disallow: /

Слэш запрещает доступ ко всему сайту. Используйте для временного закрытия или тестовых сред.

Блокировка конкретных папок и файлов

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search.php
Allow: /admin/public.html
Sitemap: https://site.com/sitemap.xml

Здесь блокируются папки admin и tmp, файл search.php, но разрешён доступ к /admin/public.html.

Разные правила для разных роботов

User-agent: Googlebot
Disallow: /private/ User-agent: Yandex
Disallow: /images/ User-agent: *
Disallow: /temp/
Sitemap: https://site.com/sitemap.xml

Googlebot не сканирует /private/, Яндекс — /images/, все остальные роботы — /temp/.

Частые ошибки и как их избежать

Ошибки в robots.txt приводят к проблемам с индексацией. Самые распространённые:

  • Неправильный путь к файлу — robots.txt должен быть в корне, например site.com/robots.txt, а не site.com/folder/robots.txt.
  • Использование неверного регистра — пишите User-agent, а не user-agent или USER-AGENT.
  • Блокировка CSS и JavaScript — это ухудшает индексирование. Не запрещайте /css/, /js/, /assets/.
  • Забытая директива Allow — если блокируете папку, но хотите разрешить один файл, явно укажите Allow.
  • Использование Crawl-delay — современные роботы игнорируют эту директиву. Для управления скоростью обхода используйте панели вебмастеров.

Проверяйте файл через инструменты Google Search Console и Яндекс.Вебмастер перед применением.

Как проверить robots.txt

Инструменты вебмастеров — лучший способ проверки.

  • : перейдите в «Проверка файла robots.txt» — сервис покажет синтаксические ошибки и имитирует доступ роботов.
  • Яндекс.Вебмастер: раздел «Анализ robots.txt» диагностирует проблемы и даёт рекомендации.
  • Сторонние валидаторы: онлайн-сервисы like SENrobot или SmallSEOTools, но доверяйте им меньше официальных инструментов.

После изменений подождите несколько дней — роботы кэшируют robots.txt и обновляют его не сразу.

Чек-лист: создание robots.txt без ошибок

  • Файл называется robots.txt, а не robot.txt или Robots.txt.
  • Лежит в корне сайта (ваш-сайт.ру/robots.txt).
  • Кодировка UTF-8 без BOM.
  • Директивы с большой буквы, через двоеточие и пробел.
  • Нет лишних символов, пробелов в начале строк.
  • Не блокируются CSS, JS, важные изображения.
  • Указана актуальная Sitemap.
  • Файл проверен через Search Console/Вебмастер.

Ограничения robots.txt

Robots.txt — не панацея. Он не скрывает данные от прямых ссылок и не защищает контент от кражи. Для полного запрета индексации используйте метатег noindex или пароли. Файл не управляет сканированием с других доменов — если ваш контент украли, robots.txt на воре не поможет.

Поисковые системы могут игнорировать отдельные директивы, особенно устаревшие вроде Crawl-delay. Всегда проверяйте актуальность правил в документации Google и Яндекса.

Частые вопросы

Что такое файл robots.txt и зачем он нужен?

Robots.txt — это текстовый файл, который указывает поисковым системам, какие разделы сайта можно сканировать, а какие нужно игнорировать. Он помогает управлять индексацией, экономит краулинговый бюджет и защищает конфиденциальные данные от попадания в поиск.

Как создать файл robots.txt?

Создайте текстовый файл с именем robots.txt в корневой директории вашего сайта. Используйте стандартный текстовый редактор (например, Блокнот), пропишите необходимые директивы и сохраните файл в кодировке UTF-8 без BOM.

Какие основные директивы используются в robots.txt?

Основные директивы: User-agent (указание поискового робота), Disallow (запрет доступа), Allow (разрешение доступа), Sitemap (указание карты сайта). Директивы чувствительны к регистру и должны оформляться правильно.

Как проверить правильность работы robots.txt?

Используйте инструменты для вебмастеров: Google Search Console (отчёт «Проверка файла robots.txt») и Яндекс.Вебмастер («Анализ robots.txt»). Они покажут ошибки синтаксиса и проблемы с доступом для роботов.

Что нельзя блокировать через robots.txt?

Не блокируйте через robots.txt главные страницы, CSS, JS и важные медиафайлы — это ухудшит индексацию. Для полной защиты конфиденциального контента используйте пароли или метатег noindex.