Файл robots.txt — это простой текстовый документ в корне вашего сайта, который управляет доступом поисковых роботов к контенту. Он не гарантирует полную защиту данных, но правильно настроенный robots.txt экономит краулинговый бюджет, скрывает служебные разделы от индексации и улучшает SEO. Создать его можно в любом текстовом редакторе, главное — соблюдать синтаксис и избегать распространённых ошибок.
Что такое robots.txt и зачем он нужен
Robots.txt — это набор инструкций для поисковых роботов. Он говорит, какие части сайта можно сканировать, а какие — нет. Файл не скрывает данные полностью — если страница заблокирована в robots.txt, но на неё есть прямая ссылка, поисковик может проигнорировать запрет. Для полной защиты используйте пароли или метатеги.
Основные задачи robots.txt:
- управление краулинговым бюджетом — роботы не тратят время на служебные страницы;
- защита конфиденциальных данных — временно скрывайте разделы в разработке;
- предотвращение дублей — блокировка параметров сортировки и фильтров;
- указание карты сайта — ускорение обнаружения нового контента.
Как создать файл robots.txt
Создайте текстовый файл с именем robots.txt. Используйте Блокнот, Notepad++ или аналоги — избегайте Word, он добавляет лишнее форматирование. Сохраните файл в кодировке UTF-8 без BOM. Разместите его в корне сайта — по пути your-site.com/robots.txt.
Пример минимальной структуры:
User-agent: * Disallow: /private/ Allow: /public/ Sitemap: https://site.com/sitemap.xml
После создания загрузите файл на сервер через FTP или панель хостинга. Убедитесь, что файл доступен по прямому URL и возвращает код ответа 200.
Синтаксис и основные директивы
Директивы чувствительны к регистру. Пишите их с большой буквы, через двоеточие и пробел. Комментарии начинаются с решётки #.
| Директива | Назначение | Пример |
|---|---|---|
| Определяет робота, для которого правила | ||
| Запрещает доступ к пути | ||
| Разрешает доступ, несмотря на запрет | Allow: /admin/public.txt | |
| Указывает путь к карте сайта | Sitemap: https://site.com/sitemap.xml | |
| Задержка между запросами (устарело) |
Порядок директив важен. Правила обрабатываются сверху вниз. Сначала укажите User-agent, затем Disallow/Allow, в конце — Sitemap.
Практические примеры robots.txt
Разберём типовые случаи использования.
Разрешить всё
User-agent: * Disallow: Sitemap: https://site.com/sitemap.xml
Пустой Disallow означает полный доступ. Подходит для большинства сайтов.
Заблокировать всё
User-agent: * Disallow: /
Слэш запрещает доступ ко всему сайту. Используйте для временного закрытия или тестовых сред.
Блокировка конкретных папок и файлов
User-agent: * Disallow: /admin/ Disallow: /tmp/ Disallow: /search.php Allow: /admin/public.html Sitemap: https://site.com/sitemap.xml
Здесь блокируются папки admin и tmp, файл search.php, но разрешён доступ к /admin/public.html.
Разные правила для разных роботов
User-agent: Googlebot Disallow: /private/ User-agent: Yandex Disallow: /images/ User-agent: * Disallow: /temp/ Sitemap: https://site.com/sitemap.xml
Googlebot не сканирует /private/, Яндекс — /images/, все остальные роботы — /temp/.
Частые ошибки и как их избежать
Ошибки в robots.txt приводят к проблемам с индексацией. Самые распространённые:
- Неправильный путь к файлу — robots.txt должен быть в корне, например site.com/robots.txt, а не site.com/folder/robots.txt.
- Использование неверного регистра — пишите User-agent, а не user-agent или USER-AGENT.
- Блокировка CSS и JavaScript — это ухудшает индексирование. Не запрещайте /css/, /js/, /assets/.
- Забытая директива Allow — если блокируете папку, но хотите разрешить один файл, явно укажите Allow.
- Использование Crawl-delay — современные роботы игнорируют эту директиву. Для управления скоростью обхода используйте панели вебмастеров.
Проверяйте файл через инструменты Google Search Console и Яндекс.Вебмастер перед применением.
Как проверить robots.txt
Инструменты вебмастеров — лучший способ проверки.
- : перейдите в «Проверка файла robots.txt» — сервис покажет синтаксические ошибки и имитирует доступ роботов.
- Яндекс.Вебмастер: раздел «Анализ robots.txt» диагностирует проблемы и даёт рекомендации.
- Сторонние валидаторы: онлайн-сервисы like SENrobot или SmallSEOTools, но доверяйте им меньше официальных инструментов.
После изменений подождите несколько дней — роботы кэшируют robots.txt и обновляют его не сразу.
Чек-лист: создание robots.txt без ошибок
- Файл называется robots.txt, а не robot.txt или Robots.txt.
- Лежит в корне сайта (ваш-сайт.ру/robots.txt).
- Кодировка UTF-8 без BOM.
- Директивы с большой буквы, через двоеточие и пробел.
- Нет лишних символов, пробелов в начале строк.
- Не блокируются CSS, JS, важные изображения.
- Указана актуальная Sitemap.
- Файл проверен через Search Console/Вебмастер.
Ограничения robots.txt
Robots.txt — не панацея. Он не скрывает данные от прямых ссылок и не защищает контент от кражи. Для полного запрета индексации используйте метатег noindex или пароли. Файл не управляет сканированием с других доменов — если ваш контент украли, robots.txt на воре не поможет.
Поисковые системы могут игнорировать отдельные директивы, особенно устаревшие вроде Crawl-delay. Всегда проверяйте актуальность правил в документации Google и Яндекса.
Частые вопросы
Что такое файл robots.txt и зачем он нужен?
Robots.txt — это текстовый файл, который указывает поисковым системам, какие разделы сайта можно сканировать, а какие нужно игнорировать. Он помогает управлять индексацией, экономит краулинговый бюджет и защищает конфиденциальные данные от попадания в поиск.
Как создать файл robots.txt?
Создайте текстовый файл с именем robots.txt в корневой директории вашего сайта. Используйте стандартный текстовый редактор (например, Блокнот), пропишите необходимые директивы и сохраните файл в кодировке UTF-8 без BOM.
Какие основные директивы используются в robots.txt?
Основные директивы: User-agent (указание поискового робота), Disallow (запрет доступа), Allow (разрешение доступа), Sitemap (указание карты сайта). Директивы чувствительны к регистру и должны оформляться правильно.
Как проверить правильность работы robots.txt?
Используйте инструменты для вебмастеров: Google Search Console (отчёт «Проверка файла robots.txt») и Яндекс.Вебмастер («Анализ robots.txt»). Они покажут ошибки синтаксиса и проблемы с доступом для роботов.
Что нельзя блокировать через robots.txt?
Не блокируйте через robots.txt главные страницы, CSS, JS и важные медиафайлы — это ухудшит индексацию. Для полной защиты конфиденциального контента используйте пароли или метатег noindex.