Іванина Роман
Копірайтер

Що таке robots.txt і чому він необхідний для вашого просування

Якщо ви хоч трохи цікавилися питанням внутрішньої оптимізації сайтів, то, напевно, зустрічали термін robots txt. Саме йому і присвячена наша сьогоднішня тема.

Зараз ви дізнаєтеся, що таке robots txt, як він створюється, яким чином веб-майстер задає в ньому потрібні правила, як обробляється файл robots.txt пошуковими роботами і чому відсутність цього файлу в корені веб-ресурсу – одна з найсерйозніших помилок внутрішньої оптимізації сайту. Буде цікаво!

Що таке robots txt

Що таке robots.txt

Технічно robots txt – це звичайний текстовий документ, який лежить в корені сайту і інформує пошукових роботів про те, які сторінки та файли вони повинні сканувати та індексувати, а для яких накладено заборону. Але це найпримітивніший опис. Насправді з robots txt все трохи складніше.

Файл robots txt це як «адміністратор готелю». Ви приходите в неї, адміністратор видає вам ключі від номера, а також каже, де ресторан, SPA, зона відпочинку, кабінет управителя та інше. А ось в інші номери та приміщення для персоналу вхід вам замовлено. Точно так само і з robots txt. Тільки замість адміністратора – файл, замість клієнта – пошукові роботи, а замість приміщень – окремі веб-сторінки та файли. Порівняння грубе, але доступне і зрозуміле.

Для чого потрібний файл robots.txt

Без цього файлу пошуковики хаотично блукають сайтом, скануватимуть та індексуватимуть буквально все поспіль: дублі, службові документи, сторінки з текстами «заглушками» (Lorem Ipsum) тощо.

Правильний robots txt не дає такому відбуватися і буквально веде роботів сайтом, підказуючи, що дозволено індексувати, а що необхідно пропустити.

Існують спеціальні директиви robots txt для цих завдань:

  • Allow – Допускає індексацію.
  • Disallow – забороняє індексацію.

Для чого потрібний файл robots txt

Крім того, можна одразу прописати, яким конкретно роботам дозволено чи заборонено індексувати задані сторінки. Наприклад, щоб заборонити індексацію директорії /private/ пошуковим роботам «Гугл», в роботі необхідно прописати User-agent:

User-agent: Google

Disallow: /private/

Також ви можете вказати основне дзеркало веб-сайту, встановити шлях до Sitemap, позначити додаткові правила обходу через директиви та інше. Можливості robots txt досить великі.

І ось ми розібралися, навіщо потрібний robots txt. Далі складніше – створення файлу, його наповнення та розміщення на сайті.

Як створити файл robots.txt для веб-сайту?

Отже, як створити файл robots txt?

Створити та змінювати файл найпростіше у програмі «Блокнот» або іншому текстовому редакторі, що підтримує формат .txt. Спеціальне програмне забезпечення для роботи з robots txt не знадобиться.

Як створити файл robots txt для сайту

Створіть звичайний текстовий документ із розширенням .txt і помістіть його в корінь веб-ресурсу. Для розміщення підійде будь-який FTP-клієнт. Після розміщення обов’язково варто перевірити robots txt – чи знаходиться файл за потрібною адресою. Для цього у пошуковому рядку браузера потрібно прописати адресу:

ім’я_сайту/robots.txt

Якщо все зроблено правильно, ви побачите у вкладці дані robots txt. Але без команд і правил він, звісно, не працюватиме. Тому переходимо до більш складного наповнення.

Символи у robots.txt

Крім згаданих вище функцій Allow/Disallow, robots txt прописуються спецсимволи:

  • “/” – вказує, що ми закриваємо файл або сторінку від виявлення роботами “Гугл” і т. д.;
  • “*” – прописується після кожного правила і позначає послідовність символів;

Символи в robots txt

  • “$” – обмежує дію “*”;

Приклад спеціальних символів у robots txt

  • “#” – дозволяє закоментувати будь-який текст, який веб-майстер залишає собі або іншим фахівцям (своєї нотатки, нагадування, інструкція). Пошуковики не зчитують закоментований текст.

Синтаксис у robots.txt

Описані у файлі robots.txt правила – це його синтаксис та різного роду директиви. Їх досить багато, ми розглянемо найбільш значущі — ті, які ви, швидше за все, використатимете.

User-agent

Це директива, яка вказує, для яких пошукових роботів будуть діяти такі правила. Прописується так:

User-agent: * ім’я пошукового робота

Приклади роботи: Googlebot та інші.

Allow

Це роздільна здатність директиви для robots txt. Допустимо, ви прописуєте такі правила:

User-agent: * ім’я пошукового робота

Allow: /site

Disallow: /

Так у robots txt ви забороняєте роботу аналізувати та індексувати весь веб-ресурс, але заборона не стосується папки site.

Disallow

Це протилежна директива, яка закриває від індексації лише прописані сторінки чи файли. Щоб заборонити індексувати певну папку, потрібно прописати:

Disallow: /folder/

Також можна заборонити сканувати та індексувати всі файли вибраного розширення. Наприклад:

Disallow: /*.css$

Sitemap

Ця директива robots txt направляє пошукових роботів до опису структури вашого ресурсу. Це важливо для SEO. Ось приклад:

User-agent: *

Disallow: /site/

Allow: /

Sitemap: http://site.com/sitemap1.xml

Sitemap: http://site.com/sitemap2.xml

Crawl-delay

Директива обмежує частоту аналізу сайту і знижує навантаження на сервер. Тут прописується час у сік. (третій рядок):

User-agent: *

Disallow: /site

Crawl-delay: 4

Clean-param

Забороняє індексацію сторінок, сформованих із динамічними параметрами. Суть у тому, що пошукові системи сприймають їх як дублі, а це погано для SEO. Про те, як знайти дублі сторінок на сайті , ми вже розповідали. Вам потрібно прописувати директиву:

Clean-param: p1[&p2&p3&p4&..&pn] [Шлях до динамічних сторінок]

Приклади Clean-param у robots txt:

Clean-param: kol_from1&price_to2&pcolor /polo.html # тільки для polo.html

або

Clean-param: kol_from1&price_to2&pcolor / # для всіх сторінок сайту

До речі, радимо прочитати нашу статтю ” Як просто перевірити індексацію сайту ” – в ній багато корисного на цю тему. Плюс є інформативна стаття ” Сканування сайту в Screaming Frog “. Рекомендуємо ознайомитись!

Особливості налаштування robots.txt для «Гугла»

Насправді синтаксис файла robots.txt цих систем відрізняється незначно. Але є кілька моментів, які ми радимо враховувати.

Google не рекомендує приховувати файли із CSS-стилями та JS-скриптами від сканування. Тобто правило має виглядати так:

User-agent: Googlebot

Disallow: /site

Disallow: /admin

Disallow: /users

Disallow: */templates

Allow: *.css

Allow: *.js

Host: www.site.com

Приклади налаштування файлу robots.txt

Кожна CMS має свою специфіку налаштування robots txt для сканування та індексації. І найкращий спосіб зрозуміти різницю – розглянути кожен приклад robots txt для різних систем. Так і вчинимо!

Приклади налаштування файлу robots txt

Приклад robots txt для WordPress

Роботс для WordPress у класичному варіанті виглядає так:

User-agent: Googlebot

Disallow: /cgi-bin # службова папка для зберігання серверних скриптів

Disallow: /? # всі параметри запиту на головній

Disallow: /wp- # файли WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s= # результати пошуку

Disallow: /search # результати пошуку

Disallow: */page/ # сторінки пагінації

Disallow: /*print= # сторінки для друку

Allow: *.css # відкрити всі файли стилів

Allow: *.js # відкрити все з js-скриптами

 

User-agent: *

Disallow: /cgi-bin # службова папка для зберігання серверних скриптів

Disallow: /? # всі параметри запиту на головній

Disallow: /wp- # файли WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s= # результати пошуку

Disallow: /search # результати пошуку

Disallow: */page/ # сторінки пагінації

Disallow: /*print= # сторінки для друку

 

Sitemap:http://site.ua/sitemap.xml

Sitemap: http://site.ua/sitemap1.xml

Приклад robots.txt для “Бітрікс”

Одна з головних проблем «Бітрікс» — по дефолту пошукові системи зчитують та проводять індексацію службових сторінок та дублів. Але це можна запобігти, правильно прописавши robots txt:

User-Agent: Googlebot

Disallow: /personal/

Disallow: /search/

Disallow: /auth/

Disallow: /bitrix/

Disallow: /login/

Disallow: /*?action=

Disallow: /?mySort=

Disallow: */filter/

Disallow: */clear/

Allow: /bitrix/js/

Allow: /bitrix/templates/

Allow: /bitrix/tools/conversion/ajax_counter.php

Allow: /bitrix/components/main/

Allow: /bitrix/css/

Allow: /bitrix/templates/comfer/img/logo.png

Allow: /personal/cart/

Sitemap: https://site.ua/sitemap.xml

Приклад robots.txt для OpenCart

Розглянемо приклад robots txt для платформи електронної комерції OpenCart:

User-agent: Googlebot

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

Allow: *.css

Allow: *.js

 

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

 

Sitemap: http://site.ua/sitemap.xml

Приклад robots.txt для Joomla

У «Джумлі» роботс виглядає так:

User-agent: Googlebot

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*?start=*

Disallow: /xmlrpc/

Allow: *.css

Allow: *.js

 

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*?start=*

Disallow: /xmlrpc/

 

Sitemap: http://www.site.ua/sitemap.xml

Приклад robots.txt для Drupal

Для Drupal:

User-agent: *

Disallow: /database/

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /sites/

Disallow: /themes/

Disallow: /scripts/

Disallow: /updates/

Disallow: /profiles/

Disallow: /profile

Disallow: /profile/*

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /contact/

Disallow: /logout/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: *register*

Disallow: *login*

Disallow: /top-rated-

Disallow: /messages/

Disallow: /book/export/

Disallow: /user2userpoints/

Disallow: /myuserpoints/

Disallow: /tagadelic/

Disallow: /referral/

Disallow: /aggregator/

Disallow: /files/pin/

Disallow: /your-votes

Disallow: /comments/recent

Disallow: /*/edit/

Disallow: /*/delete/

Disallow: /*/export/html/

Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$

Disallow: /*/outline$

Disallow: /*/revisions$

Disallow: /*/contact$

Disallow: /*downloadpipe

Disallow: /node$

Disallow: /node/*/track$

Disallow: /*&

Disallow: /*%

Disallow: /*?page=0

Disallow: /*section

Disallow: /*order

Disallow: /*?sort*

Disallow: /*&sort*

Disallow: /*votesupdown

Disallow: /*calendar

Disallow: /*index.php

Allow: /*?page=

Disallow: /*?

 

Sitemap: http://шлях до вашої карти XML формату

Висновки

Файл robots txt – функціональний інструмент, завдяки якому веб-розробник дає інструкції пошуковим системам, як взаємодіяти з сайтом. Завдяки йому ми забезпечуємо правильну індексацію, захищаємо веб-ресурс від потрапляння під фільтри пошукових систем, знижуємо навантаження на сервер та покращуємо параметри сайту для SEO.

Щоб правильно прописати інструкції файлу robots.txt, дуже важливо чітко розуміти, що ви робите, і навіщо ви це робите. Відповідно, якщо не впевнені, краще зверніться за допомогою до фахівців. У нашій компанії налаштування robots txt входить до послуги внутрішньої оптимізації сайту для пошукових систем .

FAQ

Що таке файл robots.txt?

Robots txt – це документ, що містить правила індексації вашого сайту, окремих його файлів або URL-пошуковиками. Правила, описані у файлі robots.txt, називають директивами.

Навіщо потрібний файл robots.txt?

Robots txt допомагає закрити від індексації окремі файли, дублі сторінок, документи, що не несуть користі для відвідувачів, а також сторінки, що містять неунікальний контент.

Де знаходиться файл robots.txt?

Він розміщується у кореневій папці веб-ресурсу. Щоб перевірити його наявність, достатньо до URL-адреси вашого веб-ресурсу дописати /robots.txt і натиснути Enter. Якщо вона на місці, відкриється його сторінка. Так можна переглянути файл на будь-якому сайті, навіть на сторонньому. Просто додайте адресу /robots.txt.

Rate the material
Rating: 0
Voted: 0

Іванина Роман

Копірайтер
Elitweb question
Наш експерт зв'яжеться з вами найближчим часом
У Вас залишились запитання?
Готові до просування свого бренду за допомогою маркетингу, орієнтованого на результати? Дозвольте Elit-Web перетворити вашу присутність в Інтернеті на джерело доходу!