
Всем привет. Иногда мы сталкиваемся с ситуацией, когда необходимо вывести текущую структуру сайта, обычно весь процесс сбора структуры идет в ручном режиме. Сегодня я покажу как можно этот процесс автоматизировать.
Окей, убедитесь что у вас на рабочем столе есть иконки следующих программ:
- Screaming Frog SEO Spider;
- Excel.
С этим разобрались, идем дальше.
Чтобы долго не рассказывать, лучше все показать. Погнали.
Сразу кейс
Возьмем для примера сайт https://gutsant.ru/.
Первое что нам необходимо сделать, это перейти на типовый раздел сайта, в нашем случае пусть это будет раздел «Ванны».
После чего необходимо получить XPath запрос текущей хлебной крошки. Для этого кликаем на элементе правой кнопкой мыши, и выбираем «Просмотреть код»:
XPath – это язык запросов к структуре xml или html документа. С помощью него можно достать любой видимый и невидимый элемент на странице веб-сайта.
Дальше так же кликаем правой кнопкой на элементе последней хлебной крошки и копируем XPath запрос:
Сам полученный код необходимо закинуть в программу Screaming Frog SEO Spider, для этого запускаем ее, переходим в панель экстракции:
Размещаем его в первом поле, выбрав из лист-бокса XPath, также не забудьте немного модифицировать код заменив порядковый номер хлебной крошки на любой (*):
Теперь когда все настроили запускаем парсинг сайта:
Если сайт большой, или вы не хотите добавлять некоторые разделы в структуру, можно ограничить работу жабы через настройку Exclude:
Например, я не хочу выводить все подразделы категории «Ванны», для этого используем следующий код:
Точка со звездочкой означает любой символ.
И вот когда фрог закончил парсить сайт нам необходимо экспортировать полученные данные в Excel. Для этого переходим во вкладку Custom >> Extraction:
И экспортируем через кнопку:
При экспорте выбирайте книгу excel:
Открываем полученный файл и сразу удаляем столбцы B и C, т.к. данная информация нам не нужна:
Столбец А перенесите в столбец F, для более удобного представления данных и сам пустой столбец А удалите. Расширьте ячейки для более удобной работы. После всех вышеописанных манипуляций вы увидите примерно следующее:
Теперь нам необходимо все это отсортировать. Выделяем все столбцы с информацией и нажимаем кнопку «Сортировка», настраиваем ее так:
Полученный итог:
Теперь в каждом столбце удаляем все дубли оставляя только самую первую строку с инфой.
Т.е. удаляем все «Главная страница», кроме первой записи, и так далее по всем столбцам. После небольшого форматирования у нас на руках есть готовая структура любого сайта в интернете, если на нем, конечно же, есть хлебные крошки:))
Вот так всего за пару минут настройки мы получили готовую структуру на которую иногда уходит больше одного часа.