Автоматическая генерация sitemap xml. Как создать Sitemap XML для "Яндекса" и Google: пошаговая инструкция
С помощью файла Sitemap можно сообщить Яндексу об актуальной структуре сайта, указав специальную директиву в robots.txt или добавив в Яндекс.Вебмастер.
Вебмастер позволяет:
Загрузка Sitemap
Выберите из списка сайт.
В поле впишите URL, по которому доступен файл. Например, https://example.com/sitemap.xml .
Нажмите кнопку Добавить .
После добавления файл попадает в очередь на обработку. Робот загрузит его в течение двух недель. Каждый добавленный файл, в том числе вложенный в файл индекса Sitemap , обрабатывается роботом отдельно.
После загрузки напротив каждого файла вы увидите один из статусов:
Статус | Описание | Примечание |
---|---|---|
«OK» | ||
«Редирект» | Удалите редирект и сообщите роботу об обновлении | |
«Ошибка» | Файл сформирован неправильно | сообщите роботу об обновлении |
«Не проиндексирован» | Проверка ответа сервера |
|
Disallow | сообщите роботу об обновлении |
Статус | Описание | Примечание |
---|---|---|
«OK» | Файл сформирован правильно и загружен в базу робота | Напротив файла отобразится дата последней загрузки. Проиндексированные страницы появятся в результатах поиска в течение двух недель |
«Редирект» | Указанный URL перенаправляет на другой адрес | Удалите редирект и сообщите роботу об обновлении |
«Ошибка» | Файл сформирован неправильно | Нажмите ссылку Ошибка , чтобы узнать подробности. После внесения изменений в файл сообщите роботу об обновлении |
«Не проиндексирован» | При обращении к Sitemap сервер возвращает HTTP-код, отличный от 200 | Проверьте, доступен ли файл для робота с помощью инструмента Проверка ответа сервера , указав полный путь к файлу. Если файл недоступен, обратитесь к администратору сайта или сервера, на котором он расположен. |
Доступ к файлу запрещен в robots.txt с помощью директивы Disallow | Разрешите доступ к Sitemap и сообщите роботу об обновлении |
Обновление Sitemap
Если вы изменили добавленный в Яндекс.Вебмастер файл Sitemap , его не надо удалять и загружать снова - робот регулярно проверяет файл на обновления и ошибки.
Чтобы ускорить обход файла, нажмите значок . Если вы используете файл индекса Sitemap , можно запустить обработку каждого перечисленного в нем файла. Робот загрузит данные в течение трех дней. Использовать функцию можно до 10 раз для одного хоста.
Когда вы израсходуете все попытки, следующая будет доступна через 30 дней после первой. Точная дата отображается в интерфейсе Вебмастера.
Удаление Sitemap
В интерфейсе Яндекс.Вебмастера можно удалить те файлы, которые были добавлены на странице Файлы Sitemap : Если для Sitemap была добавлена директива в файле robots.txt , удалите ее. После внесения изменений информация о Sitemap пропадет из базы робота и Яндекс.Вебмастера в течение нескольких недель.
Из этой статьи вы узнаете, как создать файл Sitemap и предоставить Google доступ к нему.
Создание и отправка файлов Sitemap
Форматы файлов Sitemap
Google поддерживает несколько форматов файлов Sitemap, описанных ниже. Во всех форматах следует использовать стандартный протокол . Google в настоящее время не поддерживает атрибут
Для всех форматов действуют следующие ограничения: файл Sitemap может содержать не более 50 000 URL, а его размер в несжатом виде не должен превышать 50 МБ. Если объем файла или количество перечисленных в нем адресов превышают эти лимиты, разбейте его на несколько частей. Вы можете создать файл индекса Sitemap , перечислив в нем все файлы Sitemap, и отправить их в Google все сразу.
Если в файле Sitemap есть только адреса страниц, вы можете отправить Google обычный текстовый файл с этими URL (по одному в каждой строке). Пример:
Http://www.example.com/file1.html http://www.example.com/file2.html
- Необходимо использовать кодировку UTF-8.
- Файл не должен содержать ничего, кроме списка URL.
- Этому текстовому файлу можно дать любое имя, но необходимо использовать расширение.txt (например, sitemap.txt).
Если сайт был создан и подтвержден с помощью сервиса "Google Сайты", файл Sitemap создается автоматически. Его нельзя изменить, но можно отправить в Google , чтобы получать сведения для отчетов. Обратите внимание, что если в одном подкаталоге содержится более 1000 страниц, файл Sitemap может отображаться некорректно.
- Если ваши страницы размещены на Google Сайтах , файл Sitemap должен находиться по адресу http://sites.google.com/site/VashSait /system/feeds/sitemap .
- Если сайт создан с помощью Google Apps , URL файла Sitemap должен быть таким: http://sites.google.com/VashDomen /VashSait /system/feeds/sitemap .
Расширения файлов Sitemap
Google поддерживает расширенный синтаксис в файле Sitemap для приведенных ниже типов информации. С его помощью можно добавлять описание видео, изображений и другого контента для улучшения его индексации.
Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».
Предположим у вас есть сайт, забитый уникальным контентом, на котором проведена SEO оптимизация и сидите вы, потирая ладошки в ожидании, когда же ваше детище начнет посещаться поисковым роботом, индексироваться и приносить заветный трафик. Идет время, а результат ваших стараний не особо-то и виден. В чем же дело? Возможно, что-то все же было упущено из виду, что-то да забылось в погоне за ништяками. Предположим, что сайт по-прежнему уникальный и оптимизаторы из вас хоть куда. Тогда нужно разбираться, почему поисковик так неохотно вас посещает и по какой причине все происходит так медленно.
Каждый web-проект должен иметь два важных, а может и основных файла: это роботс (robots.txt) и карта сайта (). Если какой-то из них отсутствует или неверно заполнен, велика вероятность, что ресурс не даст того результата, на который вы рассчитывали. Ведь у поисковых ботов есть заданные ограничения как по времени нахождения на ресурсе, так и по количеству документов, которые они могут проверить и занести в базу. А это все к тому, что если вами не были заданы пути перемещения для поискового робота, то он может добраться до контента очень нескоро, перед этим побродив в файлах движка.
Чтобы избежать подобной неразберихи, в файле роботс мы говорим, на что ботам не стоит тратить время, а с помощью карты сайта, наоборот, подсказываем куда следует заглянуть и где побродить.
Предположим, что у нас все срослось и поисковики начали индексировать наш проект, а вот отсутствие второго может затянуть достижение поставленных целей. А теперь подробнее про создание sitemap.
XML и HTML версии карты сайта
Sitemap.html выступает в роли навигации для гостей нашего ресурса, которая помогает понять структуру сайта и найти интересующий их раздел.
Sitemap.xml подсказывает и помогает поисковым ботам обнаружить и начать индексировать страницы нашего проекта. Если мы имеем большой уровень вложенности и многочисленное количество веб-страниц на сайте, XML гарантирует, что боты не упустят из вида, то что нужно проиндексировать. Как приятный бонус мы получаем плюсик к карме в виде увеличения доверия к ресурсу со стороны поисковиков.
Положительные стороны присутствия sitemap. xml на сайте
- ускоренное индексирование недавно созданных страниц;
- стопроцентная вероятность того что поисковик отыщет необходимые страницы;
- возможность указать приоритеты при проверке, частоту и дату последнего обновления страницы;
- немного увеличивается доверие к ресурсу.
Важно!
- используйте для карты сайта кодировку UTF-8 ;
- вес файла должен быть не более 10 MB и его содержание не должно быть больше 50 тысяч URL .
Как создать и добавить sitemap. xml на сайт
Берем любой текстовый редактор, например Notepad++, и начинаем творить.
Первым блоком идет стандартная часть, в которой мы указываем:
Значения тегов:
- «loc» - в него мы заключили адрес страницы нашего сайта, которую в скором времени должны проиндексировать поисковые роботы;
- «lastmod» - отображается последняя дата обновления страницы указанной в первом теге;
- «changefreq» - показывает как часто будет обновляться контент (в нашем случае каждый день);
- «priority» - задает приоритетность к индексации страницы (от 0 до 1)
Сохраняем получившийся файлик в формате XML и помещаем его в . Далее указываем путь к нему в robots. txt прописывая данную строчку:
http://Наш сайт/sitemap.xml
Либо мы можем использовать один из онлайн-генераторов. Например, , который рассчитан на создание не больше чем 500 страниц. Но зачастую больше и не надо, поэтому работаем с ним.
В первую строку вписываем полный URL нашего сайта с http://Наш сайт.
Вторая строка, которая называется « Change frequency», показывает поисковым роботам, как часто будут обновляться веб-страницы. Можем выбрать: never, weekly, daily, hourly, monthly, yearly.
Третья строка « Last modification » показывает, когда последний раз обновлялась страница, можем выбрать либо дату когда мы решили создать карту сайта, либо выбрать « Use server’s response » - тогда генератор автоматически внесет дату последнего изменения.
И четвертая строка « Priority», как мы уже ранее обсуждали позволяет выбрать приоритет к индексации, выбираем « Automatically Calculated Priority ».
Нажимаем кнопку «Start» и ждем когда сгенерируется карта сайта в формате XML , после опять проделываем манипуляции с помещением в корень и указания пути в robots.txt.
Как сообщить о файле sitemap после создания Google и Яндекс
Заходим в Вебмастер и действуем следующим образом.
Выбираем проверку карты сайта:
И задаем путь к нашему файлу sitemap.
Проверяем что получилось:
Убеждаемся, что все в порядке и отправляемся на поклон к Google.
Для того чтобы попасть в Search Console Гугл, в которой, собственно, и можно сообщить о нашей карте, переходим
Обновляем страницу - перед нами результат проверки и если в колонке «Проблемы» стоит прочерк, значит, мы все сделали правильно.
Подведем итоги
Создать и разместить файл sitemap. xml на ресурсе по факту минутное дело, для этого можно использовать любой текстовый редактор или онлайн-генератор. Если у вас есть карта сайта на своем ресурсе вы ускоряете и упрощаете жизнь поисковому роботу, который следует по указанному пути и индексирует нужные страницы. Это значит, что результат вашей работы по оптимизации имеет шанс быстрее стать заметным. Но важно не забывать про карту сайта и периодически ее обновлять, т.к. страница может перестать участвовать в продвижении, а боты будут продолжать ее посещать, что отразится на позициях. Также наш XML-проводник может служить помощником не только роботам, но и воришкам контента, ведь в sitemap мы указываем нужные нам документы, что значительно упрощает жизнь копипастерам. Поэтому рекомендуем периодически проверять контент вашего ресурса на уникальность. Соблюдая эти правила вы повышаете доверие поисковых систем Google и Яндекс к своему ресурсу.
Бесплатный генератор Sitemap для быстрого автоматического создания полной карты сайта. Нужно лишь указать его адрес и запустить программу.
Карта сайта обычно бывает в двух форматах:
- Как обычная страница в формате HTML , оформленная в стиле своего сайта. Такие страницы в большей степени предназначены для посетителей;
- В специальном формате передачи данных XML , который более удобен для поисковых роботов.
С помощью первого варианта карты можно найти страницу по названию и оценить масштаб сайта (увидев перечень всех его страниц).
А второй помогает улучшить индексацию сайта поисковиками.
И программа SiteMap Generator от WonderWebWare дает широчайшие возможности по созданию карты сайта с минимальными усилиями со стороны веб-мастера.
Возможности программы
URL (англ. Uniform Resource Locator) - способ записи адреса страницы сайта или документа в сети.Самое главное, что может делать это программа - создавать карты сайта в разных форматах (XML, TXT, экспорт ссылок в файл CSV или HTML).
Подобно интернет-пауку поисковика она, получив стартовый URL, сканирует весь Ваш сайт, выдавая список всех ссылок.
В программе даже есть встроенный браузер для предпросмотра сайта.
Еще одна полезность: программой можно пользоваться, сканируя несколько сайтов сразу (не по очереди). Для этого достаточно запустить несколько окон SiteMap Generator и работать с ними одновременно.
Установка SiteMap Generator
Установка программы вполне стандартная. Скачиваем архив с сайта и запускаем установочный файл.
You can very easy create your sitemap. First type in your URL and then select the parameters you may wish to change. (change frequency, last modification date and page priority. You may also alter default settings for exclude extensions, do not parse extensions and session ids. In the next fields you can declare which URLs you want to exclude from sitemap (see example below). Finally you may select the maximum number of pages and the depth level. Optionally you can select to create additional sitemaps, like ROR sitemap, HTML sitemap or TXT sitemap.
What is "Page changing frequency" ?
Change frequency affects when and how often search engine spiders visit your site’s pages. It may have one of seven values: always, hourly, daily, weekly, monthly, yearly, never. This tells the search engines how often each page is updated. An update refers to actual changes to the HTML code or text of the page.
What is "Last modification date" ?
This parameter can take one of the next three values:
Server"s response.
Set the date of last modification of the file using server response headers. This value, gives crawlers the information to not recrawling documents that have not changed. We recommend to keep this setting.
Current time.
Set the date of last modification of the file using the current date and time.
None.
Do not use any value for Last modification of the files.
What is "Page priority" ?
The Priority is set to a number between zero and one. If no number is assigned, priority is set to 0.5. This number determines the priority of a particular URL relative to other pages on the same site. A high priority page may be indexed more often and appear above other pages from the same site in search results. Automatic priority reduces the priority of a page depending on depth level.
What is "Depth Level" ?
Depth level of a page means how many clicks away is this page from homepage.
What is "Exclude extensions" ?
Files with these extensions found in your website pages are not included in sitemap (not crawled). Separate input values with spaces.
What is "Do not parse extensions" ?
Files with these extensions will not be fetched in order to save bandwidth, because they are not html files and have no embedded links but will be included in the sitemap. Separate input values with spaces.
What is "Session IDs" ?
If URLs on your site have session IDs in them, you must remove them. Including session IDs in URLs may result in incomplete and redundant crawling of your site. Common session IDs: PHPSESSID, sid, osCsid. Separate with spaces.
What is "Exclude URLs" ?
URLs that contain these strings (or regex) will not be included on sitemap. Input values one per line.
e.g. 1 Use string: component/
in order to exlude all pages in www.yoursite.com/component/
If regex, add in the end: \s* (example: blo\s*)
e.g. 2 If you have any of the following websites, you may exclude these strings: (copy and paste to Exlude URLs box)