Индексация php и html сайта. Где быстрее?

Вопрос вам, что быстрее индексируется? Или одинаково? Вот, не читая статью, оставьте своё мнение в комментарии. А потом читайте статью: )


Вы можете подумать, что разницы нет. Ведь в итоге, пользователь видит html код и всё.

Но не стоит забывать и о Last-Modified. Учитывая этот параметр, можно с легкостью сказать, что html сайты индексируются намного лучше! Я не говорю, что сайт быстрей попадет в индекс и прочее. Я говорю лучше!

Советы от Яндекса


Воспользуемся справкой от Яши: Индексирование сайта

Пункт 6. Следите за корректностью http-заголовков. В частности, важно, содержание ответа, который сервер отдает на запрос «if-modified-since». Заголовок Last-Modified должен отдавать корректную дату последнего изменения документа.

Что такое Last-modified


Это http-заголовок, который возвращает дату последнего изменения запрашиваемой страницы сайта. Это очень важно для поисковых систем. Дата, которую получает робот, необходима ему для принятия решения, нужно ли заново индексировать или нет.

Таким образом, если правильно указывать даты, сайт будет индексироваться лучше и полностью.

Сервер нужно настраивать так, чтобы он выдавал этот параметр.

Если http-заголовок отсутствует, то в случае сортировки результатов по определенной дате, сайт не будет отображаться корректно.

Почему html лучше индексируется чем php?


Всё потому, что когда файл html, в параметр ласт модификейт попадает дата последнего изменения файла. Вот робот смотрит её. Если она не изменилась, то сайт не трогает.

У Php динамика. Там он дату последнего сохранения не смотрит.

Почему это важно?


К примеру, у вас на сайте 1000 страниц. Допустим, робот пришел на сайт и хочет просканировать всего 30 страниц (у них есть лимиты). Идет, допустим, он по своей базе ваших страниц. И бац, нигде нет этого параметра. Ему приходится грузить эти страницы подряд и уже смотреть самому, нужно ли обновить инфу в поиске.

А если есть ласт модификейт, то, увидев, что страница не изменилась, он идет к другой, и так подряд, пока не будет находить те, которые с его последнего прихода изменились, и до тех пор, пока счетчик «лимита» не кончится. В первом случае, без даты изменения, он порожняком сканировать, и пока счетчик не станет 0. То есть, кпд индексации падает.

Что нужно делать?


Нужно самостоятельно посылать эти запросы. Ведь мы работаем с базой mysql. Сделайте дополнительное поле lastmod, и потом считывайте и отдавайте её при обращении к конкретной странице.

Используем код.

<?php header("Last-Modified: ".gmdate("D, d M Y H:i:s ")."GMT");?>

У меня на сайте так:

$id=(int)$_GET['id'];
$result_lm = mysql_query("SELECT lm,id FROM articles WHERE id='$id'",$db);
$myrow_lm = mysql_fetch_array ($result_lm);
$lastMod=$myrow_lm['lm'];
header("Last-Modified: " . $lastMod);

Дополнительная информация


Огромное число вебмастеров, можно сказать даже почти 90% (где-то я читал статистику), не используют Last-modified.

Не будьте такими же.

Некоторые «мастера» пытаются обмануть робота, выдавая текущую дату за дату последнего изменения. Это равносильно тому, что дата не указана вообще..gmdate(

9 комментариев

avatar
Полезная статья — я как раз недавно задавался этим вопросом… Однозначно +1.
avatar
Я думаю что быстрее индексируется PHP файлы. Думаю это потому что HTML файлы статичны, а к PHP файлам ПС приглядываются больше, вроде Гугла.
avatar
Прочтите статью, и сами всё поймете)
avatar
Я чайник!)) Но почерпнул отсюда много нового.
avatar
  • GOR
Хм, интересная статья, логичное замечание. Никогда об этом сам не задумывался)) Однако индексируется лучше и быстрее там, где меньше ошибок и загруженности)
avatar
  • ABC
Помимо Last-modified боты используют до 500 параметров при индексации сайта (каких большой секрет их создателей) и ориентируется прежде всего на настройки robots.txt, если его нет ищут файл с названием index.

Что нужно делать?
и
У меня на сайте так:

$id=(int)$_GET['id'];
$result_lm = mysql_query(«SELECT lm,id FROM articles WHERE id='$id'»,$db);
$myrow_lm = mysql_fetch_array ($result_lm);
$lastMod=$myrow_lm['lm'];
header(«Last-Modified: ». $lastMod);
1. $db?
2. mysql_fetch_array
3. Нет ``
4. mysql_query без обвертки
5. При каждой перезагрузке index делать запрос в БД? Неплохо....

Привет Жене Попову.
avatar
 +1
avatar
  • GOR
robots.txt
У доброй половины рунета нет такого файла в фтп и они даже не понимают его предназначение, не говоря о правильном его заполнении. К тому же, для многих CMS роботс минимальный. Там идет работа с одноименным метатегом и ручным перекрыванием тех или иных страниц в нем.
avatar
При правильном подходе к продвижению сайта страницы должны в течении пары часов залетать в индекс и на php и на html, тем не менее статья полезна — плюсую.