Дубли в индексе Гугла из-за регистра

Автор Тема: Дубли в индексе Гугла из-за регистра  (Прочитано 513 раз)

Оффлайн Андрей СПбАвтор темы

  • Рекрут
  • *
  • СПАСИБО: 0
  • Сообщений: 12
  • Карма: 1
    • Просмотр профиля
Недавно делал небольшие "перестановки" на сайте, и в первом варианте были буквы в нижнем регистре, а потом решил переделать на смешанный, и в итоге проиндексированными оказались как одни, так и другие.

Пример:
Гугл пишет - Страницы с повторяющимися заголовками (теги title):

/companies/Belarus/Vitebsk_Oblast/
/companies/belarus/vitebsk_oblast/

таких страниц около 30.

Что делать, как удалить с нижним регистром и оставить во смешанным? Причем не просто удалить. а "объяснить" роботу, что надо считать основным.

Спасибо

Оффлайн web

  • Старожил
  • ****
  • СПАСИБО: 152
  • Сообщений: 425
  • Карма: 26
  • Пол: Мужской
  • No bees – no honey....... No work – no money
    • Просмотр профиля
    • Заработок в Интернете
Если вы удалите ненужный урл из кэша ПС из панели вебмастера - зачем тогда роботу «объяснять» где основной адрес, а где нет, если старого не будет, а будет только один?

На счёт того, какой из вариантов урл оставить - решать вам, если ранее вы продвигали варианты с нижним регистром – лучше оставить их, хотя, какой вариант предпочтительней – выбирать вам.

Если оставите в индексе оба варианта (не запрещая индексацию, и не удаляя ни один из них), можете указать предпочитаемый при помощи rel="canonical", ещё можно сделать редирект с ненужного варианта на нужный.

Не забудьте в шаблоне сайта изменить все ссылки, чтобы не было того, что варианты с разными регистрами ведут на один и тот же файл, и исправьте ссылки в текстах статей, если это необходимо.

Если есть время - посмотрите эту тему Откуда Google берет несуществующие ссылки?
Биржи статей:Advego,TextSale
Курсы:WordPress, Joomla

Оффлайн Андрей СПбАвтор темы

  • Рекрут
  • *
  • СПАСИБО: 0
  • Сообщений: 12
  • Карма: 1
    • Просмотр профиля
То есть если я через панель "Инструменты для веб-мастеров" в Гугле удалю url скажем в нижнем регистре, то есть из примера:

/companies/belarus/vitebsk_oblast/

то это не повлияет на нахождение в индексе страницы
/companies/Belarus/Vitebsk_Oblast/
?

Сейчас у меня сравнение в базе MySQL идет регистронезависимое, то есть страница доступна по обоим адресам. Если я удалю урл, то надо ли мне прописывать что-то в роботс.txt?

Есть еще одна тонкость, у меня в Яндексе страницы проиндексировались в нижнем регистре, а мне нужен вот так
/companies/Belarus/Vitebsk_Oblast/

И если я удалю /companies/belarus/vitebsk_oblast/ через панель яндекса, и скажем пропишу это в роботсе, то яндекс откажется индексировать в таком виде /companies/Belarus/Vitebsk_Oblast/

при попытке добавить страницу через аддурилку /companies/Belarus/Vitebsk_Oblast/ он пишет, что "Указанный урл уже проиндексирован", так как в индексе уже есть /companies/belarus/vitebsk_oblast/

Если с гуглом более-менее понятно, то вот с яндексом не очень..

Добавлено: 15-01-2012, 19:16:45

На сайте все ссылки переработал с учетом регистра, создал сайтмап с нужным регистром.

При попытке сделать редирект (301) получается зацикливание на сервере. То есть сервер не различает регистр получается.
« Последнее редактирование: 15-01-2012, 19:16:45 от Андрей СПб »

Оффлайн web

  • Старожил
  • ****
  • СПАСИБО: 152
  • Сообщений: 425
  • Карма: 26
  • Пол: Мужской
  • No bees – no honey....... No work – no money
    • Просмотр профиля
    • Заработок в Интернете
Судя по тому, что вы написали – для Гугла это две страницы, а для Яши она одна - ему всё равно, в каком она регистре написана, поэтому у Яндекса её не удаляйте.

В роботсе можете запретить индексировать дубли только Гуглу

Записав что-то вроде:

User-agent: Googlebot
Disallow: /companies/belarus/vitebsk_oblast/


Если нужно запретить в другом регистре – пропишите запрет в другом регистре, при этом не забудьте проверить в панели вебмастера Гугла доступность нужного вам урла для сканера, т.е. то, что вам не нужно – чтобы было запрещено в роботсе таким-то правилом (указано выше), а то, что нужно – было открыто.

Если, в процессе проверки, окажется, что для Гугла закрыт и один, и второй вариант – снимите запрет в роботсе.

Насчёт повлияет/не повлияет нахождение в индексе Гугла страницы, после удаления дубля.

Повлияет в любом случае.
В первом удалится дубль, а необходимый урл останется (если для Гугла страницы, написанные в разных регистрах – разные).
Во-втором удалятся оба варианта и с нижним, и со смешанным регистром (если для Гугла – это один урл).

Если не сработает предложенное правило для роботса - удалите в Disallow в конце адреса слеш.

Или

User-agent: Googlebot
Disallow: /*companies/belarus

тогда должны быть запрещенны все урлы, где встречается "companies/belarus"
« Последнее редактирование: 15-01-2012, 19:47:37 от web »
Биржи статей:Advego,TextSale
Курсы:WordPress, Joomla

Оффлайн Андрей СПбАвтор темы

  • Рекрут
  • *
  • СПАСИБО: 0
  • Сообщений: 12
  • Карма: 1
    • Просмотр профиля
Я в панели Гугла уже удалил ссылки с нижним регистром. Причем в нужном регистре ссылки добавлял через "Посмотреть как Гуглбот", и далее отправлял на индексацию. И гугл начал индексировать.

Пока не стал прописывать ничего в роботсе, так как гугл и так согласился их удалить. Буду ждать. Пока вроде бы все нормально.

Вот с яндексом я так понял, что фокус не пройдет. Ну а если он прочтет сайтмап, где урлы в нужном регистре, на основании этого он может переиндексировать с нужным регистром, а с нижним регистром удалить?

У меня все ссылки сейчас в нужном регистре. В идеале чтобы в индексе оказались страницы в нужном регистре, и в базе установить регистрозависимое сравнение.
« Последнее редактирование: 15-01-2012, 20:15:12 от Андрей СПб »

Оффлайн web

  • Старожил
  • ****
  • СПАСИБО: 152
  • Сообщений: 425
  • Карма: 26
  • Пол: Мужской
  • No bees – no honey....... No work – no money
    • Просмотр профиля
    • Заработок в Интернете

Вот с яндексом я так понял, что фокус не пройдет. Ну а если он прочтет сайтмап, где урлы в нужном регистре, на основании этого он может переиндексировать с нужным регистром, а с нижним регистром удалить?

Для Яндекса это один урл, может в его выдаче и изменится регистр на смешанный - не знаю.
__________
Может оказаться и так, что в роботсе, запись имеющая смешанный регистр, будет иметь такое же значение, что и написанная в нижнем регистре. Утверждать этого тоже не могу, т.к. опыта мало, но вы попробуйте, если что, пока других предложений в этой теме нет.
Биржи статей:Advego,TextSale
Курсы:WordPress, Joomla

Оффлайн Андрей СПбАвтор темы

  • Рекрут
  • *
  • СПАСИБО: 0
  • Сообщений: 12
  • Карма: 1
    • Просмотр профиля
Так а какую инструкцию для яндекса можно прописать в роботсе? С гуглом ясно, и ничего для него прописывать не надо. А для яндекса?

Отправил письмо в техподдержку Яндекса  :)

Оффлайн web

  • Старожил
  • ****
  • СПАСИБО: 152
  • Сообщений: 425
  • Карма: 26
  • Пол: Мужской
  • No bees – no honey....... No work – no money
    • Просмотр профиля
    • Заработок в Интернете
Так а какую инструкцию для яндекса можно прописать в роботсе? С гуглом ясно, и ничего для него прописывать не надо. А для яндекса?

Отправил письмо в техподдержку Яндекса  :)

Яндексу ничего прописывать не надо. Для него - это 1 урл.

Добавлено: 15-01-2012, 20:46:39

Я так понял, что файл, обращяющийся к БД - один, он же формирует страницы на основании того, что записано в базе.
Может, немного поковырявшись в коде удастся сделать php вставку кода с условием, если извлекаются те, около 30 урлов, изменивших регистр, то для них будет соответствующий rel="canonical" - указывающий предпочитаемый адрес. Конечно, если такое можно сделать.  :)
« Последнее редактирование: 15-01-2012, 20:46:39 от web »
Биржи статей:Advego,TextSale
Курсы:WordPress, Joomla

Оффлайн Андрей СПбАвтор темы

  • Рекрут
  • *
  • СПАСИБО: 0
  • Сообщений: 12
  • Карма: 1
    • Просмотр профиля
естественно это один файл, и прописаны инструкции mod rewrite (ЧПУ) в .htaccess

вряд ли тут можно прописать какие-то инструкции.

пока придется оставить как есть. может глядишь позже одумается яндекс

Оффлайн web

  • Старожил
  • ****
  • СПАСИБО: 152
  • Сообщений: 425
  • Карма: 26
  • Пол: Мужской
  • No bees – no honey....... No work – no money
    • Просмотр профиля
    • Заработок в Интернете
Небольшое отступление, не относящееся к теме*
В базе статьи имеют свой id, или другой общий идентификатор, по нему и можно сделать выборку нужных страничек из БД (выбирать не по ЧПУ, созданному в .htaccess).

Ведь rel="canonical" прописывается в <head></head> туда же прописывается, например, и description, и если страница динамическая, то описание выводится соответствующее записи в базе, и оно может быть записано в смешанном регистре.

К чему это было сказано  - мне кажется, что и с canonical можно поступить так же, сделать выборку из БД, ещё до строки "<!DOCTYPE.....", дописав нужные условия, и подставлять в rel="canonical" (вставку, наподобие <?php echo $myrow["url"];?> необходимое значение url из БД в нужном регистре, его и «скармливать» поисковикам в виде rel="canonical". Как-то так... :o

Т.е. при желании, с этим можно что-то сделать, по крайней мере, попытаться, хотя бы ради интереса, а там глядишь и что-то получится, а если нет, то нет. :D
Но ради этой цели много гемора, даже может потребоваться немного изменить таблицу в БД, или создать ещё одну... :)
Биржи статей:Advego,TextSale
Курсы:WordPress, Joomla

 

Похожие темы

  Тема / Автор Ответов Последний ответ
1 Ответов
626 Просмотров
Последний ответ 09-08-2010, 11:51:40
от SeoBrabus
16 Ответов
3031 Просмотров
Последний ответ 27-03-2011, 23:48:52
от Fess
1 Ответов
585 Просмотров
Последний ответ 21-03-2011, 01:27:59
от vladimir1983
8 Ответов
933 Просмотров
Последний ответ 31-03-2011, 12:55:49
от scooter2007
5 Ответов
775 Просмотров
Последний ответ 11-05-2011, 16:42:21
от Владимир75
2 Ответов
446 Просмотров
Последний ответ 14-07-2011, 22:17:14
от krock
6 Ответов
474 Просмотров
Последний ответ 28-01-2012, 21:03:45
от dreadful