Помогите разобраться с индексацией сайта.

Автор Тема: Помогите разобраться с индексацией сайта.  (Прочитано 334 раз)

Оффлайн JaguarАвтор темы

  • Рекрут
  • *
  • СПАСИБО: 0
  • Сообщений: 13
  • Карма: 1
    • Просмотр профиля
Решила заняться наведением порядка на сайте.
Полезла в яндекс и посмотрела какие страницы проиндексированы, оказалось, что в поиске находятся страницы типа: http://мой_сайт/post111, http://мой_сайт/post222 и т.д. Что вообщем-то и требовалось.
Затем открыла в том же Яндексе структуру проиндексированного сайта.
Согласно этим данным, у меня оказались проиндексированы:
*страницы с постами, но уже принадлежащие соответствующим категориям*
мой_сайт
- category_name=idea& 
- category_name=technics&
- category_name=thought&
*на каждую страницу выводится 5 постов, соответственно ниже проиндексировались посты на четырех страницах, в действительности страниц >10*
page/

-2?
* дальше почему-то влезла доп.индексация постов на второй странице еще проиндексированная отдельна по категориям*
--category_name=idea&
--category_name=technics&
-3?
-4?
*а дальше я вообще ничего не понимаю. Проиндексировалась только одна категория техника, часть дат, теги*
-category/
--technics/
--date/
--- 2010/
----07/
----08/
--- 2011/
*теги, которые запрещены к индексации не в robot.txt, а средствами wordpress*
--tag/
*вновь теги, которые запрещены к индексации*
-tag/
*одна категория вместо четырех*
-technics/

Черточками я попыталась описать иерархию вложенности.
Согласно этим данным у меня избыточная переиндексация и мне нужно что-то делать.
Но я не понимаю две вещи:
1. Если у меня переизбыточная индексация, то почему я не вижу в результатах поиска по индексированным страницам своего сайта страницы типа
http://мой_сайт/категория/post111
http://мой_сайт/тэг/post111
http://мой_сайт/2011/08/post111
2. В чем мне надо наводить порядок в robot.txt? В sitemap?
Буду признательна, если укажите, конкретные примеры решения проблемы.

Оффлайн zloberman

  • Ветеран
  • *****
  • СПАСИБО: 347
  • Сообщений: 1308
  • Карма: 80
  • Пол: Мужской
  • Награды КМС поисковой оптимизации
    • Просмотр профиля
    • создание сайтов в Донецке
у вас wordpress

поищите по форуму темы robot.txt для wordpress - поможет удалить зеркала страниц из индексации
поиск по гуглу - внутренняя оптимизация wordpress
комплексная помощь под ключ - от дизайна сайта до создания и продвижения здесь

Оффлайн bat

  • Ветеран
  • *****
  • СПАСИБО: 133
  • Сообщений: 616
  • Карма: 22
  • Пол: Мужской
  • было бы че...
    • Просмотр профиля
    • Развлекательный портал 2Cool.ru
Сначала делаем robots.txt с таким содержанием:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-content/cache
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-content/cache
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: вашсайт.ru

Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz


Далее просто ждем переиндексации и обновления кеша пс. Если уж очень не терпится можно обратиться в службу поддержки пс с просьбой удалить из выдачи url которых не существует.
« Последнее редактирование: 09-12-2011, 05:51:26 от bat »

Онлайн nemetc

  • Ветеран
  • *****
  • СПАСИБО: 515
  • Сообщений: 1085
  • Карма: 45
  • Пол: Мужской
  • заходи если что...
    • Просмотр профиля
    • Альтернативные источники энергии
bat, посмотри

знаки вопросов, а должно быть хотя бы:
Код:
Только зарегистрированные пользователи могут видеть код. Пожалуйста, войдите или зарегистрируйтесь.
Женский журнал тут

Оффлайн mark3000

  • Ветеран
  • *****
  • СПАСИБО: 335
  • Сообщений: 936
  • Карма: 34
  • Пол: Мужской
  • практикующий мечтатель
    • Просмотр профиля
    • INTERASCOPE правильные программы для продвижения Вашего сайта
nemetc, У меня кстати Яндекс такое: Disallow: /*?* читает нормально. это от формы комментария ерунда всякая лезет.
LINKOSCOP 4 заставьте внутреннюю перелинковку работать на вас. | а здесь я пишу о заработке: 100-монет

Оффлайн seo_noob

  • Рекрут
  • *
  • СПАСИБО: 5
  • Сообщений: 31
  • Карма: 2
  • Пол: Мужской
    • Просмотр профиля
    • AQSpace
Сначала делаем robots.txt с таким содержанием:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-content/cache
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-content/cache
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: вашсайт.ru

Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz


Далее просто ждем переиндексации и обновления кеша пс. Если уж очень не терпится можно обратиться в службу поддержки пс с просьбой удалить из выдачи url которых не существует.
А в чём смысл данного robots.txt? Я вообще в курсе для чего robots.txt служит, но данный что запрещает?

Оффлайн bat

  • Ветеран
  • *****
  • СПАСИБО: 133
  • Сообщений: 616
  • Карма: 22
  • Пол: Мужской
  • было бы че...
    • Просмотр профиля
    • Развлекательный портал 2Cool.ru
Я вообще в курсе для чего robots.txt служит
А в чём смысл данного robots.txt?
данный что запрещает?
Если вы были бы в курсе то не задавали бы таких вопросов.
Если визуально не можете понять что это за папки, то хотя бы ради интереса проследуйте по ссылкам из robots.txt и просмотрите самостоятельно то что там находится, сделав соответствующий вывод нужно это в выдаче ПС или нет.

Онлайн azartan

  • Ветеран
  • *****
  • СПАСИБО: 510
  • Сообщений: 653
  • Карма: 28
  • Пол: Женский
  • КартоГрафиня
  • Награды Ценный форумчанин в прошедшем месяце Оптимизатор месяца Более 100 спасибо
    • Просмотр профиля
    • Мониторинг обменников OKKU
Jaguar, посмотрите тут правильный роботс для ВП

подправьте свой и через несколько АПов "лишние" страницы выпадут

если проиндексировалась только 1 категория из 4, попробуйте 3 НЕпроиндексированные прогнать по соцзакладкам - помогает ускорить индексацию

 

Похожие темы

  Тема / Автор Ответов Последний ответ
6 Ответов
487 Просмотров
Последний ответ 01-10-2010, 20:51:39
от travel
4 Ответов
354 Просмотров
Последний ответ 27-10-2010, 02:30:43
от ymniza
7 Ответов
311 Просмотров
Последний ответ 10-10-2011, 14:47:27
от Atip
5 Ответов
359 Просмотров
Последний ответ 02-07-2011, 13:54:07
от westj
7 Ответов
318 Просмотров
Последний ответ 09-07-2011, 01:52:16
от Russkii
4 Ответов
311 Просмотров
Последний ответ 17-08-2011, 20:21:26
от azartan
0 Ответов
654 Просмотров
Последний ответ 09-09-2011, 17:32:56
от prokira