Google 的目标是尽可能有效地抓取您的网站。如果网页的内容相同,那么,无论是抓取还是编制索引都不能有效地利用我们的资源。因为这样会限制我们能在您的网站上所抓取的网页数量,而且如果索引中存在重复内容,会影响网页在搜索结果中的显示效果。如果多个网站通过不同的网址提供了相同的内容,通常就会产生重复内容,例如使用下面所示的会话 ID 或其他参数:
http://www.example.com/products/women/dresses/green.htmhttp://www.example.com/products/women?category=dresses&color=greenhttp://example.com/shop/index.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123&affid=431
在此例中,所有这些网址都指向相同的内容:一组绿色的女士礼服。
Google 检测到重复内容(例如由网址参数导致的变体)后,会将重复的网址划分为一组,并会选出我们认为“最佳”的网址,以在搜索结果中表示该组网址。然后,我们会将该组网址的属性(例如链接热门程度)合并到上述具有代表性的网址中。将重复内容的属性合并到一个代表性网址中之后,通常就可以为用户提供更准确的搜索结果了。
要改善该流程,我们建议您使用参数处理工具,告知 Google 您是如何处理包含特定参数的网址的。我们会尽量考虑这些信息;但是,在某些情况下,所提供的建议对网站来说可能弊大于利。
一般而言,网址参数分为以下两类:
sessionid
、affiliateid
。此类参数通常用于跟踪访问次数和引荐来源网址。它们对于网页的实际内容没有任何影响。例如,以下网址都指向完全相同的内容: http://www.example.com/products/women/dresses?sessionid=12345 http://www.example.com/products/women/dresses?sessionid=34567 http://www.example.com/products/women/dresses?sessionid=34567&source=google.com
brand
、gender
、country
、sortorder
。例如,某个参数会对内容造成如下影响: sort=price_ascending
):更改内容的显示顺序。 t-shirt_size=XS
):过滤网页上的内容。 store=women
):确定网页上显示的一系列内容。 lang=fr
):显示经过翻译的内容。 page=2
):显示一篇较长列表或文章中特定的一页。 我们建议您使用网址参数工具,告知 Google 您在网站上使用各个参数的目的,以及 Google 应如何处理包含这些参数的网址。
www.example.com/dresses/real.htm?productid=1202938
与 www.example.com/dresses/real.htm?productid=5853729
视为完全不同的网址。在选择该选项前,请确保相关参数确实会更改网页内容;否则,Googlebot 可能会在您的网页上抓取不必要的重复内容。 www.example.com/dresses/real.htm?sort=price_high
与 www.example.com/dresses/real.htm?sort=price_low
所包含的内容相同。使用该设置可告知 Googlebot 只抓取其中包含 sort=price_low
的网址(这样可以避免抓取重复内容)。 pricefrom
和 priceto
等参数的网址(例如 http://www.examples.com/search?category=shoe&brand=nike&color=red&size=5&pricefrom=10&priceto=1000
),这样可以避免不必要地抓取已通过 http://www.examples.com/search?category=shoe&brand=nike&color=red&size=5
获取的内容。 单个网址中可能包含多个参数,您可以为每个参数分别指定设置。限制性较高的设置会替换限制性较低的设置。以如下三个参数及其设置为例:
Google 会根据这些设置抓取以下网址:www.example.com?shopping-category=DVD-movies&sort-by=production-year&sort-order=asc
,
但不会抓取以下网址:www.example.com?shopping-category=shoes&sort-by=size&sort-order=asc
。这是因为上述设置告知 Google 只抓取 sort-by
参数值等于 production-year
的网址。由于鞋类从不按生产年份进行排序,因此该设置的限制性过高,会导致大量内容未能抓取。
如果您的网站发布的内容可通过多个网址进行访问,那么您可以指定一个规范(首选)版本的网址,从而对网址在搜索结果中的显示方式加以更多控制。您可以使用参数处理工具实现此目的,也可以在首选网址的 HTML 源中添加 rel="canonical"
元素,以向 Google 提供更多信息。(要使用 rel="canonical"
,您需要确保能够修改自己网页的源代码。)有关规范化的详细信息。请使用最适合您的选项;如果您希望万无一失,可以同时使用两个选项。