国内最全IT社区平台 联系我们 | 收藏本站
华晨云阿里云优惠2
您当前位置:首页 > php开源 > php教程 > 通过PHP程序知道蜘蛛是否访问你的网站(附代码)

通过PHP程序知道蜘蛛是否访问你的网站(附代码)

来源:程序员人生   发布时间:2014-06-13 06:42:43 阅读次数:2236次

搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的,我们不能使用JS代码来取得蜘蛛的Agent信息,但是我们可以通过image标签,这样我们就可以得到蜘蛛的agent资料了,通过对agent资料的分析,就可以确定蜘蛛的种类、性别等因素,我们在通过数据库或者文本来记录就可以进行统计了。

数据库结构:

  1. # 表的结构 `naps_stats_bot` 
  2.  
  3. CREATE TABLE `naps_stats_bot` ( 
  4. `botid` int(10) unsigned NOT NULL auto_increment, 
  5. `botname` varchar(100) NOT NULL default ''
  6. `botagent` varchar(200) NOT NULL default ''
  7. `bottag` varchar(100) NOT NULL default ''
  8. `botcount` int(11) NOT NULL default '0'
  9. `botlast` datetime NOT NULL default '0000-00-00 00:00:00'
  10. `botlasturl` varchar(250) NOT NULL default ''
  11. UNIQUE KEY `botid` (`botid`), 
  12. KEY `botname` (`botname`) 
  13. ) TYPE=MyISAM AUTO_INCREMENT=9 ; 
  14.  
  15. # 导出表中的数据 `naps_stats_bot` 
  16.  
  17. INSERT INTO `naps_stats_bot` VALUES (1, 'Googlebot''Googlebot/2.X ( http://www.googlebot.com/bot.html)''googlebot', 0, '0000-00-00 00:00:00'''); 
  18. INSERT INTO `naps_stats_bot` VALUES (2, 'MSNbot''MSNBOT/0.1 (http://search.msn.com/msnbot.htm)''msnbot', 0, '0000-00-00 00:00:00'''); 
  19. INSERT INTO `naps_stats_bot` VALUES (3, 'Inktomi Slurp''Slurp/2.0''slurp', 0, '0000-00-00 00:00:00'''); 
  20. INSERT INTO `naps_stats_bot` VALUES (4, 'Baiduspider''Baiduspider ( http://www.baidu.com/search/spider.htm)''baiduspider', 0, '0000-00-00 00:00:00'''); 
  21. INSERT INTO `naps_stats_bot` VALUES (5, 'Yahoobot''Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)''slurp', 0, '0000-00-00 00:00:00'''); 
  22. INSERT INTO `naps_stats_bot` VALUES (6, 'Sohubot''sohu-search''sohu-search', 0, '0000-00-00 00:00:00'''); 
  23. INSERT INTO `naps_stats_bot` VALUES (7, 'Lycos''Lycos/x.x''lycos', 0, '0000-00-00 00:00:00'''); 
  24. INSERT INTO `naps_stats_bot` VALUES (8, 'Robozilla''Robozilla/1.0''robozilla', 0, '0000-00-00 00:00:00'''); 

PHP程序:

  1. error_reporting(E_ALL & ~E_NOTICE); 
  2.  
  3. function get_naps_bot() 
  4. $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); 
  5.  
  6. if (strpos($useragent'googlebot') !== false){ 
  7. return 'Googlebot'
  8.  
  9. if (strpos($useragent'msnbot') !== false){ 
  10. return 'MSNbot'
  11.  
  12. if (strpos($useragent'slurp') !== false){ 
  13. return 'Yahoobot'
  14.  
  15. if (strpos($useragent'baiduspider') !== false){ 
  16. return 'Baiduspider'
  17.  
  18. if (strpos($useragent'sohu-search') !== false){ 
  19. return 'Sohubot'
  20.  
  21. if (strpos($useragent'lycos') !== false){ 
  22. return 'Lycos'
  23.  
  24. if (strpos($useragent'robozilla') !== false){ 
  25. return 'Robozilla'
  26. return false; 
  27. $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); 
  28. //添加蜘蛛的抓取记录 
  29. $searchbot = get_naps_bot(); 
  30. if ($searchbot) { 
  31. $DB_naps->query("UPDATE naps_stats_bot SET botcount=botcount 1, botlast=NOW(), botlasturl='$tlc_thispage' WHERE botname='$searchbot'"); 
  32. ?> 
生活不易,码农辛苦
如果您觉得本网站对您的学习有所帮助,可以手机扫描二维码进行捐赠
程序员人生
------分隔线----------------------------
分享到:
------分隔线----------------------------
关闭
程序员人生