提高网站在Google中的排名3网络毕业论文

2014-11-21 01:24

导读：计算机网络论文论文，提高网站在Google中的排名3网络毕业论文论文样本，在线游览或下载，科教论文网海量论文供你参考：提高网站在Google中的排名3 知己知

提高网站在Google中的排名3


知己知彼——站点访问统计/日志分析挖掘的重要性
网站设计不仅仅只是被动的迎合搜索引擎的索引，更重要是充分利用搜索引擎带来的流量进行更深层次的用户行为分析。目前，来自搜索引擎关键词统计几乎是各种WEB日志分析工具的标准功能，相信商业日志统计工具在这方面应该会有更强化的实现。WEB日志统计这个功能如此重要，以至于新的RedHat 8中已经将日志分析工具webalizer作为标准的服务器配置τ弥一?/P>

以Apache/webalizer为例，具体的做法如下：
记录访问来源：
在Apache配置文件中设置日志格式为combined格式，这样的日志中会包含扩展信息：其中有一个字段就是相应访问的转向来源： HTTP_REFERER，如果用户是从某个搜索引擎的搜索结果中找到了你的网页并点击过来，日志中记录的HTTP_REFERER就是用户在搜索引擎结果页面的URL，这个URL中包含了用户查询的关键词。

在webalizer中缺省配置针对搜索引擎的统计：如何提取HTTP_REFERER中的关键词
webalizer中缺省有针对yahoo, google等国际流行搜索引擎的查询格式：这里我增加了针对国内门户站点的搜索引擎参数设置
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine    sina.com.cn word=
SearchEngine    baidu.com   word=
SearchEngine    sohu.com    word=
SearchEngine    163.com q=

通过这样设置webalizer统计时就会将HTTP_REFERER中来自搜索引擎的URL中的keyword提取出来，比如：所有来自 google.com链接中，参数q的值都将被作为关键词统计下来：，从汇总统计结果中，就可以发现用户是根据什么关键词找到你的次数，以及找到你的用户最感兴趣的是那些关键词等，进一步的，在webalizer中有设置还可以将统计结果倒出成CSV格式的日志，便于以后导入数据库进行历史统计，做更深层次的数据挖掘等。内容来自www.nseac.com

以前通过WEB日志的用户分析主要是简单的基于日志中的访问时间/IP地址来源等，很明显，基于搜索引擎关键词的统计能得到的分析结果更丰富、更直观。因此，搜索引擎服务的潜在商业价值几乎是不言而喻的，也许这也是Yahoo! Altavista等传统搜索引擎网站在门户模式后重新开始重视搜索引擎市场的原因，看看Google的年度关键词统计就知道了，在互联网上有谁比搜索引擎更了解用户对什么更感兴趣呢？

请看本站的反相链接统计：http://www.chedong.com/log/2003_6.log
需要注意的是：由于Google针对Windows 2000中的IE使用的是UTF-8方式的编码，因此很多统计有时候需要在UTF-8方式下查看才是正确字符显示。从统计中能够感受到：在使用水平比较高的IT开发人员中Google已经成为最常用的搜索引擎。而使用百度的用户也已经大大超过了传统的搜狐，新浪等门户站点，因此传统门户网站在搜索引擎上的优势将是非常脆弱的。而从技术的发展趋势来看，以后还会有更多的利用互联网媒体做更深层次数据挖掘的服务模式出现：

转载自cnblog.org——“突发”文字可能揭示社会趋势

在“新科学家”(New Scientist)在线杂志上，公布了康奈尔大学的一个新研究成果，引人注目，也许与Google 收购Pyra 的动机有关。

这所大学的计算机科学家 Jon Klenberg 开发了一个计算机算法，能够识别一篇文章中某些文字的“突发”增长，而且他发现，这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题，因此能够更有效地筛选重要信息。过去很多搜索技术都采用了简单计算文字/词组出现频率的方法，却忽略了文字使用增加的速率。

Jon 特别指出，这种方法可以应用到大量Weblog上，以跟踪社会趋势，这对商业应用也很有潜力。例如，广告商可以从成千上万的个人Blog 中快速找到潜在的需求风尚。而且只要Blog 覆盖话题范围足够大（实际上发展趋势确实如此），这项技术对政治、社会、文化和经济等领域也都会有实际意义了。

（科教作文网http://zw.ΝsΕAc.com发布）

虽然Google 新闻的内部算法至今没有公开，但是人们猜测这种完全由机器所搜集的头条新闻应当不是Google搜索引擎中惯用的鸽子算法，很可能与这种“突发”判断算法有关。如此说来，Google收购Blog工具供应商的举动确实还有更深层次的远见了。

- NewScientist.com news, Word 'bursts' may reveal online trends
- 还没有写完这些介绍，在 SlashDot 上也看到了很多有关这个发现的讨论

附：Google官方的站点设计指南

Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link.  让网站有着清晰的结构和文本链接，所有的页面至少要有一个静态文本链接入口
批注：尽量不要用图片和JAVASCRIPT
Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages.
为用户提供一个站点地图：转向网站的重要部分。如果站点地图页面超过100个链接，则需要将页面分成多个页面。
批注：索引页不要超过100个链接：SPIDER只考虑页面中头100个链接
Create a useful, information-rich site and write pages that clearly and accurately describe your content.
用一些有用的，信息量丰富的站点，清晰并正确的描述你的信息。
Think about the words users would type to find your pages, and make sure that your site actually includes those words within it. 本文来自中国科教评价网
想像用户可能用来找到你的关键词，并保证这些关键词在网站中出现。
批注：少用“最大”，“最好”之类的形容词，用用户最关心的词，比如：下载，歌星名字，而不是一些抽象名词。
Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images.
尽可能使用文本，而不是图片显示重要的名称，内容和链接。GOOGLE的机器人不认识图片中的文字。
Make sure that your TITLE and ALT tags are descriptive and accurate.
保证：页面的TITLE和ALT标记正确的精确描述
Check for broken links and correct HTML.
检查坏链并修正这些HTML错误。
If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.
如果你打算使用动态页面：链接中包含"?"，必须了解：并非所有的搜索引擎的机器人能想对待静态页面一样对待动态页面，保持动态页面的参数尽可能的少也会很有帮助。
Keep the links on a given page to a reasonable number (fewer than 100).
让一个页面中的链接少于100个。
批注：用lynx -dumphttp://www.chedong.com 可以模拟从robot角度看到的页面。其最后有链接统计

输出类似：

   [1]Google Free Search _______________________________ Google Search （科教论文网 lw.nSeAc.com编辑发布）
   (_) Search WWW (_) Search chedong.com

   更新 [2]站点地图 / Site Map [3]留言簿 / Guest Book [4]意见反馈 /
   Feed Back
    ...
References

   Visible links
   1.http://www.google.com/services/free.html
   2.http://www.chedong.com/sitemap.html#sitemap
   3.http://www.chedong.com/guestbook/
   4.http://www.chedong.com/formmail.htm
    ...
   Hidden links:
  50.http://www.chedong.com/bbcweb/

参考资料：

面向Google搜索引擎的网站设计优化
http://www.google-search-engine-optimization.com/

关于Google排名优化的7个误区，如："Meta tag", "泛域名"，首页等

如何评价一个网站的人气
http://www.chedong.com/tech/link_pop_check.html

如何提高网站在Google中的排名——面向搜索引擎的广告模式
http://www.chedong.com/tech/google_ads.html

如何提高网站在Google中的排名——面向搜索引擎的网站链接设计
http://www.chedong.com/tech/google_url.html

Google不断改进相应的算法：HillTop
Hilltop: A Search Engine based on Expert Documents

Google の秘密 - PageRank 徹底解説
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
这篇文章是在查"Google PageRank"的时候查到的，这篇文章不仅有一个算法说明，也是一个Google的weblog，记录了很多关于Google的新闻和一些市场动态信息。
Google 的秘密- PageRank 彻底解说中文版

更详细的PageRank算法说明：
http://pr.efactory.de/

（科教作文网http://zw.ΝsΕac.cOM编辑）

WEB日志统计工具AWStats的使用：增加了Unicode的解码和中国主要门户搜索的定义
http://www.chedong.com/tech/awstats.html

Robots的说明：
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件 robots.txt，在这个文件中声明该网站中哪些内容可以被robot访问，哪些不可以。

反Google站点：观点也很有趣
http://www.google-watch.org/

关于Google的WebLog
http://google.blogspace.com/

搜索引擎相关论坛
http://searchengineforums.com/
http://searchenginewatch.com
http://www.webmasterworld.com/

上一篇：线下推广网站的7种方法网络毕业论文下一篇：没有了