博百优:网络编辑做关键词与内链的seo

没有评论 2010年7月7日

 网络编辑也要懂网站seo? OK,作为网络编辑你可以不懂,不过学习学习网站seo,对网站编辑而言不是坏事。虽然网站seo跟网编的日常工作不是很能挂上钩,作为网络编辑的你,最常用的seo就是文章关键词和内链了。
    就算你作为网站编辑对网站seo一无了解,但这两个词很好理解,关键词即为在文章中合理的设置关键词的布局,内链即为在文章中搭建文章与文章之间的超级链接。
    关键词如何布局?
    一般是文章的开头和结尾处一定要有关键词,然后网络编辑让它在文章中间自然出现几次。有人说靠文章标题来吸引眼球,但这只对你的忠实用户有用。对搜索引擎而言,一定要在文章中加入符合算法的关键词布局,让你的关键词排到搜索引擎的前几位去。
    标题如何seo?
    网站编辑应尽量找出比较热门、跟文章内容相关的、又符合搜索习惯的词,再进行组合。有时网编们也得做做标题党。
     标题seo好了,再来看搜索引擎收录文章时给文章的描述。这是网络编辑做文章seo的重点。文章的第一段经常被搜索引擎当作是页面描述,所以在文章的第一段马上突出关键词, 3-5个就ok。没有?我们网络编辑就得自己编了。
     再来看关键词内链建设。
    内链对文章页面能够获得好排名有非常大的作用,外链基本没用。别人不会给你的一个文章做上友情链接,即便是转载,你也无法保证这样的链接能够在二次转载时还能保留,更重要的是这样的链接不会有很高的权重。合理的内链可以突出文章页面的主题,从而使引擎将该页面按照你的想法归类。熟悉网站seo的朋友都知道点石,搜索seo,google是第一位,但是他的标题,描述,关键词等都没有出现seo,然而正是点石的内部链接突出了点石的主题,搜索引擎才会将点石归类为seo类网站。
    内链seo方案:
 
    将标题中出现的关键词适当的组合后加入文章。例如,标题为中国百度离职员工:年前遭遇三分钟闪电大裁员。那么文章中应该适时的出现“百度大裁员”,“百度离职员工遭遇节前裁员”等等相关文字,针对于这样的文字,就可以添加超级链接,链接直接指向这篇文章。如果不止一篇这样的文章,就可以指向另一篇。
     做内链还有一种方式,就是根据网站的目标关键词来做内链。譬如宠友网,是做宠物用品这个关键词的,文章中如果出现了宠物用品,就可以将它做链接,指向首页,这也会提高网站的关键词权重。
     关键词和内链是网络编辑工作中不可或缺的元素,同样也是网站编辑做网站seo的重点。如果我们网编都能使好这两样**的话,那么我们就不止是简单网络编辑了,而是具有更高水准的网络编辑+seoer。那时,网站编辑的地位才会更高,因为你的seo技术给网站带来更实际的价值——流量。 (本文来源:网络编辑之家eastit.cn,转载请注明出处 )

博百优:网站内容的采集方法和更新方法 

1条评论 2010年7月5日

今天为大家写一套 百度 SEO 优化 全套教程
这个教程都是本人自己实践得到的经验
一些SEO新手总是喜欢把已经优化好的网站再做宣传,在实践中认为,先把网站权重做好再做SEO优化效果比先做优化的好!
我做过一些站,百度三个小时收录首页,下面我来说说如何让百度在三天之内收录你的网页
准备好你要的程序,一定要在自己的电脑上把程序编好再上传到你的空间或服务器上
(******空间要速度快,稳定,这样的空间一般要300元左右,不要舍不得钱,舍不得孩子,套不着狼,狼没打着,孩子到丢了!呵呵)
不会编的可以上网上找找一些源码(要开源的哦,要不然以后你可不好改,最少你也得会HTML吧 ,不会的要学哦,很简单了,就几个英文不到50个)

好了,我想大家这几天新建的站百度也应该有收录了吧(当然得按我的方法去做哦,被K的域名没办法)
今天为大家讲的是内容的采集、采集的方法、更新的速度、更新的时间和更新的频率(这可跟你的网站收录有关哦!)

1.瞄准你要采集的目标,开火!(采集的方法和技巧)

第一步,找好你要采集的目标(也就是你要采集的站哦!)
问:采集怎么目标对我的网站好呢
答:当然是你采集的内容与你的网站有所关联的比较好
问:怎么找我要的目标呢
答:找啊,上百度去要,要你要的关键词站(不要采集大站,因为大站很多人在采集)

第二步,写好采集,开始采吧
问:采集多少比较好呢
答:采集的越多越好,当然不要超过1000篇,也就是说每个版块都要采集点,看你的网站大小,因人而定(下面会告诉你采集比例是多少)
问:采集的文章怎么变成原创
答:这就是学问了,你要是有钱,可以找人写个采集,把文章前100个字去掉,或者采集博客,或者采集评论都可以(没有钱的可以用第二、三种方法)

第三步,采集篇数和你网站的模版有关
问:为什么和模版有关呢?
答:模版的布局直接影响百度的抓取和网站收录
问:到底采集多少啊(有点急了)
答:不急,面包会有的。比如:你的网站首页有100个链接直接链接到你的内页上了(也就是说你的文章页),那你就要更新最少50篇以上,而且每个版块都要更新。比如:首页有10个版块的内容链接(10*10=100链接),那么你每个版块都要更新5篇以上的内容!

第四步,采集要找最新的内容
问:我找最好的内容不就得了!内容又好,又能留住用户
答:留住用户当然是好,但是网络那么大,你怎么能到那么多的经典的东西,等你找到了,几千个网站已经都转载了,等你转载了,已经成为过去式了
问:怎么才能找到那么多的新内容来让我采集,又不让采集大站
答:你采集一个原创内容多的网站,比如小说了,评论的内容了,博客文章了等等(这得因站的大小而定,大站要多采集,小站不要采集过多)

【注:新站在建站之后不要急于宣传,网站一定要有内容之后再去宣传】

2.坚持更新、更新方法和技巧(坚持就是胜利!)

第一步,找准你要更新的时间
问:更新还要找时间啊,想更新就更新呗!
答:错。更新当然要找好意思了,因为百度的蜘蛛是有规律了,不是你想更新,百度蜘蛛就能来的
问:我看一些大站也没有什么规律啊,想采就采,想加内容就加内容
答:大站,大站权重都是非常高的,等你的站权重够高,可以想采就采,想加就加,但是你现在不是新站吗,权重还很低!
问:百度蜘蛛什么时候来啊
答:跟你的网站更新规律而来!你几点更新,它就几点来

第二步,采集更新的技巧
一个网站的更新是要有技巧的,采集早了没有内容,采集晚了,都被别的站采集走了,下面我来说说采集更新的技巧
问:第一时间采集不就得了
答:第一时间采集是好,但是你的更新规律不就没了,对于一个新站来说,还是有规律的比较好

第三步,更新内容的原创性
一个网站的内容原创性直接影响网站的权重
问:都是采集的站,采集的东西又那么多,怎么让他变成原创
答:当然,每天采集100篇文章是够你受的了,但是,经过我的实践发现,采集的内容不一定都要变成原创(都是原创最好了)
问:什么意思,什么叫不都要变成原创
答:比如你采集了100篇内容,我们把20%的内容变成原创,这样又能减少时间能又提高工作效率,我们把20%的原创内容都推荐到首页(怎么推荐,自己研究吧,因程序而定)
问:为什么推荐到首页
答:我们为了让百度蜘蛛能够良好的抓取到原创的内容,从而让百度知道,我的网站不是垃圾站

第四步,定制每天的更新量和采集的时间
为了让网站能够快速得到权重,我们要定制一个时间表,也就是说,我们每天几点更新,几点采集,采集多少,这都要有一个明确时间
比如:今天我晚上7点更新完(采集内容已经处理好),那么以后天天晚上7点更新完,
问:7点更新完,那么我要几点开始更新呢
答:对于一个采集站来说,采集最多也就用个十几分钟,再有几分种的时间去做原创,再推荐到首页(因人而定)

好了,今天的内容说完了,下面有一个要注意的事项!
1.采集不要采集大站,不要和大多数网站采集的一样
2.要坚持更新网站,
3.更新完网站之后,要做宣传的,也就是第一章说的东西,坚持宣传
4.多做友情链接(10天做一个也不错哦,有时候发现,你一天会做好几个的)

说明下列问题的重要性:
1.你会发现,在1个月或2个月左右的时间你的网站只收录了首页。不要急,因为你的站还审核之中
2.你会发现,在一段时间内你的收录数会突然的增加,然后又减少。不要担心,这是一个很正常的现在,因为你的网站权重正在增加,网站会有波动的现象
3.你会发现,在很长的一段时间内SITE 网站首页不在第一页上,但是直接输入域名,首页还有。没关系,说明我们要去增加友情链接了

重要内容:
1.我们现在不是在做优化,我们是在做网站的权重
2.我们现在的IP少的可怜,一天只有几个,或都十几个,
3.发现权重有所增加,为了急于求成,马上做忧化,错误的,不要这么做,容易被K或收录减少
4.权重稳定时,再做忧化,不要一气呵成,慢慢的做忧化
5.好了,只能想到这么多
6.等我出完第三篇大家就可以进行实战,要结合三章文章的东西进行对网站的分析

新手建站的必备条件
1.空间或服务器要稳定,速度要好
2.源码要开源的,为了以后的忧化
3.你要懂得HTML,优化必备条件
4.要坚持,要有耐心
5.一定要宣传,用心的宣传(不要用群发工具)
6.做好友情链接

没了,今天的课程结束了,今天主要的就是坚持更新,和更新的技巧,说一说下面的课程(可能有所变成)
1.新站建立和百度快速收录方法
2.内容的采集方法和你的坚持(今天发的哦)
3.初级百度SEO优化
4.中级百度SEO优化
5.高级百度SEO优化
6.单关键词快速优化
7.长尾词优化
8.网站模试与发展
9.网站盈利与广告优化
10.如何留住你的用户

来自 网络 (不原创的博百优也可以做到第一页 哦)

博百优:谈谈采集的免费电影站如何提高百度权重

没有评论 2010年7月5日

这是我在站长网发的第一篇文章,写得不好之处请见谅。现在越来越多的人喜欢做电影站,因为电影站架设简单,不需要什么技术和精力就可以完成,现在几乎所有的电影程序都自带有采集功能,所以现在的采集电影站就一个接一个如雨后春笋般出现,但采集来的电影有一个共同的特点,名字几乎一样(其实无论你是采集和手工加,电影名字都是一样的),百度随便搜索一部电影名字,都能搜到上百页的数据,也许你的网站也是这上百页数据中的一员,但别人能翻到99页以后去点你的链接吗?就算有也很少。在这种情况下,我们不得不想方设法的去提高百度的排名,下面我就介绍一下我对采集电影站提高百度排名的几点认识。

  我是2008年就开始做电影站的,第一个网站域名是(www.55kb.com),当时用的程序是网猫,选的关键词是快播影院和快播电影两个,因为网猫的采集功能不太好,所以当时我的电影全是手工录入的,坚持一个月以后,百度的权重已经排得很高了,最高的时候连续三个月快播影院排名第一,快播电影在第三位,当然,这两个关键词,百度也给我带来了上万的流量。

  2009年7月,正当我的网站慢慢发展的时候,意外发生了,我们这里断网了,一断就断了10个月,我苦心经营的网站也随着断网宣告破产。百度收录和排名就可想而知了。 2010年5月,终于开网了,我又可以开始做我的电影站了,查了一下这个域名,还没到期,备案号也在,呵呵,继续做,但是我以前一直使用的网猫程序已经关门大吉了,不得已我选择了ASP版的马克斯电影程序,马克斯电影采集功能还真是强大,不到半天时间,网站已经建成了,电影数据上万,这是我以前想都不敢想的,然后找了一些老朋友,加了几个链接,每天都是通过采集更新电影,可能因为我的是老域名的原因,不到1天百度就再次收录了(2008年的新站至少要半个月才收录),收了2000页,但是我的关键词排名还是比较低。百度来的流量还是少,已经一个月了,排名也没什么大的变化。

  现在终于说到正题了,因为现在我这个网站才是真正的采集电影站,我到处翻了一些资料,看了一下seo的规则,我也知道网站内容原创的重要性,但是电影网站不同,电影的名字是一样的,没有办法原创,其实跟手工加的效果是一样的,这个百度是不好判断是否采集来的,但为何网站排名就是上不去?后面我想了好久,发现,手工加入至少每2分钟才会加入一条内容,但是采集每一秒钟可以采集好几条内容,网站在短时间内发布太多的内容,百度就会判定这个网站是采集站,被判定采集的内容是要降权的这个大家都知道,那么要怎么做才能欺骗百度,让它觉得这不是采集内容呢,这就是采集的技巧了,我现在电影都不再批量采集,而是每次只采集一部电影,然后过上几分钟再去采集下一部,这样散开发布时间,百度就不会认为这个是采集了,虽然这种方式比批量采集费时间,但总比纯手工录入要好得多,主要是看效果,经过一个星期的观察,发现现在百度的排名已经有所上升了。

  所以我总结,采集的电影站只要你分散开采集的时间,不要批量采集,百度还是会提高你网站的排名的。

  说了这么多,真正的主题不是很多,本人水平有限,再加上是第一次发文,不好之处也不要骂人,最近又建了一个新站 免费电影网站,这个网站建得不久,我也是分散开采集时间,发现对百度排名的效果还不错,大家感兴趣可以试一下。(来自网络)

博百优:织梦dedecms淘宝客V2.0Beta1发布,旧版1.0采集不到推广地址

3 条评论 2010年7月3日

6月30号,织梦dedecms淘宝客V2.0Beta1发布了客户端,还没有看,期待的人很多,终于出了个与淘宝top 2.0接口一致的版本,我是不太愿意花太多的时间在api上了,淘宝改的太快,dedecms更新有时太慢,版本升级前后兼容性不太考虑,你要用他们的软件自己没点基础,小修小改还得求人 。

dedecms淘客版1.0采集不到推广地址连接了,急,没有技术的头疼了,我看了解决办法如下:

这不,老版本的dedecms 淘宝客采集又出问题了,采集不到推广地址,看了下,原来是淘宝联盟即阿里妈妈,商品的推广地址的生成页面地址变化了,所以dede也就采集不到推广连接了。处理办法,打开dedetaoke.class.php文件,在include文件夹内,修改$exturl = “????”这个为$exturl = “http://taoke.alimama.com/spreader/gen_auction_code.htm?_tb_token_=5735bb8ab50b8&auction_id={$pid}”;,共有两处修改,完毕上传,测试能不能采集到就可以了。(来自网络)

今天看到首页,列表。文章都有友情,于是想只让首页有友情链接,改了下模板,失效。晕了,文章代码如下…

<?php  if ( is_home() ) { ?>
<div><h3><?php _e(‘Blogroll’, ‘xiaohan’); ?></h3>
         <ul>
             <?php wp_list_bookmarks(‘title_li=&categorize=0′); ?>
            </ul>
        </div>
<?php } ?>

另,也有人说是

但如果它之前有个 query_posts(); 则会让它失效

如下解决

<?php wp_reset_query(); if ( is_home() ) { ?>
需要显示的模块
<?php } ?>

测试了下,还是不行...算了。

时代地带SEO:关于购买链接的是与非

2 条评论 2010年7月3日

博百优:

网站外部链接的重要主要也是因为搜索引擎在抓取网站的时候是沿着链接来寻找到最新的网站,通过链接来带给网站最新的权重等,所以网站链接是相对比较重要的一块,并且这种潜规则这也直接让一批链接中间商小赚了一笔,那么我就来说说购买链接的是与非。

1.搜索引擎不会惩罚购买链接的站长?

实际情况是相反,百度正在对出售链接的list进行惩罚,有一些中间商所出售的站点列表中有很多网站导出的链接过多,严重的影响了他们本身网站的质量,搜索引擎首先会对这些网站进行质量的评价,从相关性,内容质量上进行评级,并且会对网站进行权重惩罚。收录,快照等等将会下降。搜索引擎会从源头对出售链接的网站进行打击,站长的网站也将被波及并受到惩罚

2.是不是不赞成购买链接?

搜索引擎一向比较重视网站的质量,主要包括网站的标题,页面的结构,内容,网站的架构,网站的产品,品牌效应,等等这样的几个方面去注重网站的质量。并且一向注重的是对用户友好。搜索引擎是不会让网站仅仅从购买的链接这一途径来提升排名的,所以要做好网站本身的内功,做真正对用户有用的网站,配合适当相关性强的链接,才可以提升网站的排名

那么我们将如何获取高质量的链接?

1.注意链接的相关性:方法,将优化的词汇排名第一页的网站,逐一寻找,进行洽谈。

2.注意网站的质量:方法,查看网站的百度快照,百度蜘蛛爬行次数

3.注意网站的导出链接:查看网站的源代码,导出链接不应过多

提升自身网站的质量,做对用户友好,对用户有用的网站。

总结:搜索引擎会对出售链接的网站进行打击,当然,不会马上就动手操作,而是会逐一清理。据我观察有一部分网站已经被降权等受到一定的惩罚。

我的观点:不赞成购买链接,做好内功,以用户为导向

转载自网络

ERASKY(时代地带SEO)博百优分析网站seo优化之链轮

没有评论 2010年7月3日

最近那个单页的博百优排名一直都很不错,所以吸引了大家的眼球。各位站长纷纷的就对这个站做了分析,他的站就一个页面,外链也不是很多,怎么排名就这么好呢?外链环,专门baidu点击软件,可能最大的优点就在这里吧。这几天一直听大家说链轮的事,并且好多人都说这个站运用了这个seo方法,效果非常的好,所以这里说一些对链轮的一些信息。
  链轮是创建一些web2.0的站点或Blog,诸如百度空间、博客网Blog、新浪Blog、搜狐Blog、网易Blog以及个人独立Blog等,这些站之间进行单向连接形成一个封闭的链轮,并将所有站点指向你的主站,用以提升主站的SERP。
  在我身边,还没见过有人用链轮的方式来做seo。链轮策略与传统的链接有什么区别呢?这个应该不难发现吧。链轮,是好多blog站单向链接形成一个链轮,而传统的链接,只是每个blog站点直接都没有链接,每个blog就指向一个目标站点,这样Blog之间的关系比较松散,也不容易去维护,这也是我们常说的第三方博客没有什么效果的缘故吧!
  有时间可以尝试一下链轮策略,这个感觉效果应该还不错的吧!每个Blog不仅单向指向我们的主站,且Blog之间也相互链接,权重可以传递,达到各自权重提升的效果,而Blog权重的提升,更大幅度地带到了主站权重的提升和排名的提升,为你主站的发展提供了更强劲的动力!
  大家在运用链轮的时候,需要注意的是,每个blog的内容需要与目标站的关键词有相关性。
  链轮策略效果应该还是不错的,不过从别人那里得知,链轮有其缺点:
  ① 耗时,这个应该大家都会想到的。链轮不像单个的站点链接,随便添点文章就可以,需要我们有策略、有计划地更新。
  ② 无聊,每天都是更新再更新。
  ③ 时间长,你想想那么多blog连在一起,要想让目标站有效果,那链轮就需要更多的时间。
  这个链轮策略在我们身边实施的很少,不过我们可以去测试一下,从实践中总结一些经验,从而找到适合我们做优化的更好的方法。本文就写到这。
文章转载自网络

博百优:ASP程序网站生成伪静态的几种方法

没有评论 2010年7月3日

 本文从一个ASP程序员的角度用大量实例祥细介绍了动态网站如何生成静态页面原理,又从一个

采集程序开发者的角度去祥细介绍了网站数据采集的原理及功防策略。
         关于网站生成静态页面,为了让本文读者容易理解,文内列举了目前常用的多种生成静态页面

的方法,其中用了很多的实例代码进行说明。
         关于网站数据采集攻防,作者本身是一个采集程序的开发者,同时作者也收集研究了多种采集

程序,列举了目前国内比较流行的几种防采集策略,并对每种策略作了简单客观的分析评价,希望能给广

大站长们提供一些帮助。此章节也把作者原创的防采集方法奉献给大家,目地是为了让大家了解,防采集

,不防搜索引擎,是可行的,有效的。
声明:希望各位朋友转载时,不要把原有作者版权去掉,谢谢合作。
          由于本人写作水平有限,写的不好的地方,还请大家多多包涵,如要批评或意见,请加我QQ。
目前很多人都开始注重动态页面生成HTML页了,但选择哪种生成HTML的方法和防采集却不防搜索引擎的问

题却经常困扰大家。解决此问题则是本文产生的原因。
作者:务实网络
首先祥细说一下常用的几种生成HTML的方法:
生成HTML方法主要步骤只有两个:
一、获取要生成的html文件的内容
二、将获取的html文件内容保存为html文件
我在这里主要说明的只是第一步:如何获取要生成的html文件的内容:
目前常用获取html文件的内容的方法有几下几种:
1、
[Copy to clipboard] [ - ]CODE:str=”内容”
str=str&”内容数据库读取内容………”
这种方法与是在脚本内写要生成的html内容,不太方便预览生成页面的内容,无法可视化布局页面,更改

html模板时会更加复杂。
用这种方法的人很多,但我感觉这种方法是最不方便的。
2、
制作单独的HTML模板页,动态的内容用特定的字符作为标记(如:有人用$title$标记为网页标题),用

ADODB.Stream或者Scripting.FileSystemObject将其模板内容载入,然后再用替换方法把原先定好的标记

替换为动态内容(如:Replace(载入的模板内容,”$title$”,rs(“title” ) ) )。
3、
用XMLHTTP或serverXMLHTTP获取动态页所显示的HTML内容,
[Copy to clipboard] [ - ]CODE:我常用的生成html文件的实例:
‘—————–务实网络
‘weburl是要获取的动态页地址
‘getHTTPPage(weburl)是获取动态页内容的函数
weburl=”http://”&Request.ServerVariables(“SERVER_NAME”)&”/contact.asp?id=”&rs(“id“)&”"‘指定

动态页地址
body=getHTTPPage(weburl)’用函数取到动态页地址的内容
‘—————–务实网络
此方法最大的好处就是不用费力气专门去写静态的模板页面,只是将原来就有的动态页面转换为HTML静态

页面,但生成速度不是太快。
我常用的生成HTML的方法就是第3种:用XMLHTTP获取动态页生成的HTML内容,再用ADODB.Stream或者

Scripting.FileSystemObject保存成html文件。
第二步是生成文件的方法:
ASP里常用的有用ADODB.Stream生成文件和Scripting.FileSystemObject生成文件两种
1、
Scripting.FileSystemObject生成文件方法:
[Copy to clipboard] [ - ]CODE:’—————–务实网络
Set fso = CreateObject(“Scripting.FileSystemObject”)
File=Server.MapPath(“要生成文件路径和文件名.htm”)
Set txt=fso.OpenTextFile(File,8,True) 
data1=”文件内容”用WriteLine方法生成文件
txt.WriteLine data1
data2=”文件内容”‘用Write方法生成文件
txt.Write data2
txt.Close
txt.fso
‘—————–务实网络
2、
ADODB.Stream生成文件方法:
[Copy to clipboard] [ - ]CODE:’—————–务实网络
Dim objAdoStream
set objAdoStream = Server.createObject(“ADODB.Stream”)
objAdoStream.Type = 1
objAdoStream.Open()
objAdoStream.Write(“文件内容”)
objAdoStream.SaveToFile 要生成文件路径和文件名.htm,2
objAdoStream.Close()
‘—————–务实网络
再说一下我对HTML防采集却不防搜索引擎蜘蛛的一些经验:
我开发过几个采集程序,也研究过很多采集程序代码,所以对采集程序的原理还算是稍微有些了解。
先说一下采集原理:
采集程序的主要步骤如下:
一、获取被采集的页面的内容
二、从获取代码中提取所有用的数据
一、获取被采集的页面的内容
我目前所掌握的ASP常用获取被采集的页面的内容方法:
1、用serverXMLHTTP组件获取数据
[Copy to clipboard] [ - ]CODE:Function GetBody(weburl)
‘—————–务实网络
     ‘创建对象
     Dim ObjXMLHTTP
     Set ObjXMLHTTP=Server.CreateObject(“MSXML2.serverXMLHTTP”)
     ‘请求文件,以异步形式
     ObjXMLHTTP.Open “GET”,weburl,False
     ObjXMLHTTP.send
     While ObjXMLHTTP.readyState   4
         ObjXMLHTTP.waitForResponse 1000
     Wend
     ‘得到结果
      GetBody=ObjXMLHTTP.responseBody
     ‘释放对象
      Set ObjXMLHTTP=Nothing
‘—————–务实网络
End Function
调用方法:
GetBody(文件的URLf地址)
2、或XMLHTTP组件获取数据
[Copy to clipboard] [ - ]CODE:Function GetBody(weburl)
‘—————–务实网络
     ‘创建对象
     Set Retrieval = CreateObject(“Microsoft.XMLHTTP”)
     With Retrieval
      .Open “Get”, weburl, False, “”, “”
      .Send
      GetBody = .ResponseBody
      End With
     ‘释放对象
     Set Retrieval = Nothing
‘—————–务实网络
End Function
调用方法:
GetBody(文件的URLf地址)
这样获取的数据内容还需要进行编码转换才可以使用
[Copy to clipboard] [ - ]CODE:Function BytesToBstr(body,Cset)
‘—————–务实网络
         dim objstream
         set objstream = Server.CreateObject(“adodb.stream”)
         objstream.Type = 1
         objstream.Mode =3
         objstream.Open
         objstream.Write body
         objstream.Position = 0
         objstream.Type = 2
         objstream.Charset = Cset
         BytesToBstr = objstream.ReadText
         objstream.Close
         set objstream = nothing
‘—————–务实网络
End Function
调用方法:BytesToBstr(要转换的数据,编码)’编码常用为GB2312和UTF-8
二、从获取代码中提取所有用的数据
目前我掌握的方法有:
1、用ASP内置的MID函数截取需要的数据
[Copy to clipboard] [ - ]CODE:Function body(wstr,start,over)
‘—————–务实网络
start=Newstring(wstr,start)
‘设置需要处理的数据的唯一的开始标记
over=Newstring(wstr,over)
‘和start相对应的就是需要处理的数据的唯一的结束标记
body=mid(wstr,start,over-start)
‘设置显示页面的范围
‘—————–务实网络
End Function
调用方法:body(被采集的页面的内容,开始标记,结束标记)
2、用正则获取需要的数据
[Copy to clipboard] [ - ]CODE:Function body(wstr,start,over)
‘—————–务实网络
Set xiaoqi = New Regexp’设置配置对象
xiaoqi.IgnoreCase = True’忽略大小写
xiaoqi.Global = True’设置为全文搜索
xiaoqi.Pattern =   “”&start&“.+?”&over&“”‘正则表达式
Set Matches =xiaoqi.Execute(wstr)’开始执行配置
set   xiaoqi=nothing
body=”"
For Each Match in Matches
body=body&Match.Value ‘循环匹配
Next
‘—————–务实网络
End Function
调用方法:body(被采集的页面的内容,开始标记,结束标记)
采集程序祥细思路:
1、取得网站的分页列表页的每页地址
目前绝大部分动态网站的分页地址都有规则,如:
动态页
第一页:index.asp?page=1
第二页:index.asp?page=2
第三页:index.asp?page=3
…..
静态页
第一页:page_1.htm
第二页:page_2.htm
第三页:page_3.htm
…..
取得网站的分页列表页的每页地址,只需要用变量替代每页地址的变化的字符即可如:page_.htm
2、获取被采集网站的分页列表页内容
3、从分页列表代码中提取被采集的内容页面的URL连接地址
绝大部分分页页面里的内容页连接也有固定规则,如:
连接1
连接2
连接3
用以下代码就可以获得一个URL连接集合
[Copy to clipboard] [ - ]CODE:’—————–务实网络
Set xiaoqi = New Regexp
xiaoqi.IgnoreCase = True
xiaoqi.Global = True
xiaoqi.Pattern =   ””“.+?”““
Set Matches =xiaoqi.Execute(页面列表内容)
set   xiaoqi=nothing url=”"
For Each Match in Matches
url=url&Match.Value
Next
‘—————–务实网络
4、取得被采集的内容页面内容,根据”提取标记“从被采集的内容页面分别截取要取得的数据
因为是动态生成的页面,大多数内容页面内都有相同的html标记,我们可以根据这些有规则的标记提取需

要的各个部分的内容。
如:
每个页面都有网页标题网页标题,用我上面写的MID截取函数就可以获得之间的值,也可以用正则表达式

来获得。
例:body(“网页标题”,”",”")
介绍完采集器的祥细原理后,就开始说一下防采集的策略。
目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:
一、判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问
弊端:
1、此方法只适用于动态页面,如:asp\jsp\php等…静态页面无法判断某个IP一定时间访问本站页面的

次数
2、此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多

线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件
采集对策:只能放慢采集速度,或者不采
建议:做个搜索引擎蜘蛛的IP库,只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集,

也不太容易,一个搜索引擎蜘蛛,也不一定只有一个固定的IP地址。
评论:此方法对防采集比较有效,但却会影响搜索引擎对其收录。
二、用javascript加密内容页面
弊端:此方法适用于静态页面,但会严重影响搜索引擎对其收录情况,搜索引擎收到到的内容,也都是加

密后的内容
采集对策:建议不采,如非要采,就把解密码的JS脚本也采下来。
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。
三、把内容页面里的特定标记替换为”特定标记+隐藏版权文字“
弊端:此方法弊端不大,仅仅会增加一点点的页面文件大小,但容易反采集
采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。
建议:目前没有好的改良建议
评论:自己感觉实用价值不大,就算是加上随机的隐藏文字,也等于画蛇添足。
四、只允许用户登陆后才可以浏览
弊端:此方法会严重影响搜索引擎蜘蛛对其收录
采集对策:目前落伍已经有人发了对策文章,具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表

单的提交以及cookies或session的发送》
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的


五、用javascript、vbscript脚本做分页
弊端:影响搜索引擎对其收录
采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。
建议:目前没有好的改良建议
评论:感觉懂点脚本语言的人都能找出其分页规则
六、只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER”)
弊端:影响搜索引擎对其收录
采集对策:不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的


从以上可以看出,目前常用的防采集方法,要么会对搜索引擎收录有较大影响,要么防采集效果不好,起

不到防采集的效果。那么,还有没有一种有效防采集,而又不影响搜索引擎收录的方法呢?那就请继续往

下看吧,精彩的地方马上呈献给大家。
下面就是我的防采集策略,防采集而又不防搜索引擎
从前面的我讲的采集原理大家可以看出,绝大多数采集程序都是靠分析规则来进行采集的,如分析分页文

件名规则、分析页面代码规则。
一、分页文件名规则防采集对策
大部分采集器都是靠分析分页文件名规则,进行批量、多页采集的。如果别人找不出你的分页文件的文件

名规则,那么别人就无法对你的网站进行批量多页采集。
实现方法:
我认为用MD5加密分页文件名是一个比较好的方法,说到这里,有人会说,你用MD5加密分页文件名,别人

根据此规则也可以模拟你的加密规则得到你的分页文件名。
我要指出的是我们加密分页文件名时,不要只加密文件名变化的部分
如果I代表分页的页码,那么我们不要这样加密
page_name=Md5(I,16)&”.htm”
最好给要加密的页码上再跟进一个或多个字符,如:page_name=Md5(I&”任意一个或几个字母”,16)

&”.htm”
因为MD5是无法反解密的,别人看到的会页字母是MD5加密后的结果,所以加人也无法知道你在 I 后面跟

进的字母是什么,除非他用暴力****MD5,不过不太现实。
二、页面代码规则防采集对策
如果说我们的内容页面无代码规则,那么别人就无法从你的代码中提取他们所需要的一条条内容。
所以我们要的这一步做到防采集,就要使代码无规则。
实现方法:
使对方需要提取的标记随机化
1、定制多个网页模板,每个网页模板里的重要HTML标记不同,呈现页面内容时,随机选取网页模板,有

的页面用CSS+DIV布局,有的页面用table布局,此方法是麻烦了点,一个内容页面,要多做几个模板页面

,不过防采集本身就是一件很烦琐的事情,多做一个模板,能起到防采集的作用,对很多人来说,都是值

得的。
2、如果嫌上面的方法太麻烦,把网页里的重要HTML标记随机化,也可以。
做的网页模板越多,html代码越是随机化,对方分析起内容代码时,就越麻烦,对方针对你的网站专门写

采集策略时,难度就更大,在这个时候,绝大部分人,都会知难而退,因为这此人就是因为懒,才会采集

别人网站数据嘛~~~再说一下,目前大部分人都是拿别人开发的采集程序去采集数据,自己开发采集程序

去采集数据的人毕竟是少数。
还有些简单的思路提供给大家:
1、把对数据采集者重要,而对搜索引擎不重要的内容用客户端脚本显示
2、把一页数据,分为N个页面显示,也是加大采集难度的方法
3、用更深层的连接,因为目前大部分采集程序只能采集到网站内容的前3层,如果内容所在的连接层更深

,也可以避免被采集。不过这样可能会给客户造成浏览上的不便。
如:
大多网站都是 首页—-内容索引分页—-内容页
如果改成:
首页—-内容索引分页—-内容页入口—-内容页
注:内容页入口最好能加上自动转入内容页的代码
[Copy to clipboard] [ - ]CODE:其实,只要做好防采集的第一步(加密分页文件名规则),防采集的效果

就已经不错了,还是建议两条反采集方法同时使用,给采集者增加采集难度,使得他们知难页退。
至此,全文完,欢迎大家在此讨论与此相关技术,谢谢!
作者:务实网名

博百优:GOOGLE搜索引擎蜘蛛爬行规律分析

1条评论 2010年7月2日

什么是GOOGLE搜索引擎蜘蛛?当GOOGLE搜索引擎刚建立之初,就拥有这一个非常强大的的服务器,其每天放出大量的蜘蛛,我们称为1号蜘蛛,其抓取量抓取速度是非常的快,对其整个互联网每天进行信息进行的采集,可见服务器的速度是多少快。其实最主要的是后期GOOGLE将服务器延伸到了很多城市,所以现在你能发现GOOGLE的运算速率是超前的快。服务器将采集的信息分类,整理,到庞大的数据库。其中有个数据库都是用来存网站域名的。域名只要被搜索引擎索引到,将自动存入此数据库。此数据库是1号蜘蛛的核心。其内部分为10个PR各等级的小数据库,虽说小数据库,但也是大的可怕-。

  10个等级的数据库其周期也不同,基本上以一个PR=4的网站来讲1号蜘蛛爬行的概率也在7天一次。所以基本你也会发现收录有大的幅度也是在7天内的某一天。细心的站长会发现其实有时候7天还是蛮准的,但只针对PR=4,越是PR高其周期越是短,越是PR低周期越长,当然说到这很多站长有这样的疑惑,会觉得蜘蛛有时天天收录他的站。这里对其收录的也就是接下来要说的2号蜘蛛,2号蜘蛛往往是在1号蜘蛛爬行过程中放出去的,主要针对于被1号蜘蛛爬过的网站的外部链接。既然都说是2号蜘蛛肯定其抓取力度要比1号小很多。当然不只是有2号,还有3号蜘蛛。所谓3号也就A站1号蜘蛛爬行到B站,B站的2号蜘蛛爬行到C站。

  目前GOOGLE为了限制其无限的循环对于蜘蛛只分为这三个等级.,并对其等级的抓取率有个很明确的标准,而且2号与3号蜘蛛有个抓取特点基本以时间的先后顺序进行抓取。例如:我的网站www.erasky.com被1号蜘蛛爬行后的一篇文章最后时间为2010年6月12日,那当我的网站被从别的网站过来的2号蜘蛛给爬行,首先有可能会对其收录的是最近发表的几篇文章如:2010年6月11日,或者2010年6月10日等文章将会进行第2次,第3次的访问,之后再爬行2010年6月12以后的信息。如果你网站没有任何更新,它将对其近一个月内的更改内容进行2次爬行。如果外部来的2号与3号蜘蛛越多,同一篇文章有可能会被爬上好几次。

  这是GOOGLE搜索引擎蜘蛛的爬行规律,谷歌公司提供的官方数据

  1号蜘蛛

  基本抓取率在5%~10%。

  基于PR=0没有任何导入链接与提交时有可能被抓取的周期在6个月~12个月不等。

  基于PR=1没有任何导入链接与提交时有可能每次被抓取的周期在4个月~8个月不等。

  基于PR=2没有任何导入链接与提交时有可能被抓取的周期在2个月~4个月不等。

  基于PR=3没有任何导入链接与提交时有可能被抓取的周期在1个月~2个月不等。

  基于PR=4没有任何导入链接与提交时有可能被抓区的周期在1周~1个月不等。

  当然没有任何导入链接的网站无法做到PR=4

  最高也只有PR=3。

  上述此数据只是GOOGLE官方提供的一个基数。

  意思也就是1号蜘蛛主动爬取你网站的周期数。

  对于2号或者3号蛛爬取你的网站,也就根据你的导入链接而定。

  所以你会发现你的网站有时天天在被更新。

  2号蜘蛛

  基本抓取率是2.5%~5%(基于1号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问)。

  3号蜘蛛

  基本抓取率为1.25%~2.5%(基于1号蜘蛛与2号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问)。

博客URL结构处理的最好方式

1条评论 2010年7月2日

相信很多人都对博客的URL的形式有不同的忽略,就连我都将自己博客的URL结构忽略了,不过我自己的另外一个用WordPress建的博客注意到了这一点,因为有相关URL的插件解决这一问题。现在这个博客是用Z-Blog建的,当初没有考虑这么多,后来想改URL,建博时间比较长,怕更改URL结构对搜索引擎收录不利,所以现在一直都是小规模的改动。包括博客结构,也是一直小规模的变动。

  针对我的WordPress博客的URL结构,简单说下博客URL结构的最好形式,我针对的是SEO方面。好的URL更加有利于排名及收录。

  1、博客URL的长度

  在博客URL里最好不要超过3-5个关键词,据说如果超过5个关键词,该url的权重就会被相应的降低。当然这个是相对的,并不是超过5个关键词的URL就不会取得好的排名,毕竟URL只是SEO中的一部分。据相关可靠数据研究显示,在排名较好的位置里面,较短的URL获得的点击率是长的2倍,所以为了你的排名和点击率,博主们最好还是用较短的URL。

  2、“-”比“_”好

  很多博主在很多资料里面都听说过,例如“A_B”对于搜索引擎来说只有搜索“A_B”才会返回对应的结果,而“A-B”,搜索“A”、“B”、甚至“AB”,都能得到返回结果,这样的几率明显比前者大得多。

  3、尽量不要和域名重复

  比如域名是www.cuike.org,那么我们在命名的时候最好不要用www.cuike.org/cuike.html 或者www.cuike.org/cuike-cuike.html 等,毕竟浏览者也不太喜欢这种格式,当然对于国内的浏览者来说可能区别不是那么大,因为他们一般对于URL的关注没有国外那么敏感,不过建议最好还是使用清晰独立的URL,尽量避免和域名重复。

  4、URL最好静态化

  这个已是多次强调的话题了,静态化有利于搜索引擎抓取,另外对于一些必要的转向尽量使用301处理,同时建立一个404导航页面以免出现打开错误时可以帮助导航。

  5、URL里不要有敏感词汇,和谐词汇,可疑词汇,特殊符号等。

  如果你URL含有以上词汇,有可能会被搜索引擎认为作弊的嫌疑,或者不和谐嫌疑,建议去掉。

  6、管理好博客文件扩展

  不要用.exe之类搜索引擎无法识别的文件类型来结尾,这种会导致搜索引擎无法收录,而且很多浏览器对这些也不友好,会自动屏蔽,或者提示网页挂马,发现病毒之类。

博百优:从博百优谈论老域名跟新域名在百度的权重

2 条评论 2010年7月1日
博百优:自从ADMIN5举行博百优活动后,最近我也经常关性这次活动,一直很想参加,不过最近事情太多了,一直拿不出时间来,只能每晚11点左右才有时间更新下网站,昨晚开始也对这个这博客网站进行博百优优化了,目的没别的,就是简单的宣传,虽然本期百度优化参加的都还不是很多人,不过社会各界的关注还是非常的多的,简单说只要对网络懂一点点的都会关注,而我做这一博客的目的也在于宣传下网站,给网站带来一点流量,而最终结果如何,都接受得了,毕竟做SEO的付出跟回报是成正比的!不过我相信就算排在十几二十页还是会有人关注的!
昨天晚上把本博客的名称改了下:本来是:
百度关键词优化/百度优化-厦门谷悦网络服务有限公司百度优化专家!
昨天就把名称改成这个啦:
博百优-百度关键词优化/百度优化-厦门谷悦网络博百优百度优化专家
早上一上班的时候还是老习惯,关注下网络的近况,结果不小心发现,在百度输入博百优,竟然排到了第四页!!因为之前我这站,也没什么来做优化,而百度优化这词在百度一直排在前四页。
所以感觉这一次对域名的注册时间不限,对有些新站来说就感觉比较不公平了,因为老站在百度里面权重要是本身已经很高了,标题改下,照样排名也是会很不错的,大家在百度输入博百优,翻到十几二十页还是有很多新站发在挣扎着!不过相信对于新手来说,只要对网站更新原创增加的话,想排好的位置也是很简单的!
不过这次博百优百度优化,对于很多新手包括老鸟来说,如果认真分析下,包括对百度最新的算法都会有很大的收获的!