一个纯采集站长的SEO、采集、运维总结

seo知识 深圳seo博主 3年前 (2016-12-05) 1130次浏览 已收录

  我是一个纯采集站长,下面的这些总结,有些是关于关于 SEO,有些是关于采集和运维,都是很基础的个人见解,仅作分享,请自辨好坏是非,实践出真知。

  

一个纯采集站长的 SEO、采集、运维总结

 

  原创好还是采集好?

  当然是原创好,因为百度是这么说的,谁叫人家是裁判。

  为什么我原创了很多文章,还是不收录?收录了没排名?

  一个搜索引擎,它的核心价值是要为用户提供他/她最需要的结果。搜索引擎是有统计网民需求的,对于网民需求量小或者几乎没有需求的内容,即使你是原创也可能被搜索引擎忽略,因为它不想浪费资源在无意义的内容上。

  对网民需求量大的内容,收录应该会比较多、比较快,但是,正因为收录多,即使你是原创,也可能很难挤进排名。

  搜索引擎统计网民需求以什么来标识?

  关键词。每一个人搜索一个关键词时,就表明他/她对这个词相关的内容有需求。而且,使用搜索引擎的人,通常是有问答需求、检索查询需求。当然搜索引擎内部肯定有非常庞大的分析系统,对这些需求进行精确的定位,详见百度指数。比如搜索的关键词是“手机”,很有可能是想要买手机或者查某款的价格,也可能只是想要下载漂亮的壁纸。但是,如果是想要壁纸,就会有更精确的关键词“手机壁纸”,以下拉框或者相关搜索的形式呈现出来。

  既然原创好,为什么要采集?

  1. 虽然原创好,但只要方法适当,采集的效果并不会比原创差多少,甚至比没掌握到方法的那些原创好很多。

  2. 精力有限,原创很难保证长期大量更新,如果请个编辑,投入产出比可能是负数。

  市面上采集器那么多,应该用哪个好?

  每个采集器都有它的独特之处,所谓存在即合理。请根据自己的需求来选择即可。我的采集器是自己开发的,开发的过程中考虑了以下几方面,使用其他采集器的也可作参考:

  1. 直接提供已分类的海量关键词,这些关键词都是百度已经统计的有网民需求的词(有百度指数),或者是这些词的长尾词,来自百度下拉框或相关搜索。

  2. 直接按关键词采集,智能分析网页正文进行抓取,不需要自己写采集规则。

  3. 抓取到的正文经过规范的标签清理,段落全部以

  标签呈现,乱码一律去除。

  4. 根据采集到的内容自动配图,图片一定是与该内容相关度非常高的。以这种方式代替伪原创,既不影响可读性,又使文章图文并茂,做到比原创所提供的信息更丰富。

  5. 正文内容中的关键词自动加粗,也可自定义要插入的关键词。但没有做句子重排、段落重排等影响可读性的所谓“伪原创”功能。

  6. 可直接使用关键词和其相关词组合作为标题,也可抓取目标网页标题。

  7. 可进行微信文章采集。

  8. 不用触发或者挂机。

  9. 集成百度站长平台主动推送,加快收录。

  不同的网站程序,比如织梦、WordPress、dz、zblog、帝国 cms 或者其他,对 SEO 有什么影响?

  理论上没有影响。因为搜索引擎并不知道你是什么程序,或者它可以通过一些规则识别出来,也不可能因为程序本身的不同而影响它的判断。

  那什么会影响 SEO 呢?答案是模板。因为基本上这些程序都有模板机制,同样程序可以输出不同的页面,不同的程序也可以输出同样的页面,这就是模板。模板确定之后,你的每一个页面就按照这个框架来输出,也就是整个 html 结构已经确定。而这些 html,正是搜索引擎要重点关注的,它得从这些 html 中得到它想要的信息。因此,一套好的模板非常重要。

  模板设计应该注意哪些细节?

  1. 权重结构顺序。整个页面的 html 中(注意是 html,而不是显示出来的版面),越靠前的位置,权重越高。由此引申出来,“title”、keyword、description 三个标签,因为最靠前,权重最高。其次通常是导航,也是基本上是最靠上的,权重也非常高。再次就是文章标题和正文。这是根据 html 的前后来排序的。

  2. 因为搜索引擎首先要遵循 W3C 标准,所以,W3C 定义的一些本来就是用来表示重要信息的标签,权重自然就高,比如,特别是 h1,用来表示当前页面最重要的信息,一般每个页面只能有一个,其权重估计与 title 相当,也通常是用来放当前页面的标题,当然也有为了提高首页权重,用 h1 来放置 logo 或首页链接,都是可以的。另外还有 em、strong 这样的标签,用来表示强调,一般认为 strong 权重高于标签,同样也是加粗作用,但我们认为从 SEO 的角度看是没有权重加强的。

  3. css 或者 js 代码对搜索引擎来说通常是无意义的,尽量使用单独的文件来存放,或者在允许的情况下放到 html 尾部去

  网站结构规划应该注意哪些问题?

  1. URL 设计。URL 也是可以包含关键词的,比如你的网站是关于电脑的,你的 URL 中可以包含“PC”,因为它在搜索引擎眼里通常是“电脑”的同义词。URL 不要太长,层次尽量不要超过 4 层,这个就点到为止。

  2. 栏目设计。栏目通常是与导航相关联的,设计时应该考虑网站整体的主题,用户可能会对哪些内容感兴趣,栏目名称最好是网站的几个主关键词,这样也方便利用导航的权重。

  3. 关键词布局。理论上每一个内容页都应该有它的核心关键词,同一个栏目下的文章,尽可能围绕栏目关键词展开。一个简单粗暴的办法就是直接用栏目关键词的长尾词。

  动态、伪静态、静态,这三者哪个好?

  这个不能一概而论,推荐使用伪静态或静态。这三者的区别,是是否生成静态文件,以及 URL 格式是否动态。生成静态文件,本质上是为了加快访问速度,减少数据库查询,但会不断增加占用空间;伪静态只是通过 URL 重写修改 URL,实际上还是每次都要经过程序运算、查询数据库再输出页面,对加快访问速度完全无效。动态与伪静态的差异只在于 URL,带问号加参数。

  所以关注两个点就好:网站打开速度是否够快?你是否需要节约服务器空间?

  不同的网站程序,数据库操作的效率可能不同。一般来讲,内容页数量在 1 万以内的,页面打开速度都是比较快的,数据量更大一些,达到 5 万、十万甚至更多,通常就要考虑静态化了。

  有哪些途径改善访问速度?

  1. 上面已经说到的静态化。

  2. 通常很多网站模板中都有随机调用文章或者类似的版块,事实上对数据库来说,随机是一项比较重的负担,在模板中应该尽量减少随机文章的调用。如果不可避免,可以考虑从数据库上优化,对有索引的字段排序通常比没有索引要快很多。

  3. 将图片、js、css 等不经常修改的文件,放到专用的静态服务器上,多个 js、或者多个 css 能合并的尽量合并到一个文件,减少 http 连接次数。

  4. 使用各类云加速产品。对普通网站来说,免费的百度云加速或者 360 的云加速都还可以。

  文章比较多,网站已经开启静态,但是每次全站更新都要花很长时间怎么办?

  我的做法是使用缓存机制,这里只提供一个思路,可能需要自己二次开发。

  网站设定为伪静态,每一个请求到达时,程序检查是否存在对应的缓存 html 文件,如果该文件的生成时间是多少小时或几天以前,我们判定它需要更新,这时候执行正常流程,程序查询数据库,生成 html 后,写入到缓存文件,再输出到客户端。

  当下一次访问到达时,比如 1 分钟以后又来一个访问相同页面,再次检查缓存文件时间。从时间上可以判断文件非常新,完全不用更新,则直接读取文件内容输出到客户端。这样每个页面都可以实现自动生成,也只有第一个访客会感受到速度慢,后面的访客访问时都相当于是静态访问,速度是非常快的。

  如果是独立服务器,还可以考虑自动检测服务器负载,如果负载本来就高,那就算判断出来需要更新,也暂时不更新,改为直接输出。

  图片是引用远程网址好还是放在自己服务器好?

  这个也是各有优劣。引用远程网址,可以节约自己的带宽,但很可能会因为对方服务器缓慢、或删除资源、或防盗链,图片无法显示。如果下载到自己服务器,当然一切都自己掌控,但是图片会非常占用空间,总体上可能比生成静态所占的空间更大,而且如果访问量大,图片是最吃带宽的。

  网站内链应该怎样优化?

  内链是百度官方推荐的优化手段之一,所以这是一定要做的。通常表现的形式是正文中出现某个关键词,给这个关键词加上一个链接,指向另一个正好是这个关键词相关内容的页面。因此就诞生了一些所谓的优化手法,强行在正文中插入一些关键词和链接,以此进行类似互推的操作。还有的为了提高首页权重,到处都放上网站名称,并做上首页链接,以为这样可以提高目标页面的权重。但是这些很可能都是适得其反,因为搜索引擎会统计每个链接的点击率。如果放在醒目位置点击却很少的链接,有可能会判断为作弊。所以,请只在正文中本来就有的关键词上做内链,就可以了。

  段落重排、句子重排、同义词替换这些伪原创手法到底好不好?

  不好。因为搜索引擎已经智能,已经不是简单的数据库检索,它会自然语义分析(详情请搜索“NLP”),凡是语义解析比较困难的句子或者段落,它是可以判断为可读性差的,所以我认为这些“伪原创”可能是自作聪明。

  评论模块基本上没有人用,该要还是不要?

  要。评论模块最头疼是事情是垃圾评论,通常真正发言的访客很少,垃圾评论一大堆,整天和营销软件斗智斗勇。这里提供一个我已经实现的方案,对收录可能有一定帮助(没有依据的,只是猜测):

  保留评论框、但禁止评论。所有评论由自己的网站程序生成。前面提到搜索引擎会自然语义分析,其中有一项重要的能力,就是情感判断。搜索引擎会计算每条评论的情感值,是 positive(积极)还是 negative(消极),具体倾向是 10%还是 90%。如果评论内容表达的是积极情感,则可以给你的正文加分,反之则减分。至于怎样自动生成积极的评论,就八仙过海各显神通吧。

  这是在网络社交发展起来后的必然趋势,用这种方式来反映一个页面的用户体验度。同理还有分享、点赞等,原理类似。

  绿萝卜算法之后,外链到底还有没有用?

  有用。参见搜索引擎三定律之相关性定律。既然是定律,就不会改变。谁的内容被引用得多,谁就是权威。在主动推送出现之前,外链应该算是蜘蛛认识一个页面内容的第一渠道。

  外链一定要锚文本或者裸链吗?

  不是。搜索引擎肩负重任,要努力发现真正有价值的东西,排除那些没价值的东西。所以有可能你直接提交的链接没收录,在别人地方随便发个纯文本网址,被它发现了,还计算了加分。

  除了锚文本和裸链,还可以用关键词+网址的形式发纯文本。这样在网址前面的那个关键词是会自动与该网址关联的。

  还有,有些链接虽然加了 nofollow 属性,但是在百度计算外链的时候,还是会计算的。

  收录和索引到底什么关系?

  收录表示蜘蛛来抓取过、分析过。索引表示蜘蛛分析之后,认为内容有一定价值。只有进入索引的内容才有可能出现在搜索结果中,展现给用户。也就是说只有索引的内容才有机会带来流量。

  来源:卢松松博客,欢迎分享,微信公众号:izhanzhang


本站 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明一个纯采集站长的 SEO、采集、运维总结
喜欢 (0)
[441079891@qq.com]
分享 (0)
深圳seo博主
关于作者:
我是一个爱折腾网站的草根站长,也是一个玩淘宝的小卖家,欢迎你认识我QQ/微信:441079891