百万伪原创数据,如何提升收录量? - 蝙蝠侠IT
蝙蝠侠IT
SEO专家:专注SEO十五年,关注网络营销推广与新媒体运营 -> 个人微信号:batmanseo
文章1766 浏览10459012

百万伪原创数据,如何提升收录量?

这一段实际上是比较忙,总是在解决一些无关痛痒的问题,可能多半的时间在与收录打交道,每天都会有私信的小伙伴讨论:页面长期不收录的问题。  

特别是对于一些数据量比较大的网站,我们在谈合同的时候,总是感觉非常尴尬,一般情况下,对方的大部分需求都是要优先解决收录问题,而后续再讨论排名问题。  

简单来讲:想要做对方的业务,搞定收录是个前提,但我们都清楚,有的时候“收录与否”对于整站权重与产品转化,并没有太直观的影响。  

理论上,只要有一个页面可以在SERP中展现,我们就可以做很多相关的事情,但毕竟甲方的需求,你懂得,还是要完成的。  

接下来,我简述一个现状:  

①域名年龄:2-3年  

②域名后缀:com  

③网站备案:企业站  

④网站更新数据量:15万+  

⑤网站索引量:1.5万  

⑥网站收录量:1.5万+  

⑦网站库存数据量:90万+(全网采集伪原创)  

⑧网站日均更新量:1万+  

⑨蜘蛛日均抓取:小于1000  

⑩网站主题:健康饮食  

百万伪原创数据,如何提升收录量?

那么,百万伪原创数据,如何提升收录量?  

根据以往提高网站索引量的经验,蝙蝠侠IT,将通过如下内容阐述:  

1、网站诊断  

通常来讲,影响页面收录的一些核心因素,主要包括:内容、结构、速度,在这里我们开篇已经非常明确,内容是全网采集伪原创,简单看了一下,基本上是整合各大知名网站的内容。  

通过伪原创工具,进行批量伪原创整理的内容,甚至有些页面内容结构,都没有得到合理的调整。  

基于现状而言,一个月的调整周期,我们短期改变内容质量本身,很明显是不现实的情况,因此,我们只能从另外两种渠道审查原因,比如:结构。  

经常审查,我们发现:  

①整站结构呈现多目录的情况,一级目录多达84个。  

②网站内容百科主体页面,不存在任何内部链接。  

③网站列表页面存在侧栏调用缺失的情况。  

④网站新增内容,部分页面并没有明显的时间因子。  

⑤网站页面标题,多级分类名称展现,使得标题文字展现超长。  

⑥每日新增内容,很难在首页与站内非相关页面展现。  

⑦页面访问速度3-4秒PC端。  

⑧没有HTML网站地图。  

⑨网站改版过,存在大量的链接,数据量在1万左右。  

简单来看,实际上网站结构性问题,也并不是特别大,初步定位问题的核心更多的是基于内容采集与伪原创问题,但我们仍然需要给出解决方案,帮助用户提高页面收录量,刚好我们之前操作过一个非常类似的网站,情况大致相同,于是在短期我们迅速调整了相关站内策略。  

2、解决方案  

①标准化页面标题  

采用:内容、列表、tag名称+品牌词的形式,比如:SEO标题-品牌词  

将整站所有页面标题统一调整成简短的形式,这个时候有的小伙伴会担心大量调整标题出现降权的情况,我们不能完全保证这个情况不发生,但我们基于有限时间周期内,就需要强势推进调整。  

出现问题在根据实际情况来解决。  

②调用词库搜索结果  

采用这个策略主要是“一石二鸟”的策略,前期为提升页面收录量做辅助,后期为提升整站权重打伏笔,整合行业词库之后,我们选择调用与生成30万个长尾词的搜索结果页。(采用同一目录)  

由于对方网站前期分类目录众多,这给我们创建搜索结果页面,提供了一定的页面结构做支撑,使得搜索结果页面看起来相对丰富。  

每个搜索结果页面匹配的目录调用当下相关性结果。  

同时,确保搜索结果页面是动态变化的,我们在搜索结果页面中,增加调用当天最新内容,随机性内容,随机性搜索结果页面。  

新增页面内容列表确保时间因子展现。  

③建立HTML版本地图  

在这个过程中,由于早期分类目录数量众多,我们短期内,进行有效的目录合并非常不现实,因此,在实际操作的过程中,我们创建了5个HTML版本的网站地图。  

每个页面平均展现20个分类,每个小分类调用最新与随机性内容,进行合理的展现。  

单页面顶部导航展现5个HTML版本的链接入口,提供搜索引擎蜘蛛进行爬行。  

④搭建网站内链结构  

内链结构我们主要分为两个部分,一部分就是现有站内核心排名关键词需要的栏目与内容页的关联,其次,一个策略主要是在15万个页面中,识别长尾关键词新增页面,将这部分页面导入到现有页面中。  

这样我们在站内基本形成一个相对性的循环状态,单页->搜索结果聚合页->展现的每一个单页,然后再次循环下去。  

采用这个策略的核心目的就是希望站内的每一个页面都存在多次被爬行与抓取的几率,从而提升页面的收录量。  

⑤制定输出频率  

网站原因API自动提交的时间周期相对的集中,调整之后,我们采取两个策略,白天提交日均新增的1万个页面,进行每个一个小时平均分配,而晚上时间我们同样提交一万个长尾词的搜索结果页,采用的策略同样是平均分配。  

⑥调整网站速度  

深入和对方运营的技术沟通,合理的优化了数据库维护的策略,同时,升级网站配置和带宽,本打算启用百度云加速,后来我们实测页面打开速度可以有效的控制在1.5秒-2秒PC端。  

3、策略结果  

调整运营时间周期:35天。  

网站收录量新增:7.8万与现有共计快10万。  

网站收录率:近乎13%,15+30+30=75万,已经提交页面。  

实现现有收录量翻倍:近乎7倍。  

新增索引量:采集伪原创页7万,搜索结果页8千。  

网站基础权重:1变2  

总结:从某种程度上页面结构与速度,决定了页面被索引的几率,当整站各项指标变得相对优质之后,对于基础页面的索引也会有明显的提升,上述内容,仍然有诸多细节基于时间因素,没有深入的讨论,而值得思考的是整站权重变化,上述内容,仅供参考!  

蝙蝠侠IT https://www.batmanit.com/p/1648.html 转载需授权!

最后编辑于:2021/11/17作者: 流量君

蝙蝠侠IT·站长:微信号 batmanseo