什么是内容农场-充斥着劣质信息的采集站

2021-12-04 93918阅读 1评论

内容农场

这个充满劣质信息的收集站有一个特殊的名字——内容农场,Wikipedia有一个特殊的条目来介绍它。

内容农场是指为了获取广告费等商业利益或快速生产大量网络文章向等特殊目的,快速生产大量网络文章来吸引流量的网站。这类网站通常找不到作者、管理者、网站负责人,也不会主动管理输出内容,对侵权或错误内容投诉的处理也非常消极。其输出内容大多是缺乏原创性和真实性无法保证的内容,很大一部分是被盗的,是从别人的原创图文中盗译出来的,或者是非专业作家随意拼凑网络文章,所以大多缺乏可靠的来源,质量差,没有参考价值,传播误导性信息,经常掺杂大量广告或恶意程序。

这些网站只是抓住搜索引擎无法衡量内容价值,只使用及其频繁更新速度来获得搜索引擎的青睐,并给予相对较高的权重,甚至不太关注搜索引擎优化,只要频繁更新谷歌本身就会主动爬行。因为真人一眼就能看到这是一个垃圾桶,所以内容农场不会通过社交媒体进行无聊的广播,只是抓住搜索引擎获得流量并达到极端。这种行为是有利可图的,在交通时代,流量实现的门槛真的不高,你可以躺下来收钱。

你对利益的渴望与我无关,但它阻碍了我正常的搜索,所以你不能坐视不管。一些网民热衷于写文章,但他们被垃圾文章占据了原本应该属于前者的搜索结果的高位。真正创造价值的人得不到应有的报酬,但垃圾制造商赚了很多钱。

如果你在搜索内容的领域有大量的爱好者,从业者自发地聚集和创建该领域的论坛、博客等,那么被收集的可能性就会更大。例如,在程序员社区,各种各样的网站,如Stackoverflow、GitHubGitMemory等,许多面向Google编程的Coder没有太多的精力来识别它们,所以他们发送流量。一些大型互联网制造商也率先这样做。

事实上,不仅中文搜索结果被毒害,其他语言的搜索结果也会不时出现在内容农场。然而,在不同程度缺乏开放精神的中国互联网上,主要公司迫切需要将流量存储在信息岛上。例如,公共账户不仅禁止搜索引擎爬行,而且不提供RSS输出,也不允许整理文章聚合工具。想找到更多优秀的公共账户吗?请在社区中相遇。对整体搜索非常不友好。

其实微信官方账号还是有很多不错的内容的。既然搜索引擎无法直接搜索,那就用其他手段骗微信官方账号获取内容,然后整理放在网站上开放给谷歌搜索,补齐微信官方账号文章应该从搜索引擎进来的这部分流量,然后通过这些流量实现。

这种想法甚至有点自然。因此,在某种程度上,国内互联网生态封闭的特点是为内容农场筑势。

除了在你的搜索结果中倾倒垃圾内容外,这个网站有时甚至不满足于你贡献的点击流量,并在页面中植入恶意代码。。。它们是有害的,但没有好处。

面对内容农场,你能做什么?

不管容放在农场里,总是让他恶心自己不行?与其等待谷歌的动作,不如自己处理。

对于搜索者

等待搜索引擎清理网站太长,但我们可以在搜索显示结果之前过滤结果。目前,浏览器插件ublacklist、Personalblocklist、油猴脚本GooogleHithiderbyDomain等都能胜任过滤器的职责。

ublacklist-同时支持规则订阅和标题匹配,也可以借助GoogleDrive或Dropbox在多个设备之间同步配置。您可以通过以下渠道获得ublacklist:ChromeWebStore、FirefoxAdd-ons、MacAppStore。

默认情况下,插件支持处理谷歌中的搜索结果。您还可以赋予插件读取和修改网页数据的权限,并支持必要的修改,如DuckDuck谷歌、Startpage等搜索引擎。安装后,您可以通过搜索结果后面的添加黑名单,使域名下的内容不再出现在您的谷歌搜索结果中。

什么是内容农场-充斥着劣质信息的采集站  内容农场 内容价值 采集站 第1张

同时,您也可以点击上面的显示暂时显示屏蔽域名下的条目,这些条目也会被显眼的颜色标记。

什么是内容农场-充斥着劣质信息的采集站  内容农场 内容价值 采集站 第2张

暂时显示ublacklist的条目。

您有多态设备,不需要在每个设备中配置一次,可以在插件选项中设置同步选项。

什么是内容农场-充斥着劣质信息的采集站  内容农场 内容价值 采集站 第3张

对于上述小XX网拥有数千个单独域名的内容农场来说,指望用户逐一添加显然是不现实的。每个人都有很高的拾柴火焰。我们可以订阅社区维护规则列表,更方便快捷地过滤掉许多域名。此订阅可根据需要更新,不需要太频繁。

什么是内容农场-充斥着劣质信息的采集站  内容农场 内容价值 采集站 第4张

关于订阅规则,我暂时只推荐几个。欢迎路过的老板给出更多评论。

中文搜索结果黑名单:一条维持了4年的规则,GitHub在本文写作时已经有了4.4kstar。

小X知识百科网清单:针对g.penzai.com及其数千个分离域名的规则,可用于处理最近突然爆发的小XX网。

针对机翻StackOverflow和GitHub采集站的规则。

这个方案的缺点也很明显。除了iOS15Safari目前支持插件外,几乎所有其他移动主流浏览器都不支持插件。在移动设备中搜索可能只能忍受主页上的劣质内容。哦不,Firefox、Kiwibrowser等浏览器支持安装和扩展。如果你愿意放弃Chrome及其背后的谷歌生态,拥抱可能分离的移动浏览器体验,这也是一个选择。

对于创作者

首先,感谢你的存在。正是因为你,中国互联网才不会那么凹槽。你不是无尽夜晚的星星。

为了防止你的辛苦被别人窃取,自然要采取一些措施来防范。

robots.txt肯定是无效的,更像是君子协议,知名爬虫一般都会遵守。但是不要指望这些没有底线的抄袭者做的爬虫。也可以为IP访问设置阈值,如果IP频繁访问,可以拉清单。但其实很容易绕过。毕竟IP不值钱。

在这个时候,非专业人士最好使用互联网公司提供的解决方案,他们估计什么也不能扔。如果您的域名托管在Cloudflare,您可以通过Firewall基于IP和UserAgent判断爬虫是否正确,并决定是否放行。打开BotfightMode。至于是否会影响搜索引擎的包含,Cloudflare的解释是不会影响符合规范的爬虫,但为什么这个规范没有明确说明,只有一个例子。因此,请权衡自己打开与否取决于你是否非常关心每个搜索引擎和列表的包含。

什么是内容农场-充斥着劣质信息的采集站  内容农场 内容价值 采集站 第5张

也可以尝试常驻5秒盾、hCaptcha等。恶意爬虫可以更好的阻挡,但是会在一定程度上影响真实读者的体验。

什么是内容农场-充斥着劣质信息的采集站  内容农场 内容价值 采集站 第6张

我在这方面不业,自然说不出什么有价值的内容,这部分权当抛砖引玉,欢迎大家补充。

对于所有人

上面介绍内容农场的时候提到,如果人工介入,这种网站很容易被kill。所以,如果你有空,不妨在谷歌举报网络垃圾。虽然有点杯水车薪的味道,但总是一砖一瓦。

然而,做内容农场的人自然明白这一点。因此,他们往往消极处理投诉,更直接地转向新域名。总之,先做你能做的。

文章版权声明:除非注明,否则均为小宜技术猫原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 1 条评论,93918人围观)
网友昵称:小宜技术猫
小宜技术猫V博主2022-01-01沙发 回复
来了来了
取消
微信二维码
微信二维码
支付宝二维码