发现网站抓取您的内容时该怎么办 Chris Coyier 于 2010 年 9 月 23 日 DigitalOcean 为您的旅程的每个阶段提供云产品。 立即开始使用 $200 免费积分! 什么也不做。 更长的版本 我知道这很令人沮丧。 是的,他们是卑鄙的混蛋。 如果你全力与他们对抗,试图让它下线,你可能会获胜。 你也会在战斗中怒气冲冲、遍体鳞伤。 相反,你可以花时间去做一些令人愉快、富有成效的事情,最终对网站的长期成功更有价值。 而且,你的网站 位于更可信的域名上。 首先发布了那篇文章。 比他们的网站更适合 SEO 的代码。 比他们的网站设计得更好。 不会有被搜索引擎严重处罚的风险。 …所以你真的没什么可担心的。
哪个网站偶然发现的。
我想你可以像其他人说的那样看待它;
模仿是最高形式的奉承!
如果他们很懒并且链接到你的图片,你可以更改图片并玩得开心。 我以前遇到过一些网站盗取内容,甚至没有费心保存自己的图片来链接,所以我当然很享受。 :)
@nicholaspatten
哈哈… 是的,我也做过… 将图片复制到网站上的新目录,然后将他们链接到的图片改为到处都是荒谬的话。
搜索了“Blockquote Bulge”。 哇,那里有很多抓取行为。
还有 CSS Triks? 那是带三个轮子的 CSS 吗? 哎呀。
哦,哇,我刚刚也搜索了一下,是的,它被到处复制,尽管有几个人在文章中提到了 Chris 是作者,一两个人链接回了 CSS-Tricks 上。 但是,很多没有。 他们甚至拿走了图片。 他们直接从他们的网站链接到图片。 如果我是 Chris,我会将文章图片更换为一个副本,但使用不同的名称。 而且由于每个人都直接链接到原始图片,你可以在那里放置任何你想要的图片。 你可以在他们盗取的文章中间放置一些色情图片,这样所有这些盗取网站都会突然出现色情图片。
我花了很长时间才意识到这一点。 我仍然很生气,但我没有理他们,其实没有意义。
开始在你的文章中包含“本网站盗取了 css-tricks 的内容”。
他们中的大多数通过 RSS 抓取,所以一种常见的做法是使用“Feed Footer”样式插件,该插件仅通过 RSS 插入该内容。 我们在 http://digwp.com 上做了这件事 - 我可能会考虑在这里开始这样做。 但是,我想知道这样做是否会带来任何负面影响。 比如,如果突然开始有很多来自超级可疑网站的链接指向我。
但需要说明的是,我仍然认为“什么也不做”是对待抓取者的好反应。
似乎在做这件事的公司是一家名为 http://www.varadesigns.com 的公司,我刚刚给他们发送了一封电子邮件,告诉他们不应该复制并下架网站。 如果这里每个人都这么做,他们要么不得不忍受来自各处的垃圾邮件,要么就下架网站。
当有人复制或盗取作品的功劳时,真的很令人心痛 :(
顺便问一下,您使用哪个插件插入 Feed Footer?
你好 Chris,
您可能想看看这个,这是一个非常简单且有趣的方法来对付这些混蛋。
http://perishablepress.com/press/2010/09/24/content-scrapers-suck-ass/
我去查看了“Feed Footer”,发现 Feed Footer 的链接被 Google 列入了黑名单。 嗯。
http://www.blogclout [dot] com/blog/goodies/feed-footer-plugin/
我同意你什么也不做的反应。 我的时间花在更积极的事情上会更有价值。
热链接很酷
抱歉,语法警察来了…
“Your website”应该用 your 而不是 you’re。
谢谢。
You’re? 也许你应该让一个成年人检查一下你的文章,然后再发布。
当一些混蛋巨魔出现并评论你的博客时该怎么办? 埋葬他们!
我还注意到,在上面列出的 varadesigns.com 底部,他们有你的 css tricks、一些随机的 html tricks,以及另一个模仿 http://uidesigning.blogspot.com/ 的 http://EzineArticles.com/。 如果我是你,我也会告诉其他被模仿的人。
嘿! 你从我的网站上偷了这篇文章!
:)
好文章。
Chris,好文章。 正如前几条评论中某人所说,“模仿是最高形式的奉承”。 真是太对了。
哈哈,好文章… *赞*
你会的。
当我发现一些网站在抓取我的 Feed 时,我在服务器级别阻止了他们的 IP。 这样就阻止了他们。
简单、有效、快捷。 :)
如果他们链接到我的网站,我倾向于无视他们,毕竟,任何我不用付费/请求的链接都是受欢迎的。
有没有人注意到这个页面的 Slug 是“scrapers-wear-doodoo-hats”,哈哈,真是太棒了。 我发现其他网站抓取了我制作的任何内容的那天,就是我给自己买一瓶冷饮(当然是国产的)来庆祝自己如此酷的那天。 之后,我会穿上战斗靴。
“邪恶猖獗所需要的一切,就是好人无所作为。”
- 埃德蒙·伯克
这是一个很棒的引言。 我认为它在本文中的应用并不意味着“必须与这些抓取者作斗争”。 仅仅是通过律师和下架通知与他们作斗争,并不意味着无所作为,它意味着,正如我在文章中所说,花时间去创造。 这样你就可以通过积极的建设活动来打败他们,而不是通过消极的破坏活动来打败他们。
我花了很长时间才意识到这一点,但在通过垃圾邮件向他们发送邮件并告诉他们停止后,我发现我开始浪费很多时间,什么也没做成,而且变得和他们一样糟糕。
什么也不做绝对更好,或者就像你在文章中所说,至少做一些有成效的事情。 不过,保持冷静需要时间来掌握。
我开始使用 Flickr,并在注意到我的内容被其他网站使用后,开始给我的图片加水印,就好像那些内容是他们自己的……我最初尝试使用 htaacess 阻止热链接,并在这些网站上显示“我爱 dishwithvivien.com”的徽标图片,但是,如果用户访问了他们的网站,然后来到我的网站,我的网站上的所有照片也会显示那个徽标图片(来自缓存)……
这是一个好主意(根据 HTTP_REFERER 提供不同图像的 .htaccess 选项)你想要做的是设置过期头,这样就不会被缓存……我能想到的最佳解决方案(虽然我不知道这是否很容易做到)是为自己的网站设置不同的过期头(以便缓存),然后设置一个不缓存的链接。
只是想知道……如果他们链接到你的图片,这算作搜索引擎的链接吗?也许还会提升你的排名?
@Jason 可能不会,除非他们实际上使用锚点标签链接到图像。图像标签只会消耗你的资源,不会给你带来任何好处。Google 图片会显示图像托管在你的服务器上,但链接页面是他们的,而不是你的。
我曾经运营的一个网站与其他网站并存,所有这些网站都发布相同的内容。可能每 100 篇文章中只有 1 篇是独特的,而我的网站则尽力发布尽可能多的独特内容(可能 9/10 篇文章是独特的)。
实际上,无论是手动转载还是通过 RSS 提要自动转载,这种情况都会发生,这很不幸。
与此同时,如果你的内容被抓取,更多的人会发现你的内容。处罚可能是风险,但是,在应得的地方给予应有的荣誉,并链接回来源始终是有帮助且受欢迎的!
好吧,如果他们通过 RSS 获取内容,你总是可以在 RSS 提要中添加你的姓名和回链……
关于使用我或其他人的内容,只要人们说明他们是从哪里获取的,并提供一些回链(我们都喜欢这些,对吧 :))我就觉得没问题。
不过,将别人的内容当作自己的内容是不对的。
我对此的看法是,是的, *模仿* 是奉承,但复制 > 粘贴只是为了获得流量而窃取(甚至不给原始作者署名,直接链接到原始图片)。真的很可悲。
不过你说得对,什么都不做比试图将其删除容易得多(而且压力也小得多,我想)。
我个人不会收藏任何这些网站,所以实际上,它所做的就是让设计社区与他们作对。
/endrant
我完全同意。在这种情况下,复制 *绝不是* 奉承。这是另一个例子,说明有人完全没有创造力来写自己的内容,所以他们出于懒惰,偷窃了别人的内容,希望赚点钱。
这有点像音乐。一些优秀的音乐家出于对原曲 [或艺术家] 的伟大敬意,重新创作了一首歌,然后加入了自己的创意风格,而另一些人则直接重新创作了一首歌,因为他们已经没有想法了!
我之前听过一个播客 - 我不记得是谁在说话了 - 但是他们说他们经常遇到这种情况。他们的解决方案是发送一封礼貌的电子邮件,说明问题,并要求解决问题。不多不少。有些人会停止,有些人不会。如果他们此时此刻不打算停止,那么就像你说的,没有必要争斗。但你可能会惊讶地发现,有多少人会被要求后停止。
你不能用 .htaccess 文件阻止他们的抓取服务器的 IP 地址吗?
我刚去过他们的网站,他们现在已经删除了 Chris 的所有内容,从他们的设计网站上删除了链接,甚至还写了一些看起来像是他们自己创作的东西。现在一切似乎都好了。
虽然你的东西被盗仍然很烦人,但这意味着你做得足够好,有人愿意花时间去偷你的东西。无论如何,这是我的乐观看法。
有人试图从你的辛勤工作中获利,这非常令人沮丧。
我很想知道有多少抓取器自动抓取/发布内容。可能大多数都是。我想知道这篇帖子是否被抓取并发布到那些其他网站上?那将很有趣。
保护很糟糕!这使我想起了我过去与一家专门从事发明的奥地利(现为德国)公司合作的经历。我们所学到的经验是,专利根本无法保护,它们实际上迫使发明者公开自己的发明,以便所有人都可以借鉴它——而且,试着起诉索尼、苹果或微软,因为他们使用了你的东西,哈哈。
唯一的真正保护措施是先发制人,并明智地营销。
干杯,迈克
一个轶事,为不断增长的证据提供了佐证,即知识产权法是无用的。
如果你能做到,就什么也不做!;)
这是我的两分钱
http://bit.ly/a8sN0M
我完全同意 Jeff 的观点 :)
我会对你的图像做些什么,因为最终会给自己的服务器带来负载。当然,除非你不在乎为别人想要免费吸收你自己的努力而付费。
文本我不太关注,因为这几乎不会影响你的带宽,你只需要花时间制作文章和发挥创意(我喜欢)。他们不会看到你所取得的任何成功,仅仅因为他们是假的,而且他们可能没有纪律写原创和独特的文章。从长远来看,他们会失败。
当我发现 Kensfi.com 存在热链接问题时,我所做的是识别 IP 并将其屏蔽。
此外,还有这种技术,如果有人使用热链接,就会用特定图像替换图像,通常是一张有趣的图像,旨在阻止那些坏蛋。
是的,我在另一个网站上找到了 CSS-tricks 的一些文章,当时我试图解决一些代码问题。
我感到非常生气,因为有人盗窃了 Chris 的作品(Chris 显然付出了很长时间和努力,为这样一个高质量的网站带来了高质量的内容)。不用说,我再也不会出于原则访问那些网站了。
人们复制材料,或者给自己创造一个没有必要存在的“角色”来扮演,这是一种错误的行为。
正如你所说,Chris,创造一些新事物,并让世界感兴趣,这更有成效,也更有意义。
愿抓取器变得陈旧,并被视为它们所扮演的无用附庸!
(对我的抱怨表示歉意)
是的,你说得对。当然,看到有人偷了你的内容并不愉快——但这就是生活!我的意思是,如果你完全不想让任何人窃取你的内容,你就根本不应该把它上传到网络上。
“复制是最大的奉承。”——我完全同意!
谢谢,在我读到这篇文章之前,我便秘了。
嘿,Chris!
这篇文章是不是几天前我发的那条消息引发的?:D
好文章,伙计……当我看到你的回复时,我顿时豁然开朗
“我什么也不做,我花时间创作好东西”。
谢谢,伙计!为了所有的一切……你不知道你的博客帮助了多少人。在我找到 css-tricks 之前,我根本不知道自己想要成为什么样的人,自己想做什么,或者自己想要做什么样的工作……现在,我找到了一份网页设计师的工作,虽然我与你能做的事情还差得很远,但我正在学习很多东西。
谢谢,伙计!希望你能接触到更多像我这样的人。也许那些沉迷于电脑游戏的,就像我之前一样,在我通过 css-tricks 找到了对网页设计的热爱之前!加油,伙计!顺便说一句,既然你以前也像我一样在乐队里,你喜欢听什么音乐,以前玩过什么音乐?
嘿,John,确实有点像这样 =) 我当时也在准备关于博客的演讲,这提醒我要添加一个部分来谈论所有这些抓取问题。我得尽快把幻灯片准备好。
谢谢。好文章。
实际上,你可以采取一些措施来阻止部分抓取机器人访问你的网站,例如,你可以屏蔽发现的机器人 IP 地址,或者在你的网站上设置一些过滤器来检查用户代理,或者在第一次访问时设置一些 Cookie 并反复检查它们(大多数抓取机器人“创建者”只是发现 preg_match 和 file_get_contents 的代码猴子,他们可能不会保存 Cookie 或设置用户代理),或者你可以检查每个 IP 地址每次页面浏览之间的间隔时间。
我认为,世界充满了那些偷窃他们没有努力获得的东西的人,因为他们很懒。但那些人也是永远不会独立发明任何东西的人。唯一重要的人,那些了解你并了解你能力的人,会知道真相。正如俗话说,模仿是最高形式的奉承。也许我们都应该努力被人模仿:)
嘿,Chris,让我给你看看我见过的最有趣的一封邮件。你觉得怎么样?
http://designbeep.com/wp-content/uploads/2010/09/mail.gif
@Arshad-这不可能是真的……这是我见过的最愚蠢的事情,如果这是真的……哈哈哈哈
Chris,再次感谢你指出了我从未考虑过的一件重要事情。我还没有到认为我的作品会被抓取的地步,但知道该注意什么总归是件好事。
哈哈哈!这真是太搞笑了。也让你有点同情这些家伙,也许他们真的是那么没有文化(其中一些,而不是机器人),认为互联网上的东西是“可以随便拿的”。
“可能要联系我的律师”哈哈哈,不过这是经典之作。
@Arshad – 如果那个人是真心的,那真是喜剧天才。没有什么比小偷抱怨你剥夺了他们公然偷窃的“权利”更有趣的了。他最后有没有找律师对付你?
我真的认为你说的对,Chris。如果有人需要抓取你的内容,那是因为他们不如你了解,或者处于更低级的水平。人们并不愚蠢,他们能够辨别出原始内容来自哪里。
这完全没有意义。哈哈,应该有一个网站列出抓取者。就像严重的网站权威一样。
我完全同意,Chris。说得很好。我真的很感谢你对这些问题的看法。
我同意你关于你的网站是原创网站的论点
- 拥有更高的信誉度
- 最早发布该文章
- 代码更适合 SEO,比他们的好
- 设计比他们的好
- 不存在被搜索引擎严重惩罚的风险
你已经积累了所有这些网站资产,而且总是有更好的事情和机会来占用你的时间,虽然如果你没有感到一点失望/沮丧的话,你就不正常。 LT
我不同意接受他们复制你的内容。我认为反击是必要的。尤其是在你发布了经过数年努力才创作出来的东西的情况下……幸运的是,我有一些法律方面的家族背景。学习如何写一封“说话轻声但带一根大棒”的信,让他们知道你打算对他们的版权侵权采取法律行动。到目前为止,我取得了 100% 的成功率,让我的材料下架。根据我的经验,如果他们意识到你懂行,他们就会吓得尿裤子,求你饶命。
关于域名拥有更高的信誉度;并非一定如此。但好消息是,如果你的内容确实出现在信誉度更高的域名上(例如,scribd、维基百科、youtube 等),通常更容易将其删除。
你说得对
但是,说实话,我仍然不喜欢那些抓取者
有没有可能 Google 误判了内容,认为我们的内容是重复的……?
如果你在处理图像方面遇到问题,最好通过 htaccess 阻止外部链接你的图像。如果你像 Chris 说的那样,有人拿走了你的内容,那么我同意他文章中提到的内容。
嗯……你可以使用你自己的 CSS Trick。取消冒泡(评论 6)给了我一个想法。
将他在 p 标签中提到的短语写成带有模糊类名的 p 标签,例如……
[p class=”hahahah”]这些角色是未经授权的公然从 [a href=”css-tricks.com”]真正的 css tricks 网站[/a] 窃取的。[/p]
然后创建这样的样式……
.hahahah {display:none;}
除非有人检查内容,否则你的木马将在所有侵权网站上可见
我曾经收到过一些奇怪的人的咨询,他们询问抓取网站的最佳方法。他们总是些不靠谱的营销骗子,试图在“他们的”网站上出售广告,而无需进行任何真正的创意工作。
有些人通过这种方式赚钱真是太可惜了。
我喜欢这篇文章的摘录。什么都没有。这纯粹是天才之作,Chris!
我认为,世界充满了那些偷窃他们没有努力获得的东西的人,因为他们很懒。
什么都没有。:( 我感到很脏。就像他们把我带出去羞辱了一番一样。