搜索 – BlawgDog | 博铎法豆

醒醒吧来看日出：信息时代的分水岭

Donnie 07/09/2009 08/26/2016

　　我的家乡昆明有一个绝佳的观日出地点：滇池畔的西山。小时候为了看日出，在西山里的寺庙住下，天寒地冻地睡在硬得像石头一样的铺头上。好不容易睡着了，又突然被父母逼迫起床，昏头昏脑地被拖到观景的地方，心里充满怨恨。但是，当那轮红日从远处山峦中最终纵身一跃的时候，我还是被震撼了——太阳真的是跳出来的。从此留下心理阴影，导致我后来学习量变产生质变的原理时非常顺利，马上就知道：尽管时钟滴答滴答，对任何一个时间点都没有歧视。但一些事件真的可以成为时代的分水岭。

　　嗯，信息传播的分水岭近在眼前。

　　所谓“草根记者”在一两年前还只是部分掌握了网络技能的Geek的小众娱乐。现在它已经成了人人皆可为之、皆在为之的自然形态。看到什么新鲜的东西立即掏出手机咔嚓咔嚓，然后回家粘在博客、BBS、Twitter、Flickr或者在传统管制思路下发音为“非死不可”的Facebook上，已经成为人们生活的常态。而这一切，还在不断发展中，并且在我看来，正酝酿着一轮新的日出。

　　如果说，典型Web 2.0形式的网站（如豆瓣和Youtube）还是建立在网站为中心，然后由用户到网站上来制造内容的逻辑上，那么一个新的时代即将到来——在这个时代，互联网将真正由以网站为中心变为以用户为中心，用户即网站，用户的信息瞬间发布、瞬间汇聚，即时更新。与此同时，这个时代的信息获取方式与传统的搜索引擎时代不同了，后者是由搜索引擎派出机器人搜寻既存的消息，而现在则有可能根据用户的需要自动推送信息给任何接受者。Twitter让每个人的页面都成为搜索引擎，并且是不需要打入搜索词的推送引擎。最有趣的是，通过开放的API，twitter上的信息可以瞬间共享到其它网站上（就象法豆首页上的一样）。网站已经不是中心了，人才是中心！或者更准确地说，就像新的P2P传送技术一样，已经没有中心了。

资料库

互联网上的隐藏地带：暗网

07/09/2009 07/09/2009

除了前两天提到的Usenet所代表的新闻组服务外，互联网上还有许多隐藏地带。“暗网”就是其中一类。

暗网

维基百科，自由的百科全书(2009年3月8日版本)
注意：本页面复制自维基百科，根据维基百科的要求，在知识共享署名-相同方式共享 3.0协议之条款下提供。请转载者遵循该条款。

暗网（又称作深网，不可见网，隐藏网）是指互联网上的内容，不属于那些可以被标准搜索引擎索引的表面网络。

迈克尔.伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索，巨量的表面信息固然可以通过这种方式被查找得到，可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息[暗信息]是由于网页信息必须通过动态请求而产生，而标准的搜索引擎却无法对其进行查找。传统的搜索引擎‘看’不到也获取不了这些存在于暗网的内容,除非通过特定的搜查这些页面才会动态产生，于是相对的，暗网就隐藏了起来。据估计，暗网是大于几个数量级表面网站。^[1]

[编辑] 命名

专业日志 itemprop="discussionURL"3

网页快照的法律问题

Donnie 01/17/2008 08/26/2016

豆按：这篇关于网页快照问题的杂文，最早撰于2006年，最近感到其中观点需要变化，故修改后重新发一下。

　　北京德都投资顾问有限公司诉北京三七二一科技有限公司（即yahoo.com.cn）这个案子很有意思。先摘录一段原告的诉讼请求（颜色当然是我加的）：

　　德都公司在所属的“权利－法e网”（www.rit.cn）首页做出了要求搜索引擎录入、链接该公司网站的检索排名均应在前20名内的声明。但用户在三七二一公司经营的“雅虎中国”网站上，输入关键词“法律”、“法律服务”、“律师”、“法律咨询”搜索时，德都公司网站均在20名之外。三七二一公司的搜索结果实施竞价排名收费服务，其盈利性完全依靠链接和录入其他网站的海量相关内容。因此三七二一公司未经德都公司许可以网页快照的方式将德都公司的网页预先复制并存放在其服务器上用于营利性搜索，侵犯了德都公司享有的复制权；未经德都公司许可基于营利性目的以网页快照及链接的方式通过信息网络向公众传播德都公司的作品，侵犯了德都公司的信息网络传播权；同时，通过网页快照以改编、注释等方式使用其作品向公众传播，侵犯了德都公司对自己网页的使用权。故要求三七二一公司按照德都公司的声明要求链接德都公司网站，否则停止在雅虎中国网站上的链接行为，并公开赔礼道歉。

专业日志 itemprop="discussionURL"1

关于搜狗词库是否构成作品的澄清

Donnie 04/17/2007 08/26/2016

　　感谢洪祖运对我关于搜狗的词库的观点的评论，我的表述的确不太严谨。但是，尽管对搜狐是否享有版权存在事实认定的问题，保守地说，我不应该武断地认定其就是汇编作品，但从报道的事实看，这种认定的盖然性还是占优的。

　　首先，您说的Feist Publications Inc. v. Rural Telephone Service Co. Inc中，认定Rural Tel Co的白页不享有版权，原告因而不构成侵权。判决理由在于法官认为系争客体属于单纯的facts，而没有达到版权法上的originality标准。这个案件与Google这次遇到的争议不同（这个下面说），其意义不在于确定事实的汇编是否构成作品（这个已经早确定了），而在于否定了之前一些美国判决采取的“出小汗原则”（sweat of the brow），而重申了行为人主动选择和编排在“originality”之构成要件中的核心地位。

　　其次，什么是originality，在美国法就是“independent creation plus a modicum of creativity”，在德国法就是所谓的“小硬币原则”。换句话说，只要不仅仅是单纯依据事实的排列，而有些微的创新或者发展，那么这个东西就是享有版权的作品。Google和搜狗争议中，对这一问题，涉及证据问题，我们不能了解，所以不可能深入讨论。但至少有一点，编排的过程中，显然有创造（员工名字），换句话说，即使按照美国法，至少、至少，这部分创造肯定是享有版权的。因为只要有original selection or arrangement，即使这些被选择和排列的东西本身是事实，也已经达到了originality的标准。

　　其次，慢说中国法与美国法不同，中国法看法条，美国案件不具备羁束力。即使按照美国法，应用先例羁束原则（Stare Decisis）的前提是“必要事实”（Necessary Facts）类似，而不是说案件大致一致就行了。在那个案件中，关键事实不在于被编辑的东西中有本来就存在的事实，而在于两点：（1）Rural Tel Co没有选择和编排，而仅仅是按照姓氏字母顺序进行了排列——而之所以按照字母顺序，是因为Rural Tel所在的州法律有这样的要求；（2）Feist并没有直接把Rural Tel Co的白页拿过来用，而是将其中的“事实数据”，即用户的名字、城市和电话号码抽出来放在自己的目录中。但是，在Google这次遇到的麻烦中，词汇是事实，拼音是事实，可是词汇的排列则肯定不是事实范畴的东西，更不用说它是整个地把词库拿过来用了。

专业日志 itemprop="discussionURL"3

Baidu Vs. Google：看谁更水土不服？

Donnie 04/11/2007 08/26/2016

　　先来点提神的作引子，前几天从和菜头那里学习到百度日本强大的成人图片搜索功能：“进入日文百度图象检索：http://image.baidu.jp/，输入以下任意日文单词之一，就可以得到令中国用户大为惊奇的搜索结果，而这一结果在百度中国页面上绝对不会被显示出来。星野桃∕宝来みゆき∕桜田さくら∕藤井彩∕小森美王∕堤さやか∕平井まりあ∕桃井望/Saya/榊彩弥/桜井れいな/中条美華∕大久保玲/ 楓∕松下ゆうか∕青木友梨∕林マリア∕松村かすみ/杏童なつ / 深田涼子 / 月丘うさぎ / 愛内萌 / 姫島瑠璃香 / 長瀬愛 / 中野千夏 / 春菜まい / 望月ねね / 岡崎美女 / 宮下杏奈 / 加藤ゆりあ / 灘じゅん / 日野美沙 / 沢井芽衣 / 及川奈央 /南つかさ /山咲あかり / 河野りんり /みひろ /小坂れおん /加藤ゆりあ /舞田奈美未来 /進藤つみき / 北島優 /萩原めぐ /南波杏 /椎名まゆみ /長澤つぐみ /天衣みつ /峰なゆか ……”

　　从MP3下载到“连接被重置”式的屏蔽，再到法律搜索中删除不利于自身形象的案件文献，百度因为了解中国式思维、熟稔中国的市场而稳稳占有50%以上的中文搜索引擎市场。当它将业务扩大至海外的时候，却立即面临与其竞争对手非常类似的困境——上面的日文百度可能遭遇的中国法律障碍算是个内忧，而今天我又在路透社读到一则堪称外患的消息——“baidu.co.jp”被一个名为CBC的日本公司抢注，百度已经向日本知识产权仲裁中心提出域名争议申请。为了防止以后看不到，我赶忙去这个网站做了截屏如下：

　　这边百度忙里忙外，那边Google也不闲，和搜狐的输入法（词库）争端也越演越烈。我相信给Google打工开发拼音输入法的不会是美国人——尽管这话说出来可能会被老中青爱国者们鄙视，但我觉得这些工程师的技术水平和版权意识之间的差距，至少在平均值上应该是大于美国同行的，在使用别人词库的时候，他们很可能完全没有意识到这中间存在版权问题。再联想起当年Google中国甚至连备案证都没能弄明白，看来这水土不服的症状，还的确不是那么好防治的。

专业日志 itemprop="discussionURL"1

百度法律搜索搜不到不利于百度的案件判决书

Donnie 09/19/2006 08/26/2016

BaiDu offered its Legal search Engine recently. I just get this news from China Law Prof Blog since I seldom use Baidu.com.

As I have estimated before trying it, Baidu keeps on artificially controlling the searching results. From Baidu’s legal search engine, one can not get case materials in which Baidu involved and lost, though these cases can be found in baidu’s normal webpage searching results. For instance, a famous case on MP3 downloading issues, in which Baidu was sued by a ShangHai company, dose not exist in Baidu’s legal data base. In another cross action between Baidu and 3-7-2-1 (another Chinese Internet service provider), Baidu’s law engine only records a judgment in favor to Baidu, whilist another judement in favor to 3-7-2-1 is disappeared.

　　因为基本不用百度，所以直到今天才从China Law Prof Blog上看见百度建立“法律搜索”站的消息。这个站显然与北大法律信息网有关。

　　但是，在百度上，无法搜到不利于百度的案件判决书。例如，在百度法律搜索中，搜索“上海步升音乐文化传播有限公司”，可以发现该公司为当事人的多个案件，却惟独没有其起诉百度的那个著名案子；再如，如果直接搜索百度公司名称“百度在线网络技术有限公司”，则只能搜到百度起诉北京三七二一科技有限公司的案子，而几乎同时发生的“三七二一公司诉百度网讯科技有限公司”案则不见踪影。不过，在百度网页搜索中，这些案件都还能搜得到。

资料库

Google提供美国政府网站搜索

06/17/2006 06/17/2006

Google U.S. Gov

　　Google正建设一个专门搜索政府网站的站点。被称为“Google U.S. Government Search”，其搜索的范围包括联邦、州和地方性的资源，而且还将那些以“.com”、“.us”、“.edu”结尾的政府网站也囊括了进来。和其它Google站点的简洁风格不同，这个站点的首页中包括了“白宫新闻”、“美军信息”、“政府部门”和“华盛顿邮报”几个栏目，还有华盛顿特区的天气情况。当然，如果是Google用户的话，你也可以自定义这个首页。这里是Google提供的常见问题说明。

　　这个站点被认为与微软为政府建立的FirstGov.gov相竞争——当然Google自己没有这么宣称。和FirstGov.gov不同的是，这个站点不属于政府，所以它可以不按照政府的意志来决定页面上的新闻的排列，而且，Google为搜索结果提供了缓存页面，按照Mark Giangrande的看法，这其中含有言论自由的意味。

　　本文资料来源于Tech Law Prof Blog，相关新闻报道：TCMNet, CNET, Information Week,Washington Post。