从百度看互联网搜索的垂直趋势

        本世纪以来最有吸引力的互联网新业务:搜索,成为引领第二波互联网浪潮的动力引擎,在搜索正火的时候,人们总在急切的想知道,哪一种互联网服务将成为第二个搜索?一晃几年又过去了,搜索日渐成为成熟的业务,人们对于搜索之后的情况,却没有了当初关注的热情。

        关于搜索引擎的目前情况,有两个数据比较有意思,一个是搜索引擎的服务使用率,一个是搜索引擎的份额。根据CNNIC2009年1月的第23次互联网调查报告,搜索引擎使用率为68.0%;根据CNNIC2008搜索引擎研究报告,搜索引擎用户首选使用率百度76.9%,google(谷歌)16.6%,搜狗与雅虎分别为2.9%与1.6%,此前艾瑞公布的搜索引擎研究数据为百度73.2%,google(谷歌)20.8%,搜艘(soso)3.4%,搜狗1.4%,其余的低于1%。

        数据可能是个不太靠谱的事儿,统计数据就更有点不太靠谱,对繁杂的数据进行解读便见仁见智。

        从搜索引擎当前的情况来看,国内搜索市场基本上已经形成并巩固了百度一家独大的局面,中国搜索引擎领域开始出现“垄断”局面,这表明,通用搜索引擎作为一项新的互联网服务,短短几年,已经进入到成熟期,格局已初步形成,新的进入者很难再有机会。

        国内搜索引擎竞争,最有趣的莫过于百度与谷歌之间,中国的谷歌背靠全球搜索巨擘google,搜索引擎份额差距却在逐步拉大,当然可以一句“不懂国情”来解释,但真正的原因还是值得探讨。

        搜索引擎是提供给个人用户使用的“2C”服务(面向用户),人们容易忽略这背后重要的“2B”(面向企业)因素,搜索引擎提供给用户使用不假,但搜索内容却是来源于其他网站,从用户的角度看,判断“谁更懂中文”并不是容易的事情,与企业(被搜索网站)的广泛合作才是搜索引擎竞争的真正关键,这也从另一个角度解释了,为什么其他几个国产的搜索引擎,加大了技术投入,份额产出却依然不明显。尽管互联网经历了门户资讯到搜索引擎两波竞争,入口(portal)依然是互联网争夺的制高点。

        搜索引擎的使用率为68.0%,虽然较之前一年的72.4%略有下降,但由于网民整体增速较快,搜索用户还是有33.6%的增长。使用率下降,CNNIC认为是“由于互联网整体网民规模快速增长,新增网民中低学历网民比重增大,而该部分网民的搜索引擎的使用率较低,导致搜索引擎的整体使用率下降”。

        搜索的下降还可以做另一种解释,即:使用门槛增加,由于搜索引擎是pull(拉,用户主动要),而资讯服务的方式是push(推,网站推荐,用户被动接受或者被动选择),在连寻找“返回键”都能让一批用户有犯难的浏览器上,只需要点鼠标与输入既定文字相比,门槛提高是不言而喻的,不过,门槛提高的原因更多在于是操作更复杂,需要更熟练的技巧,而与学历关系不大。

        搜索与门户新闻,是互联网两种相对服务pull(拉)、push(推)的两个极端模式,简单的搜索框,几乎没有任何信息推荐,新闻列表则是网站和盘托出,许多情况下,这两种服务并不矛盾,各有各的使用场景,早期的互联网服务基本就是这两种方式。

        随着标签(TAG)、订阅(RSS)、聚合(Mashup)等所谓web2.0传播形式的出现,非单纯的pull与push服务形式增加,许多新的服务,用简单搜索框式的pull并不能很好解决,搜索引擎使用率的下降,应该预示着搜索引擎面临升级的压力与动力。

        从搜索引擎的变化来看,视频搜索、博客搜索、新闻搜索等可以看成是垂直搜索的例子,当信息越来越多样,垂直化能够加入一定的语义含义,促使搜索更精准,垂直搜索不仅仅摆脱只有一个简单搜索框的情况,提供一些参数选择,还将根据领域不同,通过热门词、排行榜等样式,以push特征引导用户pull行为。

        百度视频搜索中提供排行榜、热词与分类,google视频中直接的内容推荐,从通用搜索引擎分化出来的垂直搜索,呈现出与此前pull时代单一简洁的不同特征,百度看上去更倾向于简洁性与引导性,google(谷歌)向内容推荐(push)走得更多,在通用搜索引擎竞争告一段落之后,垂直搜索引擎将成为新一轮争夺点,而竞争中,网站的push与用户的pull的将扮演非常重要的角色。

        垂直搜索领域是搜索领域的新机会,几年前,视频、博客等出现了一些新的公司,而今,似乎他们的声音越来越小,如果新进入者抓不住近期的机会,一些垂直搜索领域还将是老一代搜索引擎的天下。

垂直搜索与搜索趋势

当前的搜索引擎越来越不适应互联网信息检索的需要,数以万计的查询结果,看上去很好,想找到合适的结果,却比较难,搜索引擎提供的信息秩序,并不能满足互联网发展的要求。
周六第三期项目秀的时候,搜what网站提供了一种与google、百度等通用搜索不同的检索方案,搜what提供了基于黄页、航班查询、祝福语、歌曲、绿色食品等查询服务。
这通常叫做垂直搜索,搜what提供的是垂直搜索的技术引擎。垂直搜索与通用搜索相比,最大的区别是垂直搜索限制了搜索范围,不过,并不是所有的垂直范围加在一起就等同于通用搜索。
我和世纪互联CTO老蒋探讨本地搜索和网络搜索问题的时候,共识是,本地搜索并不是网络搜索的简单延伸,本地搜索更多是你已知(或者应该知道)的搜索,网络搜索更多是对未知的搜索。
传统的基于文本比对的搜索,正在进一步深入发展,整体上说,涉及到如下几大方面。
搜索对象的变化,松散文本到数据结构化。举个例子说,假如你正在查询航班,你输入“上海”的时候,结果不会是“说上海话”中的“上海”,系统知道寻找地址而不是其他,这时候,航班信息中的地址信息(如:上海)转移到别的地方将不再具有相同的含义,这是数据结构化,其含义不仅由文本,而且与所处位置相关。
搜索方法的变化,从文本比较到含义(语义)检索。搜索不再是简单的文本比对,而是基于文本真实含义的理解,例如:通常检索“牛”的时候,天牛的“牛”还是蜗牛的“牛”,都是潜在的匹配目标,这是根据文本信息比对的结果,如果引入“牛”含义,那么“蜗牛”就会排斥在外,同时,有“最重要的农耕动物”意思而不包含“牛”的内容也将是待选目标。
搜索主体相关,结果只是关于搜索者的信息。这一点尤为重要,在互联网传媒时期,传播的是公众信息,这些信息与具体人的关联性不大,比如:本届奥运会的赛程,谁是国家足球队教练。还包括公共的知识体系,比如:牛顿定律,互联网的TCP/IP协议。
越来越多的非公众信息与公共知识体系的内容出现在互联网上。昨天晚上饭店的订餐单,前天下午去浦东机场的保险单号码,一个新开张的互联网公司开发的一套公司软件协议,这些信息如果不和具体人相关,无法想象我们将怎么淹没在信息的海洋中,鼓吹搜索结果一万甚至一百万显然是个黑色幽默。
与其说搜索垂直化,还不如说搜索的纵深化,当前,机器智能的发展离人们使用目标有比较大的差距,搜索引擎技术近期的根本在于,如何利用阶段性的成果,设计出可应用的产品和服务。
51.la Free Site Stats
搜索未来到底沿着什么样的方向,非常的不确定,确定的是,搜索的未来在于越来越精确。
Web Counters
当前的搜索引擎越来越不适应互联网信息检索的需要,数以万计的查询结果,看上去很好,想找到合适的结果,却比较难,搜索引擎提供的信息秩序,并不能满足互联网发展的要求。
周六第三期项目秀的时候,搜what网站提供了一种与google、百度等通用搜索不同的检索方案,搜what提供了基于黄页、航班查询、祝福语、歌曲、绿色食品等查询服务。
这通常叫做垂直搜索,搜what提供的是垂直搜索的技术引擎。垂直搜索与通用搜索相比,最大的区别是垂直搜索限制了搜索范围,不过,并不是所有的垂直范围加在一起就等同于通用搜索。
我和世纪互联CTO老蒋探讨本地搜索和网络搜索问题的时候,共识是,本地搜索并不是网络搜索的简单延伸,本地搜索更多是你已知(或者应该知道)的搜索,网络搜索更多是对未知的搜索。
传统的基于文本比对的搜索,正在进一步深入发展,整体上说,涉及到如下几大方面。
搜索对象的变化,松散文本到数据结构化。举个例子说,假如你正在查询航班,你输入“上海”的时候,结果不会是“说上海话”中的“上海”,系统知道寻找地址而不是其他,这时候,航班信息中的地址信息(如:上海)转移到别的地方将不再具有相同的含义,这是数据结构化,其含义不仅由文本,而且与所处位置相关。
搜索方法的变化,从文本比较到含义(语义)检索。搜索不再是简单的文本比对,而是基于文本真实含义的理解,例如:通常检索“牛”的时候,天牛的“牛”还是蜗牛的“牛”,都是潜在的匹配目标,这是根据文本信息比对的结果,如果引入“牛”含义,那么“蜗牛”就会排斥在外,同时,有“最重要的农耕动物”意思而不包含“牛”的内容也将是待选目标。
搜索主体相关,结果只是关于搜索者的信息。这一点尤为重要,在

搜索之惑

上次探讨为什么是搜索的时候说到,搜索引擎的真正价值在于提供了信息的秩序,有些朋友进一步问我,什么是信息的秩序呢?
回答什么是信息的秩序之前,先看另一个话题,当我们给小孩子刚够吃或者不够吃数量的苹果时,你会发现小孩子会不区分大小,全部吃掉,当你给的数量很多的时候,小孩子将会挑大的、好的先吃掉,如果孩子的辨别力足够,剩下来相对于已经吃掉的苹果,质量要差,这就是秩序表现。
供给小于需求的时候,人们关注生产的数量,当供给大于需求的时候,人们更关注质量,这里的质量可以通过秩序来实现。
信息的秩序可以描述成按照某个人或者某群人的需求对信息进行的组织。搜索引擎按照关键字组织信息,相对于各个服务器上的分散信息,是更符合用户需要的信息秩序。
理想的信息秩序应该满足几个条件:覆盖潜在的所有相关信息,按照符合要求的程度排序,最小数量。搜索引擎正为此而努力,蜘蛛或者机器人自动抓取网页,满足覆盖性;对页面进行评估(如:page rank页面等级),满足排序;过滤垃圾信息,分页编排,满足最小量。
不过,搜索引擎实际能做到的程度非常有限,打开搜索引擎,你输入你的关键字(不是问题),并不是搜索你的答案,而是陈列包含有答案字符的结果,除了公众流行信息,搜索引擎难以给你带来任何有意义的结果。
哥哥和弟弟向妈妈告别,“我要上学了”,同一句话,妈妈知道,哥哥去的是中学,弟弟去的是小学,但搜索引擎不知道。妈妈有关于孩子个人背景知识,而搜索引擎没有,这是很重要的区别,我曾说,网络是失忆的病人,每次与你相对,总是从你的名字问起。
学生时代,我们最有效的获取答案的方式是问老师,你一个问题,老师给出一个结果,合格的老师会让你无惑,现在我们把依靠转给搜索引擎,这是个还不够负责的老师,他告诉你可能是1,可能是2,可能是…n
并不是所有提供了秩序的工具和服务都能流行,只有这种秩序具有一定领域的应用价值,并没有更优秀的替代品才行,传统的门户首页秩序实现了新闻传播价值,但不能有效传递交流类的信息;RSS定制秩序实现了博客摘要的定向传播价值,但无法解决信息过载问题;搜索引擎的大众信息的分类(按照关键字)秩序实现公共信息检索价值,但不能解决细分信息检索价值。
51.la Free Site Stats
很多时候,不知道目标的关键字,还需要结果,甚至是精确的结果,就像老师回答问题一样,搜索引擎可以吗?
Web Counters
上次探讨为什么是搜索的时候说到,搜索引擎的真正价值在于提供了信息的秩序,有些朋友进一步问我,什么是信息的秩序呢?
回答什么是信息的秩序之前,先看另一个话题,当我们给小孩子刚够吃或者不够吃数量的苹果时,你会发现小孩子会不区分大小,全部吃掉,当你给的数量很多的时候,小孩子将会挑大的、好的先吃掉,如果孩子的辨别力足够,剩下来相对于已经吃掉的苹果,质量要差,这就是秩序表现。
供给小于需求的时候,人们关注生产的数量,当供给大于需求的时候,人们更关注质量,这里的质量可以通过秩序来实现。
信息的秩序可以描述成按照某个人或者某群人的需求对信息进行的组织。搜索引擎按照关键字组织信息,相对于各个服务器上的分散信息,是更符合用户需要的信息秩序。
理想的信息秩序应该满足几个条件:覆盖潜在的所有相关信息,按照符合要求的程度排序,最小数量。搜索引擎正为此而努力,蜘蛛或者机器人自动抓取网页,满足覆盖性;对页面进行评估(如:page rank页面等级),满足排序;过滤垃圾信息,分页编排,满足最小量。
不过,搜索引擎实际能做到的程度非常有限,打开搜索引擎,你输入你的关键字(不是问题),并不是搜索你的答案,而是陈列包含有答案字符的结果,除了公众流行信息,搜索引擎难以给你带来任何有意义的结果。
哥哥和弟弟向妈妈告别,“我要上学了”,同一句话,妈妈知道,哥哥去的是中学,弟弟去的是小学,但搜索引擎不知道。妈妈有关于孩子个人背景知识,而搜索引擎没有,这是很重要的区别,我曾说,网络是失忆的病人,每次与你相对,总是从你的名字问起。
学生时代,我们最有效的获取答案的方式是问老师,你一个问题,老师给出一个结果,合格的老师会让你无惑,现在我们把依靠转给搜索引擎,这是个还不够负责的老师,他告诉你可能是1,可能是2,可能是…n
并不是所有提供了秩序的工具和服务都能流行,只有这种秩序具有一定领域的应用价值,并没有更优秀的替代品才行,传统的门户首页秩序实现了新闻传播价值,但不能有效传递交流类的信息;RSS定制秩序实现了博客摘要的定向传播价值,但无法解决信息过载问题;搜索引擎的大众信息的分类(按照关键字)秩序实现公共信息检索价值,但不能解决细分信息检索价值。
51.la Free Site Stats
很多时候,不知道目标的关键字,还需要结果,甚至是精确的结果,就像老师回答问题一样,搜索引擎可以吗?
Web Counters

为什么是搜索

        上帝说需要信息,于是有了互联网,上帝说需要秩序,于是有了搜索。

        说到搜索引擎(google把这个关键字第一个位置给了百度,有意思),我第一想到的是目录,无论你是想了解一本新书的内容,或者在一本看过的书中找一个遗忘的公式,翻看目录都是一个不错的选择,目录是一种信息查找的索引,通过检索比目标少得多的信息找到你想要的目标。

        搜索引擎具有和目录类似的功能,也有很大的不同,比如:由于互联网的动态性,搜索引擎提供的索引是动态、非完全、滞后、甚至错误的,尽管如此,搜索引擎目前已经成为信息索引最优秀的工具。

        操作引擎真正变得流行,还是近几年的事情,看看不管是先起的百度还是后起的搜狗,起个大早赶个晚集的雅虎,还是风华正茂的google,大有一番“搜场风云,舍我其谁”的姿态,搜索很火了。

        搜索需要较高的技术支撑,对于华尔街技术加团队的评判方式,是难得投资题材,但这并不是搜索引擎流行的原因。真正的理由在于,每天打开浏览器,除了固定的几个网址,如果你想找一些你感兴趣的信息,搜索引擎几乎是唯一选择。

        在互联网初期,信息提供者比较少,几个网站挨个看过去并不是什么问题,随着信息量的增加,地毯式的方法已经成为不可能事件,为日渐增多的信息提供索引成为必要。

        早期的互联网提供了类似图书馆检索的目录服务,但目录服务并没有成为主流的互联网服务。九十年代,雅虎开始提供分类为特点的信息索引服务,随着信息量的快速增长,基于人工分类的信息索引服务难以满足用户需要。

        通过搜索引擎,用户得到与关键词匹配的信息,与分类相比,具有更大的方便性和灵活性,而且信息是服务器从各个网站自动抓过来的(蜘蛛或者机器人),效率比人工要高很多,在海量的互联网信息中,搜索引擎成为导航者。

         农耕时代是自给自足的自然经济,工业文明带来的社会大分工,生产和流通成为不同的产业。信息产业也正在经历这样的过程,信息的生产(创作)与传播正在分离,信息越来越海量,如何保证信息流向(传播到)正确的地方也越来越重要。

         也正如计算机发展,初期是保证更高的效率和功能,逐渐变为保证安全和可靠。信息从广泛传播正在转向准确传播,信息需要秩序,保证信息的按照正确的渠道流通的秩序,这是信息的价值所在。

         搜索引擎的真正价值在于提供了信息秩序,但搜索引擎显然不是秩序的终极提供者,对于传播秩序的建立并不完善,当翻过检索结果多页也找不到自己想要到信息时,搜索引擎已经走到了边缘。

        毫无疑问,2006年最值钱的是什么,是搜索。那2006年之后呢?