因为我们会发现百度百科随机标注搜索用户,会产生一系列的随机代码(用户的电脑被截取),通过图像内容的文本定义(与电脑对话),几乎可以达到同样的效果。

但实际上,搜索定位并不仅仅是基于文本定义,真正的“文本定义”的地位还远没有搜索结果中的标签那么简单。首先给出一组数据:截至2014年7月,谷歌每秒接收60万个网页搜索请求,百度每秒接收1亿个搜索请求。

如果你想在百度上实现100亿的搜索相关性,那么记录在电脑内存中的网页数量将在50万到10万之间,如果保存所有可能的搜索信息,整个数据库可以达到1000到15亿之间。

可以看出,百度网页一秒钟记录的页数已经远远超过了谷歌每秒60万左右的整体搜索量。一个人从上网浏览到阅读网页需要10-30分钟,这是一个庞大的搜索引擎数据。

然而,海量的搜索记录和数据之间需要一系列复杂的转换。最早的非结构化大数据用于在普通电子邮件和音频中查看这些结构化材料。但大数据带来的问题是,大量无意义的数据像“病毒”一样传播,海量数据不断增加。这些无用的内容往往超出人类的理解能力。

随着人工智能技术的发展,机器人正在处理大量人类感知和思维难以理解的信息。但是我们发现,机器人只能“看”到页面,却很难“说”和“写”出文字。“手动”或“半自动”编辑器的“误操作”会导致对文本内容的误解。

幸运的是,人类拥有意志和理性的双重力量,这也是人工智能的巨大优势。当无人驾驶和机器人在手机上遇到“智能文字”时,还能杀死这个社会吗?但是很明显,我们的大脑可以凭借先天的本能理解和编辑文本,这往往是由于缺乏理解机器的习惯造成的。

要解决这个问题,机器人似乎需要一个进入人脑的过程。整个量化技术大数据的主要范畴就是通过机器学习来解决。当然,机器学习是一个很有挑战性的专业领域,因为它是大量高质量的数据,会迫使机器追求更高的精度,让我们有被服务的机会。

而我们要关注这些基于高质量数据的技术。让机器学会从无意义的文本中识别,从低质量的数据中编辑,最后以人类能够理解和理解的方式把这些专业知识告诉给机器的几千万或者上亿用户。

从历史上看,这种知识是人类无法获得的,因为它原本是稀缺的(教育系统不是稀缺资源)。现在,作为一种具有自学习能力的人工智能,计算机对大量数据具有认知能力,从而可以从其他人工智能系统中获取更多信息。