大数据是数据科学的一个研究领域。要从受(数据采集)、想(数据分析)、形(数据重构)、识(数据挖掘、预测、利用)等四个方面来研究它,从而获得认识现实世界的大智慧。
大数据这个新名词,近来总在不同的媒体出现。大数据的浪潮扑面而来,自然会伴随着大量的泡沫。究竟什么是大数据,不同人有着不同的理解与解读,但给人的感觉是总体形象还不十分清晰。如果说成数据科学,那就比较容易理解了,即关于对象为数据的科学,而大数据应该是数据科学中的问题,是尚未解决的问题,是数据科学延伸的一个研究领域。
何谓大数据
那么,大数据与传统的数据科学有什么差异呢?大的一个直接解释是多,但数据多并不自然等同于大数据。譬如小孩子背圆周率,不可能全部背出来,因为这是一个无限小数,也就是说数据是无限多。但是数学上早已给出多种不同的计算方法,想要精确到多少位就精确到多少位。笔者认为,凡是数学已给出方法计算的,都不能算作大数据,或者说用现有数学方法处理的数据都不能算作大数据。当然,可以发展并行计算、云计算等计算方法来提高其运算速度。
数据科学的第一个基本问题是排队,数学上叫排序。像幼儿园老师一样,让孩子一个接一个排好,这叫串行算法。到了小学高年级,如果全体同年级孩子排队,可以在各班排队的基础上,让各班从高到矮列队走来,校长只要比较各列第一个的高矮逐个放行,这叫并行算法。如果大量成年人要排队,可以采用云计算的办法,让他们自己判断可能在什么位子的附近,然后自觉地与边上的人比较,交换调整。
那么,什么是大数据呢?还是从什么是应用数学或什么是数据讲起。数据科学是应用数学的核心组成部分。应用问题要提高到科学的层面,或可以思考分析的层面,要通过一个交流的界面或接口,而交流的媒介一定就是数据。人与外界的交流也是如此。现在人们与外界的交流越来越依赖于各种电子产品,几乎任何信息都可以转化为数字或数据进行。笼统地讲,数据科学涉及数据采集、描述、表示、分析、重构、理解、演绎、挖掘等部分。而大数据与传统的数据科学的差异,笔者认为主要在于:数据的异源、异构、不能直接嵌入经典的数学空间、含有深层的隐藏信息,以及与已获得的经验数据的联系、融合。这是大数据研究的挑战性所在。
为什么要研究大数据,当然是为了提高我们对现实世界的认识达到大智慧。这在佛学中称为“般若波罗蜜多”。所以笔者在这里引用《般若波罗蜜多心经》中的话:“受想行识、亦复如是”。这里改动一个词,将“行”改成“形”。
受——就是感受,就是数据采集;想——就是数据分析;形——是形成概念,数据重构;识——是对数据解读进而成为对现实世界的理解,并可用来为之服务。下面就这四个方面谈谈笔者对大数据的理解。
受——数据采集
人是怎么感受世界的?这还要引用《般若波罗蜜多心经》:“眼耳鼻舌身意”。眼睛看到的东西我们可以用数字照片记录下来,耳朵听到的可以用数字录音。视网膜、耳蜗中的绒毛及听骨记录的,如同计算机中的视频、音频文件,也是有限的离散数据。电子鼻、糖度仪一定程度上模拟了鼻舌。“身”是触觉,也有不少仪器模拟它,如红外遥感、X波雷达、CT等来模拟,而且扩充了人类采集数据的能力。“意”的解释稍微困难一些,可能是第六感,用数学语言说就是通过异构数据的协同计算获得的信息。蝙蝠可以通过听声音来辨别前方的物体,而一个人可以做到听音辨物就会被认为是特异功能了。
一个有名的数学问题是:人可以从鼓声听出鼓面的形状吗?纯粹数学家找到了两种鼓面,证明它们发出相同的声音,不过鼓面的构造比较复杂。这个结论事实上告诉我们,如果只有圆、椭圆、三角、四边、六边、八边等简单鼓面形状的鼓,人们是可以通过训练(数学上是学习算法),从鼓声中分辨得到鼓面形状的。再如,上司发火时会伴随着脸部的肌肉抽搐,当半夜从睡梦中被一阵电话铃声叫醒,听到他在电话里咆哮,虽然没有看见他,脑海中一定会出现那张弯曲的脸,或者说甚至可以听出表情。这好像是超能力,笔者更愿意把它叫做隐能力。X波雷达、红外遥感也是如此。所以,数据科学首先要在数据采集上将看不见、听不到的数据转换为看得见、听得到的数据,将不是用通常手段采集的数据转换为通常的数据表达形式,以扩充、提高人们采集数据的能力,特别是拓展隐能力。反过来,心理学家也做过实验:将一个每秒24帧图像的影片,每24幅后加一张图片,可以是血腥的,甚至只是写上一句令人沮丧的话,然后以每秒25帧的速度播放。播放时一般不会发觉有什么异样,但当人看完整部电影之后,就会感觉非常不舒服。这也叫暗示,某种信息在不知不觉中传到并记录在观众脑子里。近年来,有不少科幻影片通过手机等植入广告的形式发送隐藏信息,以控制人们的思想。甚至有传言,美军在伊拉克战场上就已经采用了这种战术,在战场上用超声波播放伊斯兰教祷告的录音以瓦解敌方的斗志。开发利用数据采集与播放发送的隐能力,是数据科学特别是大数据的重要领域。
得到数据以后需要记录。对于多元、多源、异构、海量数据的记录是数据科学在数据采集方面的第二个问题。人脑记录数据利用了脑细胞同时激活了它们之间联系的神经,也就是说同时记录了数据本身和这些数据之间的关系,甚至是跨结构的数据间的联系。跨结构数据关系的记录研究在数据结构研究中几乎还是少有涉及的领域。在浏览网页时,下面还有“浏览过该网页的人还浏览了猜你也喜欢的网页链接”,给人们带来许多方便(同时一定程度上也控制了人们思想,植入性地引导人们去看网站希望你去看的信息)。网站在记录网页及浏览网页的人员同时记录了(由浏览者自己,可以说用云计算的方法得到的)网页间的联系。网络上各计算机节点的描述,基础是每个计算机上的文件(文本、音频、视频以及驱动这些文件的软件程序),本地联系或连接处理完成本地计算机的工作功能。进一步地还有计算机间的连接与问题处理,网络间联系可以处理远程计算,远程云检查病毒、杀毒,甚至是多架无人机远程精确打击。博客是通过点击率提升其地位的。大家都知道,科技文章有个影响因子,即有多少文章在引用某篇文章,ISI网页上不仅可以查到引用情况,还统计了两次引用,即有多少文章在引用曾经引用过这篇文章的文章。这个结果不仅反映了文章的引用情况,更加确切地反映了被这篇文章工作影响的研究人员的地位与影响力,从而更加全面地反映了这篇文章的影响力。这些都可以被认为是在做云计算,在不知不觉中,把有意义的作品推到了读者的面前,为其节省了搜寻的时间。
想——数据分析
数据分析,首先是去噪,譬如现在好的相机都有防抖功能,这是利用数学方法获得了去除噪声的图片。再一个是滤波或者说信号分离。在宁静的山村,人们早上醒来,听到几波鸡叫,会记得有几只鸡,它们在哪几个方位。这里做了现在称为机器学习或学习理论的事情:识别与分类。把一些鸡叫声归为一类,识别出这是同一只鸡在叫,同时分辨出有几只鸡。又如,看了一个网页,会记住一些关键词,或者说提取了特征统计量。在记录图片时,记住的不会是图片每一个点的颜色(BMP文件),而主要是一种印象,或者说是印象派的图像。印象派有两种:一种是高更的,是导数、图像边缘突现;一种是莫奈的,模糊化的,可能是JPG文件或数学中称为小波框架的图像。这也就是压缩感知,把数据进行降维、压缩,记住想记住的东西,用尽量少的脑细胞记住一件事情。
数据处理的一个重要组成部分是数据的降维,譬如人脸识别。如果可以简单刻画(用简单函数表示)这个人的相片所在的那个低维流形,那么就把那个人容易地识别出来了。降维的主要数学方法是主成分分析,也就是提取特征。统计中的均值方差都是数据的某种特征。可以说任何科学及数学问题的处理无不遵循这个原则,即找出主要矛盾与主要矛盾关系。譬如勾股定理或叫毕达哥拉斯定理,原意是划出方块的土地,地球是圆的,根本没有方块的意义。我们的先贤把它看成是在一个平面上的问题,得到了这个漂亮的结果,并且广泛地进行了应用。现在看来在地球表面上用勾股定理画方块显然是错的。欧几里得空间是数学的基础,但也经常限制了人们的思想自由;而爱因斯坦发现世界上根本就没有直线或平面,光线走的并不是直线。这里不是单纯的数学问题而是一个哲学问题——时空的关系。人们是用地球绕太阳转一圈来定义“年”的,或者更加精确地,用“光”走的路程来定义“秒”的,同时在应用中又用时间来定义距离——光年。
再来说说JPG。JPG还把一个大概印象放在高层,而将细节放在底层,可以逐渐细化地显示。心理学家也做过实验,让许多人快速看一些图片,然后让其描述所看到的内容,也就是印象。发现人的印象也可以分为两类:高更型的可以归于逻辑思维型的,将图像分片,每片用一种颜色表示;莫奈型的可以归于形象思维型的,是细节图像的模糊化结果。当然,更多的人是介于两者之间,融合了这两个压缩感知的方法。
数据从数学上来说主要表现为点或高维空间的点,函数离散化以后还是点,算子离散化以后是矩阵或张量,仍然是高维空间的点。通俗地讲,数据处理就是处理高维空间的点的关系。而点之间的关系是由距离(注意通常不是欧几里得距离)或连接图、连接路径组成。数学上是用转移矩阵表示的,或者说是复杂网络的动力学问题。要找到点之间的关系,通常首先要给每个点或点簇、点云一个地名,这个地名通常是模糊的,它由这个抽象的点或点簇所表示的具体对象的一些关键词组成,这时学习理论的两个根本问题又出现了:一个是模拟识别,就是寻找关键词、特征;一个是分类或聚类,把相近或相异的关键词用数学表示出来。接下来是一个对数学而言还只算是进入皮毛的问题,就是用数学来研究词典、语义学、句法分析、人物关系、段落大意及文章主题。
形——数据重构
通常认为,数据有三元的结构属性:真实的存在、记录的数据、人类的理解。人脑形成的对该事物的理解与采集的数据是有差别的,而采集的数据与该事物的真实存在也总是有差别的。不可能采集事物的全部数据。而人脑对真实事物的理解会比采集数据要全面。记录的数据通常是有容余的,同时又是不全面的。譬如一个人不同环境下的大量相片。有些部分是重复的,通常脸部最多,但又不完全重复,因为角度、光照或表情可能不同。单词“redandency”笔者想译成容余而不是冗余,是想说明这些信息是有重复,但它对信息重构不是完全没有用的。当从真实存在的事件中采集了数据后,人脑会对之复原或重构,在人脑中形成对该事件的形象或理解——脑海中的世界。譬如,手机公司每隔几秒钟就要采集某人的手机位置,这样就可以给出行进路线图,数学上这叫插值与逼近。如果是多人的问题,那么这是一个随机图的动力系统。如果此人从一个手机基站走到另一个手机基站,那么这里有一个关系矩阵或转移矩阵。人们总是将获得的信息或数据去噪、分类、解构后安装、重构到自己已有的知识结构中。譬如,某人阅读了本文,如果可以马上背出全文,那么他一定患有自闭症。聪敏的人会把本文的观点进行分解、提炼,分为有用的和没用的、已经知道的和新的、对的且重要的、错的但也还是重要的、无所谓的。会忘记没用的、旧的、无所谓的,而将有用的、新的、重要的融入自己的思想结构,激活有关的神经与脑细胞。形象地说,聪明人是将本文剪下一些合适的碎片,作为补丁,修补自己的思想结构。因为获得这些观点还可能有其他渠道和来源,会在对这些观点进行分析特别是在批判性的分析的基础上,综合形成自己的观点。
对于信息有多个来源时,有相信谁的问题,这犹如一个专家系统,譬如许多软件可以自动进行天气预报,但结果一般不完全相同,医生看病也是如此。最为简单的是加权平均,比较地相信权威。但人们会得出更为聪敏的结论,知道在什么问题上应该更相信谁,并且一定会以非常大的权重加入自己固有的思想。用数学的语言说,会将问题升维。克莱因瓶不能在三维空间用函数描述,但在四维空间可以数学描述。复数、四元数正是用来处理这样的问题的。所以,为更好地处理数据,升维是数据处理的一个重要方法,在一个更高的思维层面上考虑问题,以便更好地看到主要矛盾之间的关系。而这时涉及异构数据的融合问题。还是要请读者注意,安装一般不是欧几里得的张量积,或者数学的直接和。上面讲过勾股定理,这实际上是伟大数学家毕达哥拉斯、欧几里得的思想局限。一个基本的哲学问题“宇宙是有限的还是无限的”,这个问题要放到四维以上的空间才能更好地进行描述。人在三维空间内总认为自己所处的空间是平直的。毕达哥拉斯已经生活在三维空间了,他还把地球球面看成平面,更何况一只只能生活在地球表面的二维小虫。可以设想人们生活的空间在更高维的空间内不是平直的,称为流形。那么是怎么弯曲的呢?从三维看两维,弯曲分成椭圆、抛物、双曲等类型。如果是椭圆,那么可能是有限的,否则可能是无限的。
还有个问题是什么叫宇宙。从数学上讲如果把宇宙定义为可以到达并回来的所有位置,可以联想到庞加莱猜想:所有闭曲线可以收缩为一个点的流形同胚于球面的一部分,也就是没有亏格,或者形象地说没有洞。如果有亏格,那么就是环面或多个粘在一起的环面。在三维空间中看到过平面吗?平面只是想象出来的东西。人们看到的三维空间中的曲面都是某个有限实体的表面或边界。它们都同胚于多个粘在一起的环面。所以说,宇宙更有可能是一些四维空间的三维环体连接在一起。最近人们用数学讨论办公室的人际关系、《红楼梦》《悲惨世界》的人物关系,发现他们也可以嵌入或粘贴到一个或几个环面(链)上。这就是庞加莱猜想的魅力。几乎任何数据关系都可以粘贴(嵌入)多个粘结在一起的环面上。
识——数据挖掘、预测、利用
识,即数据挖掘、预测、利用。海量数据总还是有限的,也就是说对于真实世界的描述人们可以获得的数据还是太少,还都在瞎子摸象阶段。经典的数据科学回答说大象像簸箕,因为问题是大象像什么,而采集到的数据只有大象耳朵。作为大数据,首先应通过其他途径的经验数据综合认识到大象的耳朵像簸箕,然后还可以综合采集其他部位的数据的结论,形成对整个大象的描述。在数据重构中,人们应该得到比采集数据更多的东西,根据经验恢复部分的缺省数据。譬如大楼,是物理真实存在的一些不完整信息在人脑中形成对大楼的了解。物理存在的内容是完整的事实,而可以看到或了解的只是其中很少一部分,如只是一张斜角包含大半个正面的照片,但由对称性等经验,在人脑中形成的影像会更全面。如果有高楼下面几层的照片,其中窗户是清晰的,同时又有该高层建筑的远距离照片,窗户不怎么清晰,那么在人脑中形成的将是一张窗户清晰的整体相片。
人脑有非常强的数据解构、重建及根据经验再融合重构的能力。大数据就是希望利用数学通过计算机来实现这个能力,并且希望比人类做得更好、更快,特别是大数据分析中,希望完成利用人力几乎不可能完成的任务。看到半张脸、半幢大楼,那么根据对称性,人们对整体会有一个更加全面的形象概念。当下一次从另外的角度再见到时还会认识。那么半句话呢?前几天笔者在某城市就看到一个被树木遮住一半的城市公益广告牌:“花一样的……”。因为是市府公益广告,第一反应是“花一样的城市”,提醒保持环境卫生之类,后来看见边上是一所小学,我想到了“花一样的年华”,提醒要遵守交通规则,当然脑海中还出现了“花一样笑容”“花一样的美丽”等句子。走近一看是“花一样的钱,办更大的事”。这是经验数据在起作用,可见笔者的经验比较浪漫主义,局限在花朵的花,但与现实有一定的距离。当然要处理这样的问题,数学的方法现在可以在譬如百度上键入“花一样的”,然后就可以得到非常多的信息,聚类分类后,统计一下,就可以得到某种结果出现的概率。但要排除掉“这是市府的公益广告”、“边上有学校”之类只在具体事件发生地出现的非直接信息或采集的数据。这些信息通常是有用的,并且可能是决定性的。而在上面的例子,则也可能是误导信息。大数据就是要处理并合理利用这样的信息。
现在许多案件的破获都利用摄像头的视频信息。譬如波士顿爆炸案,是由一系列的模糊信息导致的越来越清晰的结论:炸弹包裹是黑色手提包,有带黑色棒球帽者提着黑色手提包,带黑色棒球帽者经常与带白色棒球帽者在一起,而带白色棒球帽者有脸部清晰相片,对照警察局记录该人有案底。但要处理这些相片需要多少工作量。这些工作有时只靠人力还不行。每个人只能处理一部分相片,而更为关键的是,将各相片中的模糊结论或模糊概念联系起来,能得到貌似还是模糊的、其实更为清晰的结论。首先应该整理这些相片得到一些关键词,最好在照片的拍摄过程中照相机就已经进行了自动处理(离线处理,预处理),放在照片附带的说明文件中。而关键词或者说标签最好是标准化的,当然同时越是标准化越会流失一些可能有用的模糊信息。由于视角的不同与关心问题的角度不同,每个人选择的关键词或标签也是不同的、个性化的。这样又导致了个性化关键词的语义模糊匹配问题。在数学上对个体智能或底层数据处理的研究已经达到了很高的阶段,并且可以说已经看到了基本解决此类问题的曙光。但对群体智能,如何融合多个个体智能的高层数据结构处理、描述、传输、动力系统行为的研究还在一个刚起步和黑暗的阶段。也就是说,大数据处理的高层云模糊设计的数学描述,是大数据处理是否可以有所斩获的关键。具体的就是,如何整理非结构化的数据,使之成为拟结构化的、半结构化的、或者结构化的数据。同时又不能丢失可能有用的信息。
对于数据结构,最后特别想对框架说几句。大家都知道基或坐标。点、函数都是由基的线性组合下表示的。基表示有个缺点,就是当某个数据(坐标、表示系数)损坏时是没有办法恢复的;而在紧框架下数据有自我修复功能。这个革命性的表示方法,在图像处理中已经得到了大量的应用。
总的来说,大数据研究是用数学或数据来描述、理解现实世界,而学习是完成“受想形识”,达到大智慧的唯一途径。