一、人类社会三大要素
人类社会三大要素(能源 材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化時代,使现代社会所有大的机构都卷入到以数据及其处理(数据搜集 存储 检索 传送 分析和表示)的浪潮中。而随着人类活动范围扩展,节奏加快,以及技术的进步,人们能以更快速较易而廉价的方式获取和存储数据,这就使得数据和信息量以指数形式向上增长。早在八十年代,人们粗略地估算到全球信息量,每隔20个月就增加班一倍。进入九十年代,各类机构所有数据库数据量增长更快。一个不大的企业每天要产生100MB以上来自各方面的营业数据。美国政府部门的一个典型的大数据库每天要接收约5TP数据量,在15秒到1分钟时间里,要维持的数据量达到300TB,存档数据达15-100PB。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达3-4TB之多,而为了研究的需要,这些数据要保存七年之久。九十年代因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(V P N--Virtual Private network)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。据估计,1993年面全球数据存贮容量约为二千TP,到达2000年会增加到三百万TB,对这极度膨胀的数据信息量,人们受到“信息爆炸”“混沌信息空间”(Information Chaotic Spact)和“数据过剩”(Data glut)的巨大压力。
然而,人类的各项活动基于人类的智慧和知识,即对外部世界的观察和了解,正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到智慧,要经过分析加工处理精炼的过程。如图1所示:数据是原材料,它只是描述发生了什么事情,它不提供判断或解释,和行动的可靠基础。人们对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们手上的任务没有什么关联,还不能做为判断 决策和行动的依据。对信息进行再加工,进行深入洞察,才能获得更有用可资利用的信息,即知识.所谓知识,可以定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的。”从信息中理解其模式,即形成知识。在大量知识积累基础上,总结成原理和法则,就形成所谓智慧(Wisdom).其实,一部分人类文明发展史,就是在各种活动中 知识的创造 交流 再创造不断积累的螺旋式上升的历史。另一方面,计算机与信息技术的发展,加速了这种过程,据德国世界报的资料分析,如果说19世纪时科学定律(包括新的化学分子式,新的物理关系和新的医学认识)的认识数量一百年增长一倍,到本世纪60年代中期以后,每五年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,也感到像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用.这样,相对于“数据过剩” 和“信息爆炸”,人们又感到“信息贫乏”(Information poor)"数据关在牢笼中”(data in jail).
二 从数据到知识
早在八十年代,人们从“物竞天择 适者生存”的大原则下,认识到“谁最先从外部世界获得有用信息并加以利用谁就是优胜者”。现时当市场经济面向全球性剧烈竞争的环境下,一家厂商的优势不在于像产品 服务 地区等方面因素,而在于创新。用知识来作为创新的原动力,就能使公司长期持续保持竞争优势。因此要能及时迅速从日积月累的庞大的数据库及网络上获取有关经营决策有关知识,这是应付客户需求易变性及市场快速变化引起竞争激烈局面的唯一武器。
针对上述情况,如何对数据与信息快速有效地进行分析加工提炼以获取所需知识并发挥其作用,向计算机和信息技术领域提出了新的挑战。其实计算机和信息技术发展的过程,也是数据和信息加工手段不断更新和改善的过程。早年受技术条件限制,一般用人工方法进行统计分析,和用批处理程序进行汇总和提出报告.在当时市场情况下,月度和季度报告已能满足决策所需信息要求。随着数据量的增长,多渠道数据源带来各种数据格式的不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是所谓数据仓库(data Warehousing).它不同于只适用于日常工作的数据库.它是为了便于分析针对一定主
题(Subject-oriented)的集成化的 时变的(time-Variant即提供存贮5-10或更老的数据,这些数据不再更新,供比较以求出趋向及预测用)非破坏性(即只容易输入和访问不容许更新和改变)的数据集中场所。数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速人们提出了能实时分析和报表的在线分析手段OLAP(On Line Analytical Processing),它是一种友好而灵活的工具,它能允许用户以交互方式浏览数据仓库对其中数据进行多维分析,能及时地从变化和不太完整的数据中提出与企业经营动作有关的信息。例如能对数据中的异常和变化行为进行了解,OLAP是数据分析手段的一大进步,以往的分析工具所得到的报告结果能回答“什么”(What),而OLAP的分析结果能回答“为什么”(Why)。但上述分析手段是建立在用户对深藏在数据中的某种知识有预感和假设的前提下。而由于数据仓库(通常数据贮藏量以TB计)及联网界面上的数据来源于多种信息源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时迅速准确地作出经营动作的决策,以适应变化迅速的市场环境,就需要有一种基于计算机与信息技术的智能化自动工具,来发掘埋藏在数据中的各类知识。这种手段不应再基于用户假设,而应能自身生成多种多种假设,再用数据仓库或联网的数据进行检验和验证,然后返回对用户 最有用的结果。同时这种工具还应能适应现实世界中数据的多种特性(即量大 含噪声 不完整 动态 稀疏性 异质 非线性等)。要达到上述要求,只借助于一般数学分析和算法是无能为力的。多年来,数理统计技术以及人工智能和知识工程等领域的研究成果,诸如推理 归纳学习 机器学习 知识获取 模糊理论 神经元网络 进化算法 模式识别 粗糙集理论等等分支给开发上述工具提供了坚实而丰富的理论和技术基础。九十年代中期以来,许多软件开发商,基于上述技术和市场需求,开发了名目繁多的数据发掘(DM--Data Mining)和知识发现(KDD--Discovery from Data)工具和软件,DM和KDD形成了近年来软件开发市场的热点,并且已不断出现成套软件和系统,并开始朝智能化整体解决方案发展,这是从数据到知识前进过程中又一个里程碑。
从数据中获取有用信息或知识,是一个完整的对数据进行加工 处理的过程。如图3所示,其中DM是关键的一步。挑选:按一定的标准从数据源中挑选或切取一组数据,形成目标数据。净化和预处理:将不必要或影响分析进程的部分数据删去。转换:将预处理后的数据进行某些转换使之成为可用和可导引的数据。数据发掘:这是关键的阶段,从数据中抽取出信息的模式。所谓模式,可以作如下定义:给定一组事实(数据)F,一种语言L,和某种可信度测量C,模式就是一种用L的描述方式S,它以可信度C对F的一个子集Fs各事实间的关系进行描述,这种描述在某种意义上比枚举Fs中所有事实上要简单得多。解释赋义或可视化:将模式解释为可以支持决策的知识,例如预测 分类 汇总数据内容和解释所观察到的.现象等。上述阶段之间也许还需要某种迭代分析.(见图3)从上述过程可以看出,从数据中获取知识是涉及多个领域内技术融合的综合应用(见图4)
数据库 模式识别
技术
机器学 可视化
习技术 技术
AI技术 统计学
图4 DM(KDD)与相关技术