2016年流行一个术语叫做数据主义,数据主义认为整个世界由数据流构成,数据每天以指数级增长,电话、飞机、网购、出行都是一个新的数据。数据将会有越来越重要的作用,同时人的地位慢慢开始下降。未来人的价值取决于对数据流的分析解读能力,因此分析技术在未来变得越来越重要。
数据和人之间将通过算法连接,所以我们推出一个新的概念叫算法经济或算法革命。传统的算法很多,如最早的数学算法,后来的天文算法,现在的统计学开启的算法,但都不能满足机器学算法。追求更智能化正改变着人类的进程,数据离开了算法就没有太多的意义。
到了新时代,我们发现很多是不规则的非结构化数据,更重要的是希望通过机器做一些事情,这对算法提出了新的要求。人工智能主要包括以生物为基础的生物智能和以算法为基础的机器智能。而机器智能的核心是数据智能,这完全取决于算法。
大数据分析的工具是怎么发展的?第一代是基于关系型数据库的分析,在这方面中国人比较落后,因此我们推出了马克威关系型数据库的分析软件,现在已经有很多用户了。
而到了大数据时代,关系型数据库不能满足大量数据分析的需求,所以出现一个新的.算法-分布式的算法,要调用分布式存储的数据进行分析,就需要分布式的算法体系,到目前为止,算法体系只有一个开源,是简单的9个算法,而且对计算结果不敢负责,另外是马克威分布式算法软件-马克威云挖掘软件。
这一点上我们已把传统的关系型数据库抛在后面。我们和阿里巴巴合作开发该软件,在阿里云测试3000台服务器,一张表176亿条记录,68个变量,体积大概是3.4T.这张表是指淘宝的零售表,我们计算的结果是36秒,这意味着可以做很多的分析。这是真正用了大数据算法,不是停留在理论。
马克威是完全基于分布式架构来重新编写,是真正的分布式软件,其理念是实现从数据找算法变成算法找数据,通过算法逐步计算,然后将结果累计起来。
就在刚刚完成了分布式不久,Spark RDD用Scala语言编写的分布式内存数据处理应用,马克威把分布式算法变成分布式内存计算,把我们的算法和Sp a rk对接。这意味着当下算法的发展已到了比较新的生态-分布式内存生态,既可以处理大量数据,同时可以快速解决问题。
还有一个发展趋势,未来是人工智能的时代,人工智能说到底拼的还是算法模型。因此,天律公司正在研制基于硬件技术的嵌入式芯片。
机器智能就是机器学习算法,大部分还是在软件中运行,其速度跟不上工业设备的需求。因此我们采用FPGA技术,把算法做成极速嵌入式的装置,可以满足人机一体化的需求。目前FPGA是最快的技术,且有很多机器设备在用。我们取得了一些初步成果,第一个应用是上海期货,而期货高频交易是因为大家需要更快地看到行情。
我们推出中国第一个算法交易平台,这里有一个理念-套装软件衰落,算法模型兴起。现在我们将所有的算法重新编写,编成大量小的模型,部署在云端算法的交易平台上。我们的理念是第一代互联网门户,如新浪、搜狐、网易;第二代互联网交易平台,如阿里巴巴、京东、1号店;第三代算法平台,即知识产品、智慧产品在互联网的交易。我们正在紧锣密鼓测试我们的平台,希望我们的算法能够为社会各领域服务,由现在的B2B变成B2C或C2B,允许别人把他们的算法模型拿到我们的平台交易,这是我们开创的新商业模式。
15年以来,我们专注的一件事情就是算法。我们有算法大全、应用模型大全、算法学院,还有集权的文档,并网罗全世界难找到的开源算法。我们将免费的算法知识都汇集到一个平台上,要让所有的中国人一想到分析和算法,就上马克威算法平台。
天律公司于2001年成立,是中国第一家真正做大数据分析化软件的公司,我们现在是国家统计局“大数据与统计建模”的指定厂家,以及全国大学生统计建模竞赛(SUCM)的指定参赛软件,国家火炬计划项目、中国商务智能领军品牌,国家统计局、海关总署、商务部、环保部、水利部、国家质检总局、上海世博会,阿里巴巴等互联网公司,以及一些大型企业和高校都是我们的客户。
我们有五大产品,马克威云挖掘,马克威分析系统、马克威决策支持平台、马克威算法交易平台、马克威硬件极速交易系统。这些系统得到很多金融界朋友的认可。
【我国大数据分析工具的研究情况探析论文】相关文章: