目前无货,
欢迎选购其他类似产品。

第四范式:数据密集型科学发现 [平装]

~ 潘教峰 (作者), 张晓林 (作者), (作者)
亚马逊正品保证


目前无货,
欢迎选购其他类似产品。



图书描述

2012年6月1日
《第四范式:数据密集型科学发现》系统介绍了地球与环境科学、生命与健康科学、数字信息基础设施和数字化学术信息交流等方面基于海量数据的科研活动、过程、方法和基础设施,生动揭示了在海量数据和无处不在网络上发展起来的与实验科学、理论推演、计算机仿真这三种科研范式相辅相成的科学研究第四范式——数据密集型科学发现,进一步探讨了这种新范式的内涵和内容,包括利用多样化工具不间断采集科研数据、建立系统化工具和设施来管理整个数据生命周期、开发基于科学研究问题的数据分析及可视化工具与方法等,并深入探讨了这种新范式对科学研究、科学教育、学术信息交流及科学家群体的长远影响。
《第四范式:数据密集型科学发现》将帮助从事科学研究、科技研究规划、科技政策等领域的科研人员和管理者理解和把握科研环境与科研方法的革命性变化,也将为学术出版、文献情报、科学数据及其他从事信息与知识管理的人士提供未来的战略视角,同时也有助于有志于科学研究和学术信息交流管理的高层次学生了解未来的挑战和需求。

购买此商品的顾客也同时购买


基本信息


商品描述

编辑推荐

《第四范式:数据密集型科学发现》将帮助从事科学研究、科技研究规划、科技政策等领域的科研人员和管理者理解和把握科研环境与科研方法的革命性变化,也将为学术出版、文献情报、科学数据及其他从事信息与知识管理的人士提供未来的战略视角,同时也有助于有志于科学研究和学术信息交流管理的高层次学生了解未来的挑战和需求。

目录

译者的话
前言
吉姆·格雷论eScience:科学方法的一次革命
第一章地球与环境
一、引言
二、格雷法则:以数据库为中心的科学计算
三、正在兴起的环境应用科学
四、用数据重新定义生态科学
五、海洋科学2020年远景
六、拉近夜空:海量数据中的发现
七、装备地球:下一代传感器网络与环境科学
第二章健康与幸福
一、引言
二、医疗奇点与语义医学时代
三、发展中国家的医疗服务:面临的挑战及可能的解决之道
四、大脑神经回路图谱探索
五、用于神经生物学研究的计算显微镜
六、数据密集型医疗保健的统一建模方法
七、生物系统进程代数模型的可视化
第三章科学的基础框架
一、引言
二、科学新路径?
三、超越数据海啸:发展基础设施,处理生命科学数据
四、多核计算与科学发现
五、并行计算和云
六、工作流工具对以数据为中心的研究的作用
七、语义eScience:在下一代数字化推动的科学研究中实现语义编码
八、数据密集科学可视化
九、所有知识的平台:创建知识驱动的研究基础设施
第四章学术信息交流
一、引言
二、吉姆·格雷的第四范式和科学记录的构建
三、以数据为中心的世界中的文本
四、开船了:走向机器友好的学术信息交流体系
五、数据政策的未来之路
六、我已经看到了范式转变,就是我们自己
七、从Web2.0走向全球数据库
第五章结语
一、未来之路
二、结论
三、下一步
四、致谢
五、关于吉姆·格雷
词汇表
照片和图片鸣谢

文摘

版权页:



插图:





大多数的科学数据分析以分级步骤进行。在第一步中,对数据子集进行抽取,这一工作要通过过滤某些属性(如去除错误的数据)或抽取数据列的垂直子集完成。在接下来的步骤中,通常以某种方式转换或聚合数据。当然,在更复杂的数据集中,这些模式往往伴随着多个数据集的复杂连接,如外部校准或抽取和分析一个基因序列的不同部分[8]。随着数据集的日益增大,进行大多数这些计算的最有效方法显然是尽可能地使分析功能与数据密切结合,这也使大多数的模式很容易通过集合型的表述语言来表达,这种语言的运用可以从基于成本的查询优化、自动并行化和索引中获得巨大收益。
格雷及其合作者展示了几个现有关系数据库技术成功应用于这方面的项目[9]。有一些项目以无缝的方法来整合用程序语言编写的复杂类库,并将其作为底层数据库引擎的扩展[10,11]。
近年来,Map Reduce 2已经成为分布式数据分析和计算的普遍范式[12]。这种范式的原理类似于分布式分组和聚合的能力,这些能力已经在并行关系数据库系统中存在了一段时间。新一代的并行数据库系统,如Teradata、Aster Data和Vertica,已经将这些能力重塑为“数据库中的MapReduce”,并开发出可以比较每种方法优点的新基准[13]。
与科学家连接
设计科学数据库面临的最具挑战性的问题是在数据库建设者和对分析感兴趣的专门领域科学家(domainscientists)之间建立起有效的交流。但大多数项目犯下了竭力追求“为所有人做所有事”(everything for everyone)的错误。显然,有一些特征要比其他一些特征更重要。因此,有必要对不同设计进行折中,当然,这也导致性能的折中。
吉姆·格雷提出了“20个询问”的启发式规则。在他参与的每一个项目中,他都寻求研究人员想让数据系统回答的最重要的20个问题。他认为,5个问题不足以识别广泛的模式,100个问题将导致重点不突出。由于与人2译者注:Map Reduce是Google开发的分布式计算模型,在处理T级别以上巨量数据业务时有显著优势。
类选择有关的大多数决定都遵循“长尾理论”(或所谓的1/f分布),询问中的相关信息根据重要性排序显然是呈对数分布,大约在20(24.5)~100(26.5)范围内实现增益是适中的[14]。
“20个询问”规则是一种设计步骤的别称,这种步骤使专门领域科学家和数据库设计者可以对话,填补科学领域中使用的名词和动词之间,以及数据库中存储的实体和关系之间的语义鸿沟。这些询问定义了专门领域科学家期望对数据库提出的有关实体和关系方面的精确问题集。这种重复实践的结果是:专门领域科学家和数据库之间可以使用共同的语言。
这种方法非常成功地使设计过程聚焦于系统必须支持的最重要特征,同时帮助专门领域科学家理解数据库系统的折中,从而限制“特征的蠕变”。

看过此商品后顾客买的其它商品?


商品评论

目前还没有用户评论
5 星
4 星
3 星
2 星
1 星

用户论坛

话题列表
话题 回复 最后发表
目前暂无话题

您可以发表感想,分享观点,咨询问题
[发起新话题]

相关论坛里的话题
论坛搜索
搜索亚马逊网站的所有帖子
   
相关论坛


查找其它相似商品


反馈

产品信息有问题吗?请帮我们更新产品信息