文件管理数据流DSL支持开发人员通过由过滤、转换和聚合组件组成的管道的形式来表示大型数据集合的数据处理。这种DSL最广为人知的使用例子是Pig——一个多数Hadoop发行版都捆绑了的工具。Pig使用对MapReduce框架进行了抽象的过程化数据流语言,但内部使用的MapReduce。
1Pig
鉴于Facebook发明了Hive来支持分析使用熟悉的SQL DSL来处理Hadoop数据。Pig有一个自定义的语言称为PigLatin,它不是基于SQL的,这意味着对于有经验的SQL用户;爱说学习曲线更陡,PigLatin最适合开发人员。
2Cascading和Scalding
Cascading是底层MapReduce API之一最流行的Java DSL。Cascading为MapReduce编程提供了图灵完整的、内部的或嵌入式的DSL,明显类似于连接多个管道到数据流中。Cascading隐藏了底层API的很多细节,使得开发人员能够专注于手上的问题。
Cascading基于一个“管道装置”的比喻来组装分割、合并和加入数据流的管道,对文件管理数据进行操作。在Cascading中,数据记录称作元组,管道称作管道装配,穿过管道的记录称作元组流。使用管道装置的比喻,Cascading用人们熟悉的管道装置配件——例如管道、水龙头和弯曲管——定义了工作流。
关于TeamDoc软件:
TeamDoc是基于服务器/客户端架构的轻量级文件管理软件。TeamDoc将文件集中加密存储在您单位自己的服务器中,员工使用TeamDoc客户端访问服务器,从而获得与自己权限相关的权限:登入后与“我的电脑”界面类似,可以看到自己该看的文件,编辑自己能编辑的文档,对于能看到的文件,还可以细分文档权限,进而做到能看不能拷,能看不能截屏等功能,多种权限灵活设置,在线协同编辑、全文搜索、日志与版本追踪,快速构建企业文档库。告别假大空,我们提供值得您选择的、易用的、可用的文档管理软件。现在就访问TeamDoc首页
TeamDoc软件界面(点击可放大)
版权所有:南京网亚计算机有限公司,本文链接地址: 文件管理数据流和相关的DSL