Internet 上有一些可用的 XML Recordreader 实现的示例,但它们中的大多数都存在些缺点,包括以下几点:
它们通常仅支持单个标签,而在现实中,用户可能想要获取多个标签中的XML片段
它们通常不支持XML空标签。
它们通常不支持由 zip /gzip压缩的文件。压缩是缩减文件大小的一种常见技术,尽管存在一些不要将压缩文件用于 Mapreduce 处理的原因(这种情况下无法切分文件),但在多文件 Mapreduce 作业的情况下,压缩文件仍然经常使用。
在某些应用程序中,我们可能只想处理起始标签(为了获取其属性)。一个典型的例子是文档的起始标签以属性的形式包含文档的元数据。如果将此片段作为一个整体来处理,那么它将会包括文档的全部内容,以致在文档中无法找到其他标签。
关于TeamDoc软件:
TeamDoc是基于服务器/客户端架构的轻量级文件管理软件。TeamDoc将文件集中加密存储在您单位自己的服务器中,员工使用TeamDoc客户端访问服务器,从而获得与自己权限相关的权限:登入后与“我的电脑”界面类似,可以看到自己该看的文件,编辑自己能编辑的文档,对于能看到的文件,还可以细分文档权限,进而做到能看不能拷,能看不能截屏等功能,多种权限灵活设置,在线协同编辑、全文搜索、日志与版本追踪,快速构建企业文档库。告别假大空,我们提供值得您选择的、易用的、可用的文档管理软件。现在就访问TeamDoc首页
TeamDoc软件界面(点击可放大)
版权所有:南京网亚计算机有限公司,本文链接地址: 为XML数据实现 Record Reader