社交网站分析使用的详细呼叫数据有数十亿行,它们存储在一个有几TB的数据仓库中。所面临的挑战是如何把该数据转换为一种对社交网络分析有用的形式。这涉及一系列的SQL查询、处理详细呼叫数据、定位社会群体并查明这些群体的领袖。
  为了给出数据规模的一般理解,假设有800万移动客户,并且平均每个客户每天有5次呼叫和5次被呼叫。这样每天都可以产生8000万条呼叫详细记录,或者说每星期大约有5.6亿条记录。
  CDR记录是可操作的记录,因此数据不是特别干净。例如,电话号码甚至不是统一的格式,因为一个电话号码可以有多种拨号方式,比如需要添加或去掉国家代码。需要有一个巨大的SQL CASE表达式把所有号码转换成一个完全限定的形式,包括国家代码和区号。
  每个订阅者的详细呼叫数据都由两个表汇总而成,一个表用于呼入,另一个表用于呼出。汇总数据中对于每对呼叫源和被呼叫对象都有一行数据(这两个号码仅有一个必须是订阅号码,这取决于这个表)。列包含语音呼叫、文本消息、图片呼叫以及视频呼叫的总次数,还有这些项目中每项按每天、国际和国内以及其他属性统计的数目。
  对于每个呼叫接受者,需要通过比较呼出与呼入来了解相互关系的性质。通常哪个号码会产生该呼叫?不同端所产生的呼叫的平均长度有什么区别?这些问题的答案有两个因素,均可用于确定社区的领袖。
  为了减少结果表的大小,并把分析的重点放在正在进行的相互关系上,只需要保留那些每个方向的呼叫次数超过一定阀值的号码。这就消除了片面关系,例如呼叫外卖披萨或铃声下载服务。

关于TeamDoc软件:

TeamDoc是基于服务器/客户端架构的轻量级文件管理软件。TeamDoc将文件集中加密存储在您单位自己的服务器中,员工使用TeamDoc客户端访问服务器,从而获得与自己权限相关的权限:登入后与“我的电脑”界面类似,可以看到自己该看的文件,编辑自己能编辑的文档,对于能看到的文件,还可以细分文档权限,进而做到能看不能拷,能看不能截屏等功能,多种权限灵活设置,在线协同编辑、全文搜索、日志与版本追踪,快速构建企业文档库。告别假大空,我们提供值得您选择的、易用的、可用的文档管理软件。现在就访问TeamDoc首页

TeamDoc软件界面(点击可放大)

版权所有:南京网亚计算机有限公司,本文链接地址: SQL数据处理面临的挑战