文本挖掘的第一个挑战是在计算机中表示文档。文档可以以它们自身的形式存储,即文本形式。然而,这并不一定有助于计算机理解他们。有一系列理解文档的办法。一个极端是“词袋(bag of words)”方法,此时文档被看成仅仅是单词的集合。而另一个极端则是“理解的方法”,此时尝试真正理解文档以及每个词的特定意思。
  1.词袋
  词袋(bag-of-words)方法将文档看作是一个单词列表。你可能会惊讶于词袋方法为何可行。毕竟,虽然两个句子“Man eats fish(人吃鱼)”和”Fish eats man(鱼吃人)“使用了同样的词,但是它们的含义完全不同。
  2.自然语言处理
  分析的另一个极端是试图真正理解文本,创建文本所叙述内容的模型。技术上将其称为语义(semantics)。这非常困难,因为词的真实意思往往取决于他们的上下文。考虑以下两句话:
  Time file like an arrow(光阴似箭)
  Fruit files like a banana(果蝇喜欢吃香蕉)
  这两个句子可以都是这样的形式:名词、动词、介词、名词短语(如第一个句子)。或者,也都可以是如下的形式:名词短语、动词、名词短语(如第二个句子)。母语为英语的人能够区分它们,因为他们理解意思。
  另一个问题是歧义。考虑“The turkey is ready to eat(火鸡可以吃了)“这是否意味着拿出刀和叉,感恩节开始了?或者这是否意味着饥饿的土耳其获得了其食物?就像包含没有先行词的代词的句子一样,该句本身没有包含足够的信息来确定意思。
  也许最早尝试理解意思的程序是称为SHRDLU的程序,其是由创建麻省理工学院的Terry Winograd在20世纪60年代后期创建的。
  SHRDLU不仅仅是一个程序。它是一个可以在某一端(使用输入的命令和响应)与人交流程序。SHRDLU控制一个存储在计算机内存的积木世界,并显示在屏幕上。用户可以输入命令,例如“把最大的那块放在盒子中。”如果控制器不理解这个命令,它可能会回应说,“我不知道你是指哪一块”。否则,SHRDLU会做合适的操作。用户甚至可以向SHRDLU提问题,比如“角锥体是由什么支撑的?”
  在快速发展数十年之后,依然不存在可以轻松地与人交谈任何事物的计算机程序。然而,在语义理解方面已经取得了重大进展。例如,呼叫中心的应用程序可以响应简单的问题,如“我的账户余额是多少?”

关于TeamDoc软件:

TeamDoc是基于服务器/客户端架构的轻量级文件管理软件。TeamDoc将文件集中加密存储在您单位自己的服务器中,员工使用TeamDoc客户端访问服务器,从而获得与自己权限相关的权限:登入后与“我的电脑”界面类似,可以看到自己该看的文件,编辑自己能编辑的文档,对于能看到的文件,还可以细分文档权限,进而做到能看不能拷,能看不能截屏等功能,多种权限灵活设置,在线协同编辑、全文搜索、日志与版本追踪,快速构建企业文档库。告别假大空,我们提供值得您选择的、易用的、可用的文档管理软件。现在就访问TeamDoc首页

TeamDoc软件界面(点击可放大)

版权所有:南京网亚计算机有限公司,本文链接地址: 表示文档的基本方法