存档

文章标签 ‘数学之美’

数学之美系列四 — 怎样度量信息?

2009年3月27日

    2006年4月26日 上午 08:11:00

    发表者:吴军, 研究员

    前言: 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?

    信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多…

数学之美系列三 — 隐含马尔可夫模型在语言处理中的应用

2009年3月27日

    2006年4月17日 上午 08:01:00

    发表者:吴军, 研究员

    前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。

    自 然语言是人类交流信息的工…

数学之美系列二 — 谈谈中文分词

2009年3月27日

2006年4月10日 上午 08:10:00

发表者: 吴军, 研究员

谈谈中文分词

----- 统计语言模型在中文处理中的一个应用

上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

分成一串…

数学之美系列一 — 统计语言模型

2009年3月27日

2006年4月3日 上午 08:15:00

从本周开始,我们将定期刊登 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。

发表者: 吴军, 研究员

前言

也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题…