数学之美系列二十三 — 谈谈香农第一定律

2009年3月27日

2007年12月3日 上午 10:05:00

发表者:Google(谷歌)研究员 吴军

今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。…

数学之美系列二十二 — 谈谈密码学的数学原理

2009年3月27日

    2007年12月3日 上午 10:05:00

    发表者:Google(谷歌)研究员 吴军

    前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密码学是以数学为基础的。(没有看过暗算的读者可以看一下介绍,

数学之美系列二十一—— 布隆过滤器(Bloom Filter)

2009年3月27日

    2007年7月3日 上午 09:35:00

    发表者:Google(谷歌)研究员 吴军

    在 日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它

数学之美系列二十 — 自然语言处理的教父 马库斯

2009年3月27日

2007年4月13日 下午 07:03:00

发表者:Google 研究员,吴军

我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米…

数学之美系列十九 — 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

2009年3月27日

    2007年1月28日 下午 09:53:00

    发表者:Google 研究员,吴军

    我们在前面的系列中多次提到马尔可夫链 (MarkovChain), 它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互的关系并不能用

数学之美系列十八 — 矩阵运算和文本处理中的分类问题

2009年3月27日

    2007年1月1日 下午 03:10:00

    发表者:Google 研究员,吴军

    我 在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在

数学之美系列十七 — 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

2009年3月27日

    2006年11月28日 上午 03:18:00

    Google 研究员 吴军

    自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。

数学之美系列十六 — 谈谈最大熵模型

2009年3月27日

    2006年10月8日 上午 07:27:00

    发表者:Google 研究员,吴军

    我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为

数学之美系列十五 — 繁与简 自然语言处理的几位精英

2009年3月27日

2006年8月23日 下午 11:22:00

发表者:吴军,Google 研究员

我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔…

数学之美系列十四 — 谈谈数学模型的重要性

2009年3月27日

    2006年8月9日 上午 09:12:00

    发表者:吴军,Google 研究员

    [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在

数学之美系列十三 — 信息指纹及其应用

2009年3月27日

2006年8月3日 上午 11:17:00

发表者:吴军,Google 研究员

任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。…

数学之美系列十二 — 余弦定理和新闻的分类

2009年3月27日

    2006年7月20日 上午 10:12:00

    发表者:吴军,Google 研究员

    余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。

数学之美系列十一 — Google 阿卡 47 的制造者阿米特.辛格博士

2009年3月27日

2006年7月10日 上午 09:52:00

发表者:Google 研究员,吴军

枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord…

数学之美系列十 — 有限状态机和地址识别

2009年3月27日

    2006年7月5日 上午 09:09:00

    发表者:吴军,Google 研究员

    地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。

数学之美系列九 — 如何确定网页和查询的相关性

2009年3月27日

2006年6月27日 上午 09:53:00

发表者:吴军,Google 研究员

[我们已经谈过了如何自动下载网页、如何建立索引如何衡量网页的质量

数学之美系列八– 贾里尼克的故事和现代语言处理

2009年3月27日

2006年6月8日 上午 09:15:00

发表者:Google 研究员,吴军

读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。…

数学之美系列七 — 信息论在信息处理中的应用

2009年3月27日

2006年5月25日 上午 07:56:00

发表者:吴军, Google 研究员

我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。…

数学之美系列六 — 图论和网络爬虫 (Web Crawlers)

2009年3月27日

    2006年5月15日 上午 07:15:00

    发表者: 吴军,Google 研究员

    离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫

数学之美系列五 — 简单之美:布尔代数和搜索引擎的索引

2009年3月27日

2006年5月10日 上午 09:10:00

发表者: 吴军,Google 研究员

[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍…

数学之美系列四 — 怎样度量信息?

2009年3月27日

    2006年4月26日 上午 08:11:00

    发表者:吴军,Google 研究员

    前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益”