存档

文章标签 ‘Google’

数学之美系列十六 — 谈谈最大熵模型

2009年3月27日

    2006年10月8日 上午 07:27:00

    发表者: 研究员,吴军

    我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清…

数学之美系列十五 — 繁与简 自然语言处理的几位精英

2009年3月27日

2006年8月23日 下午 11:22:00

发表者:吴军, 研究员

我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在…

数学之美系列十四 — 谈谈数学模型的重要性

2009年3月27日

    2006年8月9日 上午 09:12:00

    发表者:吴军, 研究员

    [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。]

    在 包括哥白尼、伽利略和…

数学之美系列十三 — 信息指纹及其应用

2009年3月27日

2006年8月3日 上午 11:17:00

发表者:吴军, 研究员

任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。

我们在图论…

数学之美系列十二 — 余弦定理和新闻的分类

2009年3月27日

    2006年7月20日 上午 10:12:00

    发表者:吴军, 研究员

    余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。

    的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快…

数学之美系列十一 — Google 阿卡 47 的制造者阿米特.辛格博士

2009年3月27日

2006年7月10日 上午 09:52:00

发表者: 研究员,吴军

枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord of

War)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从…

数学之美系列十 — 有限状态机和地址识别

2009年3月27日

    2006年7月5日 上午 09:09:00

    发表者:吴军, 研究员

    地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。

    一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态…

数学之美系列九 — 如何确定网页和查询的相关性

2009年3月27日

2006年6月27日 上午 09:53:00

发表者:吴军, 研究员

[我们已经谈过了如何自动下载网页、如何建立索引如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校…

数学之美系列八– 贾里尼克的故事和现代语言处理

2009年3月27日

2006年6月8日 上午 09:15:00

发表者: 研究员,吴军

读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人…

数学之美系列七 — 信息论在信息处理中的应用

2009年3月27日

2006年5月25日 上午 07:56:00

发表者:吴军, 研究员

我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。

先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语…

数学之美系列六 — 图论和网络爬虫 (Web Crawlers)

2009年3月27日

    2006年5月15日 上午 07:15:00

    发表者: 吴军, 研究员

    离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系…

数学之美系列五 — 简单之美:布尔代数和搜索引擎的索引

2009年3月27日

2006年5月10日 上午 09:10:00

发表者: 吴军, 研究员

[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们…

数学之美系列四 — 怎样度量信息?

2009年3月27日

    2006年4月26日 上午 08:11:00

    发表者:吴军, 研究员

    前言: 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?

    信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多…

数学之美系列三 — 隐含马尔可夫模型在语言处理中的应用

2009年3月27日

    2006年4月17日 上午 08:01:00

    发表者:吴军, 研究员

    前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。

    自 然语言是人类交流信息的工…

数学之美系列二 — 谈谈中文分词

2009年3月27日

2006年4月10日 上午 08:10:00

发表者: 吴军, 研究员

谈谈中文分词

----- 统计语言模型在中文处理中的一个应用

上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

分成一串…

数学之美系列一 — 统计语言模型

2009年3月27日

2006年4月3日 上午 08:15:00

从本周开始,我们将定期刊登 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。

发表者: 吴军, 研究员

前言

也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题…

Google工程师Matt Cutts谈SEO

2009年3月23日

原文出处不详 

1. 如果不做搜索引擎优化,用户找不着你。
2. 只要你提供对用户有帮助的内容,而这些内容又可以被蜘蛛顺利抓取,正常情况下,就已经解决了大部分问题。
3. 不用担忧很多网站共享同一个IP地址,放在同一架服务器上,对排名完全没有影响。
4. 上百万个网页同时上线,不一定有问题,但绝大部分情况…

Google排名更新

2009年3月21日

今天搜自己的博客,发现搜索“Kevin Yang 博客”关键词我的博客已经列在了第一位了,已经把自己博客园的博客挤到下面去了~

呵呵,看来是SEO做得比较好,小高兴一下^^

Google的价值观

2009年3月7日

转自


创始人之一 Larry Page 指出:“完美的搜索引擎需要做到确解用户之意,切返用户之需”。就搜索技术的现状而言,我们需要通过研究、开发和革新来实现长远的发展。 致力于成为这一技术领域的开拓者。尽管 已是全球公认的业界领先的搜索技术公司,但其目…