第403章写个搜索引擎玩玩
这年头搜索引擎对于很多人来说还比较神秘,但在二十年后已经是公开的技术了,整个流程和各种pagerank算法都是在网上就能下载到的,关于搜索引擎核心技术的详解,国内外各种书籍出了一本又一本,胡一亭自己就曾经在百无聊赖时分析过多个算法,还曾经想过拉点投资搞个搜索引擎,从ic设计全栈工程师的繁重研发业务下脱身,自己当个小老板,因此对此毫不陌生,完全可以闭着眼睛抄一个出来,在此基础上由技术人员不断更新加强,要抄的话,无论如何,那些都是领先这个时代十几年的算法,拿出手就能立刻秒杀雅虎,把谷歌掐死在襁褓里。
胡一亭见大家都钦佩地看着自己,还以为他们不信却又不好意思说出口,只得笑道:“这真不是什么难事,搜索引擎说白了就三步,第一步下载,把要分析的网页抓下来。第二部是索引,这里面主要是先要写个全文检索引擎,对第一部里面下载下来的文本内容进行预处理,进行智能的分词,然后进行数据清洗,把非关键词和无效内容刨掉,只保留重要部分,搜索的时候其实就是搜索索引,根据用户查询的关键词,在索引里寻找匹配内容,然后展示出来。雅虎就是手工索引,其实本质上就暴露出他们的算法有大问题,图样图森破,幼稚的很。
第三点是真正有点难度的,就是说在匹配内容过多时,怎么排序,怎么把最符合用户搜索目的的内容排在前面,这就有一个排序的算法问题,这里面牵涉到一个打分制度,排序算法要把把高分项目排在前面,这里面牵涉到网站的重要程度和网页的时效性。
但总的来说,让我来写的话,一个礼拜就能拿出产品上线运行。
真的,这真不是什么高深的技术。”
胡一亭解释了一番,可大家哪里对他有什么怀疑,闻言更觉他简直就是技术之神!
参加会议的技术人员都激动不已,觉得胡总真是太牛了!牛大发了!把这样前沿的技术说的跟大白菜似的,这得有多大的底气呀!全国大概再也找不出像胡总这样的第二个人了吧!真不愧是中国数学界的新宠!中国ic业的天才领军人物!中科院计算所的骄傲!国产处理器的希望!全球首款通讯软件的缔造者!重光集团之首!自主研发信仰的守护者!
重光软件几名技术主管纷纷表态,“胡总你能不能让我参加这个项目,带带我,我一直都想知道怎么写搜索算法。”
“胡总你带上我吧!别说一个礼拜,一年都行!这样的前沿的搜索引擎技术,一年能写出来都是超高水平的了!”
“胡总我也想参加这个项目,我帮您抓bug,这我内行。”
这些技术人员里,王保良更是知道胡一亭轻描淡写几句话其中的难度,激动之余心驰神往道:“胡总你真是举重若轻!这么难的前沿技术,可是听你说起来却简直像是闲庭信步,你真是奇才!不愧是我们国家超一流的数学家!我早该知道的,你连庞加莱猜想都能解开,处理器多媒体指令集都能单枪匹马的编出来,写个算法那还不是玩儿似的,这种东西在你眼里肯定是跟小孩子过家家一样轻松。”
王丽丽也为胡一亭骄傲,自豪道:“这是自然的,我就没见过有胡总解决不了的技术难题,在研发上,胡总那是真功夫,真正的天才。”
胡一亭笑着摆手:“你们不用夸我,我知道自己几斤几两,能做的我当然会做,这样吧,接下来我尽快把算法写出来,争取早日把咱们重光的搜索引擎推上线,接受用户的检验。”
会议结束后,胡一亭已经拟定了项目组名单,因为有足够的把握在很快时间里写完或者叫抄完算法,胡一亭一口气叫上了王保良等五名软件工程师,六人一起进行搜索引擎核心算法的编写。
接下来一周里,胡一亭每天上午天不亮就起床,和王保良等人在重光软件小小的会议室中进行算法编写,算是临时征用了这间屋子。
编写过程中王保良等人着实领教了什么叫做天才。
继头一天胡一亭简单编写了一部软件开发计划书之后,接下来几日就见他在电脑前头也不抬的写代码,一套完全不用修改的先进算法如清溪般从他指尖流淌出来。