胡一亭见大家都钦佩地看着自己,还以为他们不信却又不好意思说出口,只得笑道:“这真不是什么难事,搜索引擎说白了三步,第一步下载,把要分析的页抓下来。第二部是索引,这里面主要是先要写个全检索引擎,对第一部里面下载下来的本内容进行预处理,进行智能的分词,然后进行数据清洗,把非关键词和无效内容刨掉,只保留重要部分,搜索的时候其实是搜索索引,根据用户查询的关键词,在索引里寻找匹配内容,然后展示出来。雅虎是手工索引,其实本质暴露出他们的算法有大问题,图样图森破,幼稚的很。
第三点是真正有点难度的,是说在匹配内容过多时,怎么排序,怎么把最符合用户搜索目的的内容排在前面,这有一个排序的算法问题,这里面牵涉到一个打分制度,排序算法要把把高分项目排在前面,这里面牵涉到站的重要程度和页的时效性。
但总的来说,让我来写的话,一个礼拜能拿出产品线运行。
真的,这真不是什么高深的技术。”
胡一亭解释了一番,可大家哪里对他有什么怀疑,闻言更觉他简直是技术之神!
参加会议的技术人员都激动不已,觉得胡总真是太牛了!牛大发了!把这样前沿的技术说的跟大白菜似的,这得有多大的底气呀!全国大概再也找不出像胡总这样的第二个人了吧!真不愧是国数学界的新宠!国IC业的天才领军人物!科院计
(本章未完,请点击下一页继续阅读)
第402章 写个搜索引擎玩玩 (第1/3页)
<content>
第403章写个搜索引擎玩玩
这年头搜索引擎对于很多人来说还较神秘,但在二十年后已经是公开的技术了,整个流程和各种page rank算法都是在能下载到的,关于搜索引擎核心技术的详解,国内外各种书籍出了一本又一本,胡一亭自己曾经在百无聊赖时分析过多个算法,还曾经想过拉点投资搞个搜索引擎,从IC设计全栈工程师的繁重研发业务下脱身,自己当个小老板,因此对此毫不陌生,完全可以闭着眼睛抄一个出来,在此基础由技术人员不断更新加强,要抄的话,无论如何,那些都是领先这个时代十几年的算法,拿出手能立刻秒杀雅虎,把谷歌掐死在襁褓里。请大家搜索()看最全!更新最快的小说!
阅读重生之电子风云最新章节 请关注舞文小说网(www.wushuzw.info)



