垂直搜索技术框架
roki
2009-06-13
技术原理
垂直搜索有搜索引擎的共性,即需要抓取大量的网页,分析其中的数据,特性是通用搜索更着重于正文内容的分离,关键字索引,链接关联权重分析,是一种非结构化分析,而垂直搜索更着重于正文内容模式分离,数据调整,相关链接分析,是一种结构化分析过程。 垂直搜索技术框架 垂直搜索的模块主要有以下几部分: 网站分析——你需要设定自己需要的网站资料,并设定行业统一模板。 站点初始化——不同于通用搜索,很多垂直搜索需要登录到站点内部才能拿到有效信息或完整信息,所以你需要一个模拟登录的过程,很多时候你甚至需要一个模拟的注册过程。 页面爬虫——抓取页面数据。 图片爬虫——鉴于负载分摊原则,这是一个独立模块,并衍生出MP3爬虫,Flash爬虫,视频爬虫等等模块。 数据分析——模式分离正文内容,分析有用链接,为爬虫产生新的数据URI。 迁移完整——数据拷贝集中,修改部分数据格式,使之适应行业统一模板,并做一些数据挖掘和深加工工作。垂直搜索还没有形成大的气候,不要奢望有行业站点主动去做垂直搜索引擎优化,我们能做的只能是优化垂直搜索引擎。 数据发布——发布到你的外网服务器,对关键数据进行分词,建立合适的索引。 外网查询——最快的检索速度,一个更好的UI,更多的应用,可行的盈利模式。 |
|
eimhee
2010-06-25
roki 写道 技术原理
垂直搜索有搜索引擎的共性,即需要抓取大量的网页,分析其中的数据,特性是通用搜索更着重于正文内容的分离,关键字索引,链接关联权重分析,是一种非结构化分析,而垂直搜索更着重于正文内容模式分离,数据调整,相关链接分析,是一种结构化分析过程。 垂直搜索技术框架 垂直搜索的模块主要有以下几部分: 网站分析——你需要设定自己需要的网站资料,并设定行业统一模板。 站点初始化——不同于通用搜索,很多垂直搜索需要登录到站点内部才能拿到有效信息或完整信息,所以你需要一个模拟登录的过程,很多时候你甚至需要一个模拟的注册过程。 页面爬虫——抓取页面数据。 图片爬虫——鉴于负载分摊原则,这是一个独立模块,并衍生出MP3爬虫,Flash爬虫,视频爬虫等等模块。 数据分析——模式分离正文内容,分析有用链接,为爬虫产生新的数据URI。 迁移完整——数据拷贝集中,修改部分数据格式,使之适应行业统一模板,并做一些数据挖掘和深加工工作。垂直搜索还没有形成大的气候,不要奢望有行业站点主动去做垂直搜索引擎优化,我们能做的只能是优化垂直搜索引擎。 数据发布——发布到你的外网服务器,对关键数据进行分词,建立合适的索引。 外网查询——最快的检索速度,一个更好的UI,更多的应用,可行的盈利模式。 有没有原代码看一下 |