liusz
驱动牛犊
驱动牛犊
  • 注册日期2004-03-16
  • 最后登录2018-05-26
  • 粉丝0
  • 关注0
  • 积分29分
  • 威望43点
  • 贡献值0点
  • 好评度2点
  • 原创分0分
  • 专家分0分
阅读:2558回复:7

内容过滤,多关键词该采用什么算法? 请进...

楼主#
更多 发布于:2004-09-17 16:53
各位帮着看看到底用什么搜索算法好:

我要对每一个明文的文本数据包做实时搜索,关键词假如是200个,可是不知道用什么搜索算法才合适?考虑了很长时间了,一直没有什么进展  :(

该不会是200次搜索吧?这样是不是很耗时间?我要做的是网络数据包的实时处理。有穷状态自动机可以吗?可是还真不知道有穷状态自动机的算法怎么写  :(   请大家给参谋参谋。

本站的《关于内容过滤的算法问题》
http://www.driverdevelop.com/forum/html_54728.html?1095411011
 
IBM的《模式匹配算法》
http://www-igm.univ-mlv.fr/~lecroq/string/node1.html

最新喜欢:

ljmmaryljmmar...
liusz
驱动牛犊
驱动牛犊
  • 注册日期2004-03-16
  • 最后登录2018-05-26
  • 粉丝0
  • 关注0
  • 积分29分
  • 威望43点
  • 贡献值0点
  • 好评度2点
  • 原创分0分
  • 专家分0分
沙发#
发布于:2004-09-17 20:53
 :)自己顶一下

这个版面不怎么来人?  对了 ,今天都过周末去了?
liusz
驱动牛犊
驱动牛犊
  • 注册日期2004-03-16
  • 最后登录2018-05-26
  • 粉丝0
  • 关注0
  • 积分29分
  • 威望43点
  • 贡献值0点
  • 好评度2点
  • 原创分0分
  • 专家分0分
板凳#
发布于:2004-09-18 15:23
 :D 突发奇想   用词典来搜索可不可以?  就是把关键词做成一词典,然后看待处理的文本是否包含词典中的单词,返回索引值。

这样会涉及到分词,那就麻烦了 ,不懂分词是怎么回事,也不知道这样处理速度会怎么样。

做IDS的应该做同样的处理把,有没有人出来指点指点... ...  :)
liusz
驱动牛犊
驱动牛犊
  • 注册日期2004-03-16
  • 最后登录2018-05-26
  • 粉丝0
  • 关注0
  • 积分29分
  • 威望43点
  • 贡献值0点
  • 好评度2点
  • 原创分0分
  • 专家分0分
地板#
发布于:2004-09-20 20:52
这里没有人来?

http://www-igm.univ-mlv.fr/~lecroq/string/node32.html#SECTION00320 中的ASIZE  XSIZE 是什么啊?

哪位大虾那里有完整的代码?
paladinii
驱动中牛
驱动中牛
  • 注册日期2003-10-28
  • 最后登录2012-03-09
  • 粉丝0
  • 关注0
  • 积分282分
  • 威望74点
  • 贡献值0点
  • 好评度23点
  • 原创分0分
  • 专家分0分
地下室#
发布于:2005-02-18 09:51
兄弟 还在 研究关于内容过滤的算法问题吗?有何经验了能不能说说〉?
Ideas for life!
liusz
驱动牛犊
驱动牛犊
  • 注册日期2004-03-16
  • 最后登录2018-05-26
  • 粉丝0
  • 关注0
  • 积分29分
  • 威望43点
  • 贡献值0点
  • 好评度2点
  • 原创分0分
  • 专家分0分
5楼#
发布于:2005-02-18 11:56

惭愧啊
自己没有什么研究心得

在别人指点下,看了看AGREP的源码,从那里面改个API来用
liwashington
驱动小牛
驱动小牛
  • 注册日期2004-04-30
  • 最后登录2010-10-21
  • 粉丝0
  • 关注0
  • 积分-11分
  • 威望98点
  • 贡献值1点
  • 好评度12点
  • 原创分0分
  • 专家分0分
6楼#
发布于:2005-02-22 13:14
根据所有的关键词,构造状态机进行分析应该是不错的方法。模式匹配中好像有现成的可用。
我只想有个好老婆,每天有几顿好饭吃……
liusz
驱动牛犊
驱动牛犊
  • 注册日期2004-03-16
  • 最后登录2018-05-26
  • 粉丝0
  • 关注0
  • 积分29分
  • 威望43点
  • 贡献值0点
  • 好评度2点
  • 原创分0分
  • 专家分0分
7楼#
发布于:2005-02-22 16:30
根据所有的关键词,构造状态机进行分析应该是不错的方法。模式匹配中好像有现成的可用。


对,多模式匹配算法就是快速状态机,主要可参考的就在AGREP代码里面了。
游客

返回顶部