阅读:2558回复:7
内容过滤,多关键词该采用什么算法? 请进...
各位帮着看看到底用什么搜索算法好:
我要对每一个明文的文本数据包做实时搜索,关键词假如是200个,可是不知道用什么搜索算法才合适?考虑了很长时间了,一直没有什么进展 :( 该不会是200次搜索吧?这样是不是很耗时间?我要做的是网络数据包的实时处理。有穷状态自动机可以吗?可是还真不知道有穷状态自动机的算法怎么写 :( 请大家给参谋参谋。 本站的《关于内容过滤的算法问题》 http://www.driverdevelop.com/forum/html_54728.html?1095411011 IBM的《模式匹配算法》 http://www-igm.univ-mlv.fr/~lecroq/string/node1.html |
|
最新喜欢:ljmmar... |
沙发#
发布于:2004-09-17 20:53
:)自己顶一下
这个版面不怎么来人? 对了 ,今天都过周末去了? |
|
板凳#
发布于:2004-09-18 15:23
:D 突发奇想 用词典来搜索可不可以? 就是把关键词做成一词典,然后看待处理的文本是否包含词典中的单词,返回索引值。
这样会涉及到分词,那就麻烦了 ,不懂分词是怎么回事,也不知道这样处理速度会怎么样。 做IDS的应该做同样的处理把,有没有人出来指点指点... ... :) |
|
地板#
发布于:2004-09-20 20:52
这里没有人来?
http://www-igm.univ-mlv.fr/~lecroq/string/node32.html#SECTION00320 中的ASIZE XSIZE 是什么啊? 哪位大虾那里有完整的代码? |
|
地下室#
发布于:2005-02-18 09:51
兄弟 还在 研究关于内容过滤的算法问题吗?有何经验了能不能说说〉?
|
|
|
5楼#
发布于:2005-02-18 11:56
惭愧啊 自己没有什么研究心得 在别人指点下,看了看AGREP的源码,从那里面改个API来用 |
|
6楼#
发布于:2005-02-22 13:14
根据所有的关键词,构造状态机进行分析应该是不错的方法。模式匹配中好像有现成的可用。
|
|
|
7楼#
发布于:2005-02-22 16:30
根据所有的关键词,构造状态机进行分析应该是不错的方法。模式匹配中好像有现成的可用。 对,多模式匹配算法就是快速状态机,主要可参考的就在AGREP代码里面了。 |
|