以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  一个频繁项挖掘的活(百万级别数据)  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=50816)


--  作者:cheewu
--  发布时间:8/1/2007 1:43:00 PM

--  一个频繁项挖掘的活(百万级别数据)
牛人绕过,欢迎新手练手..

我们基于nutch开发了一个搜索引擎,现在想添加 频繁项挖掘 的应用。需要在已经索引的文本中,发掘那些词最频繁的出现在同一篇文档中,比如:

秋天: 果实 收获 天高气爽

Itemset x= {X1,X2....Xn),每个item相当于一个个候选词,集合中包含的候选词最多1万个。

每篇文档相当于一个 transaction (t1,t2...tn) 文档数量在100万左右。如果实现起来困难也可以减少文档数量。

我会给你把发掘的样本准备好,以文本文件或者其它形式给你。

数据量比较大,但是我们对时间要求不严格,100万个文件,处理一两个星期都没事,最好能支持增量。

不需要用很复杂的算法,复杂的算法我们页也付不起。可以采用一些最经典的算法,比如fpgrowth之类..

价格大概 1K 左右,前提是使用已经有开源代码的算法。如果真需要自己写,价钱可以再商量,但是最多四五千吧。

站内信箱或者 chee.wu@gmail.com联系。


--  作者:DMman
--  发布时间:8/20/2007 3:07:00 PM

--  
开源无限 何须花钱?
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
7,593.750ms