中文XML论坛 - 专业的XML技术讨论区--显示贴子

以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  一个频繁项挖掘的活（百万级别数据）  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=50816)

--  作者：cheewu
--  发布时间：8/1/2007 1:43:00 PM

--  一个频繁项挖掘的活（百万级别数据）
牛人绕过，欢迎新手练手..

我们基于nutch开发了一个搜索引擎，现在想添加频繁项挖掘的应用。需要在已经索引的文本中，发掘那些词最频繁的出现在同一篇文档中，比如:

秋天：果实收获天高气爽

Itemset x= {X1,X2....Xn),每个item相当于一个个候选词，集合中包含的候选词最多1万个。

每篇文档相当于一个 transaction (t1,t2...tn) 文档数量在100万左右。如果实现起来困难也可以减少文档数量。

我会给你把发掘的样本准备好，以文本文件或者其它形式给你。

数据量比较大，但是我们对时间要求不严格，100万个文件，处理一两个星期都没事，最好能支持增量。

不需要用很复杂的算法，复杂的算法我们页也付不起。可以采用一些最经典的算法，比如fpgrowth之类..

价格大概 1K 左右，前提是使用已经有开源代码的算法。如果真需要自己写，价钱可以再商量，但是最多四五千吧。

站内信箱或者 chee.wu@gmail.com联系。

--  作者：DMman
--  发布时间：8/20/2007 3:07:00 PM

--
开源无限何须花钱？

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

7,593.750ms