以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 Web挖掘技术 』 (http://bbs.xml.org.cn/list.asp?boardid=69) ---- 一个频繁项挖掘的活(百万级别数据) (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=50816) |
-- 作者:cheewu -- 发布时间:8/1/2007 1:43:00 PM -- 一个频繁项挖掘的活(百万级别数据) 牛人绕过,欢迎新手练手.. 我们基于nutch开发了一个搜索引擎,现在想添加 频繁项挖掘 的应用。需要在已经索引的文本中,发掘那些词最频繁的出现在同一篇文档中,比如: 秋天: 果实 收获 天高气爽 Itemset x= {X1,X2....Xn),每个item相当于一个个候选词,集合中包含的候选词最多1万个。 每篇文档相当于一个 transaction (t1,t2...tn) 文档数量在100万左右。如果实现起来困难也可以减少文档数量。 我会给你把发掘的样本准备好,以文本文件或者其它形式给你。 数据量比较大,但是我们对时间要求不严格,100万个文件,处理一两个星期都没事,最好能支持增量。 不需要用很复杂的算法,复杂的算法我们页也付不起。可以采用一些最经典的算法,比如fpgrowth之类.. 价格大概 1K 左右,前提是使用已经有开源代码的算法。如果真需要自己写,价钱可以再商量,但是最多四五千吧。 站内信箱或者 chee.wu@gmail.com联系。 |
-- 作者:DMman -- 发布时间:8/20/2007 3:07:00 PM -- 开源无限 何须花钱? |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
7,593.750ms |