大量資料分群PART1:採用Mahout與Lucene對於Reuters新聞進行屬性萃取

毛小編最近大多在忙著不能在座位前完成的事情,但又很想整理一些Mahout的資訊,不得已,只能借了睡眠時間與改變交通習慣(捷運),利用零碎時間來整 理與歸納Mahout在群聚方面的原理、方法以及實務議題,這個部分與我前一年在資安方面的研究有著極大的關係(EigenBot, ACM ISIKDD’12),未來更會應用於輿情系統上面。

Continue Reading