社群媒體分析-讓我們研究到落枕的FB JAVA API與弱連結推薦

早上一進辦公室,看看新聞,似乎感覺離自己有距離,看看e-Mail,似乎有很忐忑的看有沒有新任務,打開Facebook關心朋友動態,看看朋友推薦的影片與文章,似乎是最沒有壓力的一種瀏覽方式。

然而長久下來,我逐漸感覺到有一些朋友似乎不見了,很久沒有在首頁看到他們的動態,我們進入首頁的時候,FB在餵我們訊息,他幫我們排序,幫我們篩選,我猜測每個使用者應該都有一個模型,這個模型的參數是FB的秘密,我猜測,他可能會計算你與你朋友們多久沒有在彼此的塗鴉牆po文,假設你上次po文的時間試t1,現在的時間是t*,那優先權的分數可以這樣計算:Priority_Score = 1/(t*-t1)。

Continue Reading

Java的Map與Set在找尋Distinct與反向Map的分享

處理大量資料時,尤其採用Lucene作為資料索引架構,沒有SQL這類高階查詢查詢語言的DISTINCT(找出獨一無二的值),要找出Unique就需透過程式階層的實作。

通常找獨一無二值在Text Mining會被用來找尋語詞的集合,而在Data Mining,更可用來找尋屬性的有限集合(Finite State),對於離散型的資料,若能找出有限集合,可降低問題的複雜性,也可節省需多不必要的運算。

Continue Reading

大量資料分群PART1:採用Mahout與Lucene對於Reuters新聞進行屬性萃取

毛小編最近大多在忙著不能在座位前完成的事情,但又很想整理一些Mahout的資訊,不得已,只能借了睡眠時間與改變交通習慣(捷運),利用零碎時間來整 理與歸納Mahout在群聚方面的原理、方法以及實務議題,這個部分與我前一年在資安方面的研究有著極大的關係(EigenBot, ACM ISIKDD’12),未來更會應用於輿情系統上面。

Continue Reading

簡易的Mahout推薦系統

交友推薦系統練習,這是一個交友網站,Czech dating site Líbímseti (http://libimseti.cz/),會員可對使用者表達評價,當然,有可能會男評價女,女評價男,已經有研究人員把這樣的資料整理成[評價人id,受評人id,分數(1~5)],可從這邊下載:http://www.occamslab.com/petricek/data/

Continue Reading