五年Twitter上情感分(fēn)析的結果:2008年後總體(tǐ)幸福度呈下降趨勢,聖誕節是每年的亮點
情感分(fēn)析是這些年計算機學(xué)中(zhōng)的一個新(xīn)研究方向,說白了它就是試圖将人們的情緒和情感數據化,手段會包括自然語言處理(lǐ)、統計學(xué)、信号處理(lǐ)等。最适合情感分(fēn)析的平台也是在最近幾年興起的微博類(Microblogging)社交平台,在美國(guó)就是 Twitter。
佛蒙特大學(xué)計算實驗室的項目Hedonometer在過去的五年中(zhōng)每天都會對 Twitter 上面的千萬條 Tweet 進行情感分(fēn)析,并将其結果記錄了下來。Hedonometer 主要是通過自然語言處理(lǐ)來分(fēn)析情感,比如它會在人們的 Tweet 中(zhōng)尋找一些反映正面情緒或者負面情緒的關鍵詞。
我們能(néng)從圖中(zhōng)看出每一年的幸福度最高點都是 12 月 25 号,也就是聖誕節。其它幸福度高的日子包括元旦、感恩節、情人節等。從每周來看,人們平均幸福度最高的一天是星期六,而最低的一天是星期二。
但是自 2008 年之後,Twitter 上面總體(tǐ)的幸福度一直呈下降趨勢。這或許是因為(wèi) 2008 年的美國(guó)金融危機,以及之後導緻的持續經濟不景氣。我們能(néng)看到幸福度最低的一天就是上月的 15 号,也就是波士頓馬拉松爆炸發生的那一天。
但是 Hedonometer 的算法明顯是不完美的,因為(wèi) 2011 年 5 月 2 号是美國(guó)宣布奧薩馬本拉登被擊斃的那一天,但是 Hedonometer 錯誤地認為(wèi)這一天的幸福度很(hěn)低,因為(wèi)“死亡”、“殺死”等負面詞彙在 Twitter 上面的頻繁出現。完全理(lǐ)解人類的自然語言是一個AI Complete的算法難題。
如果用(yòng)同樣的手段對新(xīn)浪微博進行情感分(fēn)析,每年的最高點應該是會在春節。但是還會有(yǒu)哪些其它的區(qū)别?
留言