微博实体与百科条目链接 的多策略研究 西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉

微博实体与百科条目链接
的多策略研究
西南大学计算机系
郭云龙 徐潇 向宇 曾维刚 李莉
Southwest University
微博实体与百科条目链接的多策略研究
2012年数据
微博实体与百科条目链接的多策略研究
2012年数据
微博实体与百科条目链接的多策略研究
新浪微博用户的最新数据,截至2012年12
月底,新浪微博注册用户数已超过5亿,同比增
长74%。日活跃用户数达到4620万,微博
用户数与活跃用户数保持稳定增长。
2013年数据
微博实体与百科条目链接的多策略研究
对于海量微博数据进行挖掘
微博实体与百科条目链接的多策略研究
“微博实体与百科条目链接”的应用:
有助于利用社交媒体内容进行知识库的构建与扩
展;
帮助用户阅读;
广告;市场;
···
微博实体与百科条目链接的多策略研究
“微博实体与百科条目链接”的难点:
一对多消歧
一对零消歧
···
微博实体与百科条目链接的多策略研究
TTT Model
Term
crawler
lexicon
Tweet
context + tags
corpus
Tweets
Machine Learning Statistics
Term Level
微博实体与百科条目链接的多策略研究
中移动
中国移动通信集团公司
Term Level
微博实体与百科条目链接的多策略研究
海贼王
航海王 海贼王
Term Level
微博实体与百科条目链接的多策略研究
猛龙
多伦多猛龙队 李仁港执导电影 猛
龙(Mllen)
Term Level
微博实体与百科条目链接的多策略研究
奥胖
沙奎尔·奥尼尔
Term Level
微博实体与百科条目链接的多策略研究
Tweet Level
微博实体与百科条目链接的多策略研究
Tweet Level
微博实体与百科条目链接的多策略研究
Polysemy page of Target Key on baike.baidu.com
Tweet Level
微博实体与百科条目链接的多策略研究
Each target entry and labels
Tweet Level
微博实体与百科条目链接的多策略研究
Build label lists for target entry
Tweet Level
微博实体与百科条目链接的多策略研究
Calculating label list’s weight by basal list.
The entry whose label list is the most weight is the real
entry that target key map to.
k
Wi   Pk
Wb
Tweets Level
微博实体与百科条目链接的多策略研究
Tweets Level
微博实体与百科条目链接的多策略研究
Tweets Level
微博实体与百科条目链接的多策略研究
(2) Constructing a wordmatrix for each “Key Term”
(4) Computing the similarity of
two words based on Mi.
Matrix M 1*
Matrix M 1
“Key Terms”
related tweets
Dividing tweets for each
“Key Term”
1)Extracting
words from each
tweet
(5) Clustering similaritymatrix M*
Similarity based on the
co-occurrences in the
same paragraph
Matrix M maxD
(3) Computing the co-occurrences
of two words that appear in the
same tweet
*
Matrix M maxD
(6) Analyzing and Tagging
in each cluster Cip
Tweets Level
微博实体与百科条目链接的多策略研究
Tweets Level
微博实体与百科条目链接的多策略研究
评测结果:我们评测结过为84.99%,改进后为
88.38%。
西南大学 计算机系 郭云龙
Email:zqlong@swu.edu.cn
Southwest University