GeoBurst+论文记录
本篇博客主要记录自己学习以及复现GeoBurst+论文的过程,持续记录更新…
该论文主要有三个模块:
产生候选事件基于嵌入学习和活动时间轴的归纳模型建立的二分类在线的更新
一,产生候选事件
首先该论文认为将事件的发生地作为中心点,在周围会产生与之相关的推文。我们离中心点越近,越有可能观察到与之相关的推文,基于此使用了地理和语义相似性度量来赋予每个推文权重, ,之后找出权重最大的推文作为中心推文,中心推文及其邻居推文就构成了一个候选事件。
1,权重定义
地理相似性权重定义 地理位置的影响可以用核函数刻画,两个推文
d
′
d'
d′,
d
d
d的地理相关性记为
G
G
G(
d
′
d'
d′
→
\to
→
d
d
d) 其中
h
h
h是窗宽(光滑参数),
c
c
c是
E
p
a
n
e
c
h
n
i
k
o
v
Epanechnikov
Epanechnikov核函数的度量常数语义相似性权重定义 语义相似性度量是基于在共现图中的随机游走定义的,首先构建共现图,以关键词为节点,两个关键词共同出现的次数作为边的权重建图。之后使用重启随机游走算法(
r
a
n
d
o
m
w
a
l
k
w
i
t
h
r
e
s
t
a
r
t
,
R
W
R
random walk with restart ,RWR
randomwalkwithrestart,RWR),从关键词
u
u
u开始,当算法达到稳态分布时,单词
u
u
u 到
v
v
v 的权重表示为
r
r
r(
e
′
e'
e′
→
\to
→
e
e
e)。则设推文
d
d
d的关键词集合为
E
d
E_d
Ed=
{
\{
{
e
1
e_1
e1,
e
2
e_2
e2,
⋯
\cdots
⋯ ,
e
m
e_m
em
}
\}
},推文
d
′
d'
d′的关键词集合为
E
d
′
E_d'
Ed′=
{
\{
{
e
1
′
e'_1
e1′,
e
2
′
e'_2
e2′,
⋯
\cdots
⋯ ,
e
m
′
e'_m
em′
}
\}
},则推文
d
d
d与
d
′
d'
d′的语义相似性度量定义为: 推文权重定义 推文的权重由与之相关的所有推文