@fyywy520
2016-03-24T22:14:36.000000Z
字数 1689
阅读 2377
微博
社交网络
本次爬取的微博数据主要分为两种:
新浪微博用户数据
指的是在注册的新浪微博用户的基本信息,其相关字段如下表所示:
字段编号 | 字段名称 | 样例 | 备注 |
---|---|---|---|
1 | 用户ID | 3206382260 | 唯一标识符 |
2 | 屏幕名 | 朴珍熙典雅风范潮流 | 微博昵称 |
3 | 性别 | 女 | |
4 | VIP描述 | ||
5 | 自我介绍 | 时尚能穿越每个人的心态来创造无数的礼服! | |
6 | 地区 | 海外 马来西亚 | |
7 | 用户名 | 3206382260 | 相同于用户ID |
8 | 关注 | 956 | |
9 | 粉丝 | 235 | |
10 | 微博 | 357 | |
11 | 工作 | 北大方正集团有限公司 职位:总经理 | |
12 | 教育 | 大学 北京市国际艺术学校 (2011年) | |
13 | 头像 | http://tp1.sinaimg.cn/3206382260/180/5679743696/0 | |
14 | 加V | 0 | |
15 | 标签 | 花样美男,美图摄影,星座运势,名人明星,视频音乐 | |
16 | 生日 | 1994年4月8日 | |
17 | |||
18 | Msn | ||
19 | |||
20 | 创建时间 | ||
21 | 关注列表 | 3978888470,5062300354,...,2776171413 | 关注列表并不全 |
22 | 会员 | 0 | |
23 | 达人 | 0 | |
24 | 等级 | 4 |
其中21关注列表
字段中可以反映其社交关系
3978888470
"5062300354,3913403164,...,5112611320"
3978741405
"5083239194,5077390877,...,5079654241"
...
...
新浪微博数据
指的是某用户发出的某条微博的详细信息,其相关字段如下表所示:
字段编号 | 字段名称 | 样例 |
---|---|---|
1 | 消息ID | 3845457556382878 |
2 | 用户ID | 2095321714 |
3 | 用户名 | 2095321714 |
4 | 屏幕名 | 笋生花 |
5 | 转发消息ID | 3845451155861225 |
6 | 消息内容 | 光转转 ,转完就忘了!//@拍照小技巧://@全球健身中心: 给需要的小伙伴!~ |
7 | 消息URL | Cj4yDqMtE |
8 | 来源 | iPhone 6 |
9 | 图片URL | |
10 | 音频URL | |
11 | 视频URL | |
12 | 地理坐标 | |
13 | 转发数 | 3 |
14 | 评论数 | 4 |
15 | 赞数 | 2 |
16 | 发布时间 | 1432311989000 |
新浪微博用户数据:
新浪微博数据:
微博现有注册用户超过5亿,2015年Q2季度月活跃用户约2.12亿。
取2014年5月23日更新的104000个用户进行社交网络分析:
通过分簇可以看到这些节点大致形成了3个主要的社群和其他的一些零散的边缘节点:
以入度作为参数对着1187个节点进行K-Cores
中心度分析:
A k-core of a graph G is a maximal connected subgraph of G in which all vertices have degree at least k. Equivalently, it is one of the connected components of the subgraph of G formed by repeatedly deleting all vertices of degree less than k. If a non-empty k-core exists, then, clearly, G has degeneracy at least k, and the degeneracy of G is the largest k for which G has a k-core.
——Wiki
其中各点的核数占比如下:
A vertex μ has coreness k if it belongs to a k-core but not to any (k+1)-core
——Wiki
由上两图可以看出,这1187个节点至少形成了7个凝聚子群,2个高密度团块。
进行中……