@wade123
2019-05-13T02:48:01.000000Z
字数 6642
阅读 1363
Python入门爬虫与数据分析
摘要:Python 分析国内外独角兽公司。
前不久的滴滴裁员新闻,让独角兽公司更为大众熟知。
你可能听过独角兽公司,但并不太清楚和一般公司、上市公司有什么区别,简单介绍下:
独角兽公司(Unicorn Companies)是指:成立不到 10 年,估值在 10 亿美元以上,且未在股票市场上市的科技创业公司。超级独角兽公司则是估值在 100 亿美元以上。
独角兽公司在多轮融资后就会谋划上市,公司市值也会随之大涨一番。比如去年上市之前的独角兽公司:小米、美团、拼多多,上市后市值分别增长了 400、1200、1300 亿元。
根据权威网站「CBInsights」对全世界数百家独角兽公司的最新统计(截止2019 年 1 月),滴滴是世界第 3 大独角兽公司,估值达到 560 亿美金,近 4000 亿人民币。
排名第一和第二的分别是中美两国独角兽老大:今日头条和 Uber,
Rank | Company | Country | Valuation (亿美元) |
---|---|---|---|
1 | Toutiao (Bytedance) | China | 750 |
2 | Uber | United States | 720 |
3 | Didi Chuxing | China | 560 |
4 | WeWork | United States | 470 |
5 | Airbnb | United States | 290 |
6 | SpaceX | United States | 220 |
7 | Stripe | United States | 200 |
8 | JUUL Labs | United States | 150 |
9 | Epic Games | United States | 150 |
10 | United States | 120 | |
11 | Bitmain Technologies | China | 120 |
12 | Samumed | United States | 120 |
13 | Lyft | United States | 120 |
14 | GrabTaxi | Singapore | 110 |
15 | Palantir Technologies | United States | 110 |
16 | Global Switch | United Kingdom | 110 |
17 | Infor | United States | 100 |
18 | DJI Innovations | China | 100 |
19 | One97 Communications (operates Paytm) | India | 100 |
20 | Go-Jek | Indonesia | 100 |
上面表格标注了独角兽公司所在国家,可以用 pyecharts 绘制全球独角兽公司分布情况。
可以看到 326 家独角兽公司分布在 26 个国家,总估值超过 10,000 亿美元,大部分集中在中美两国。
代码实现如下:
from pyecharts import Map, Page, Style, Geo # 地图
from pyecharts import Bar, Pie, Boxplot
import pandas as pd
from pyecharts import Grid # 控制图表布局
# 更改默认主题
from pyecharts import configure
# 代码置于首部
configure(global_theme='dark')
# 获取数据
def get_data():
data = pd.read_csv('./unicorn_worldwide.csv') # 全球
data2 = pd.read_csv('./unicorn_china.csv')
return data, data2
# 1 全球独角兽公司分布
def unicorn_world(data):
data = data.groupby(by='Country').count()
data.sort_values(by='Company', ascending=False, inplace=True)
attr = list(data.index)
value = list(data['Company'].values)
# 1 绘制地图
map = Map(
"全球独角兽公司分布",
'326 家公司分布在 26 个国家',
title_color="#fff", title_pos="left", # 标题颜色位置
# background_color='#404a59' #背景色
)
map.add("", attr, value,
maptype="world", # 世界地图
visual_range=[0, 160], # 值范围
visual_text_color="#fff",
is_visualmap=True, is_label_show=False,
label_formatter='{b}' # {a}{b}{c}显示不同标签、值格式
)
map.render(path='全球独角兽公司分布.png', pixel_ration=1)
# 2 绘制柱状图
bar = Bar("各国独角兽公司数量对比", '美中制霸', title_pos="center")
bar.add("", attr, value,
is_label_show=True,
xaxis_interval=0,
xaxis_rotate=45,
)
# Grid 控制图表布局范围,避免坐标标签折断
grid = Grid()
grid.add(bar, grid_bottom='25%') # 图表距离底边25%,x 轴标签能够充分显示
grid.render(path='各国独角兽公司数量.png', dpi=200)
从各国具体的数据来看,美国基本占了全球独角兽公司数量和估值的 50%,其次是中国,占了 30% 左右,剩下的二十来个国家只占 20%。
可以说,全球只有中美两国在「玩」独角兽公司。
代码实现如下:
# 2 各国独角兽公司估值对比饼图
def unicorn_world2(data):
data = data.groupby(by='Country').sum()
data = data.sort_values(by='Valuation', ascending=False)
data2 = data[:5]['Valuation'] # 前5国家
data3 = data[5:]['Valuation'].sum() # 后5国家全部划分为其他
data2.loc['Else'] = data3
attr = list(data2.index)
value = list(data2.values)
chart = Pie(
'各国独角兽公司估值对比',
'中美占据 80%',
title_pos='center',
)
chart.add('', attr, value,
is_label_show=True,
is_legend_show=False,
)
chart.render(path='各国独角兽公司市值对比.png')
简单对比一下两国估值排名前十的独角兽公司。可以看到美国除了 Uber,比较熟悉的还有:短期房屋出租网站 Airbnb、伊隆·马斯克的 SpaceX 、图片分享网站 Pinterest 等。
中国排名前十的则有今日头条、滴滴、大疆等。
总体来看,美国的独角兽公司估值比中国均匀一些。另外,上面的公司名单中没有出现「蚂蚁金服」公司,这可是个估值超过 1500 亿美金的「大家伙」,有了蚂蚁金服,中国在账面上至少是不输美国了。
相较于全球独角兽公司 ,我们可能更关心本土公司的情况。好在,胡润研究院也经常发布独角兽公司报告。
该机构 1 月 24 日发布了《2018胡润大中华区独角兽指数》报告,将「蚂蚁金服」列入了独角兽企业估值榜单的第一位,估值达到 10,000 亿人民币。
这份报告中显示,大中华区一共有 186 家独角兽公司上榜,总估值超过 5 万亿人民币,体量相当大,平均每个公司估值 270 亿。
来看看估值前二十名的公司有哪些:
前二十名公司中,有多少你此前是不知道的?这些公司就是不错的求职目标。
代码实现如下:
def unicorn_china2(data):
data.sort_values(by='Valuation', ascending=False, inplace=True)
data = data[:20][::-1]
attr = list(data['Company'].values)
value = list(data['Valuation'].values)
bar = Bar("大中华区独角兽公司估值前二十名", '巨无霸蚂蚁金服', title_pos="center")
bar.add("单位(亿人民币)",
attr,
value,
is_label_show=True,
label_pos='right',
xaxis_interval=0,
yaxis_roate=45,
is_convert=True,
legend_pos='right'
)
# Grid 控制图表布局,避免坐标标签折断
grid = Grid(width=600, height=1000) # 修改图形尺寸
grid.add(bar, grid_left='15%')
grid.render(path='大中华区独角兽企业估值前二十.png', dpi=200)
先来总体看一下 186 家公司都分布在哪些城市:
独角兽公司主要集中在京津、长江经济带和珠三角三大区域。其中,北京「一枝独秀」,不得不说,北京的科创公司环境氛围是真的好。
代码实现如下:
def unicorn_china(data):
data = data.groupby(by='Headquarter').count()
data.sort_values(by='Company', ascending=False, inplace=True)
value = list(data['Company'].values)
attr = list(data.index)
# print(value,attr)
map = Geo("大中华区独角兽公司分布", '北京突出', title_color="#fff",
title_pos="center", background_color='#404a59')
# type="effectScatter", is_random=True, effect_scale=5 使点具有发散性
# 发散圆点图
map.add("", attr, value, type="effectScatter",
is_random=True, effect_scale=5,
visual_range=[0, 80],
visual_text_color="#fff",
symbol_size=5,
is_visualmap=True,
)
map.render(path='./国内独角兽公司城市分布.png', pixel_ration=1)
挑选图中比较突出的五个城市作对比,四个一线城市加上杭州。北京的独角兽公司整体估值水平远高于其他四大城市,上海和广州较弱,深圳和杭州旗鼓相当,马老板的「蚂蚁金服」让杭州很突出。
代码实现如下:
# 五大城市独角兽公司估值范围对比
def unicorn_china3(data):
data1 = list(data.query("Headquarter == '北京'")['Valuation'].values)
data2 = list(data.query("Headquarter == '上海'")['Valuation'].values)
data3 = list(data.query("Headquarter == '广州'")['Valuation'].values)
data4 = list(data.query("Headquarter == '深圳'")['Valuation'].values)
data5 = list(data.query("Headquarter == '杭州'")['Valuation'].values)
x_axis = ['北京', '上海', '广州', '深圳', '杭州']
y_axis = [data1, data2, data3, data4, data5]
chart = Boxplot('五大城市独角兽公司估值范围对比', title_pos='center')
chart.add('单位(亿人民币)',
x_axis, y_axis,
legend_pos='right'
)
chart.render('五大城市独角企业市值值对比.png')
放大城市范围,看看大中华区各大城市估值排名前三的独角兽公司有哪些:
City | Rank | Company | Valuation(亿元) | Industry |
---|---|---|---|---|
北京 | 1 | 今日头条 | 5000 | 文化娱乐 |
2 | 滴滴出行 | 3000 | 互联网服务 | |
3 | 京东数字科技 | 1000 | 互联网服务 | |
上海 | 1 | 陆金所 | 2500 | 互联网金融 |
2 | 平安医保科技 | 500 | 医疗健康 | |
3 | 金融壹账通 | 500 | 互联网金融 | |
广州 | 1 | 小鹏汽车 | 300 | 汽车交通 |
2 | 云从科技 | 200 | 人工智能 | |
3 | 名创优品 | 150 | 新零售 | |
深圳 | 1 | 微众银行 | 1500 | 互联网金融 |
2 | 大疆 | 1000 | 机器人 | |
3 | 柔宇科技 | 300 | 智能硬件 | |
杭州 | 1 | 蚂蚁金服 | 10000 | 互联网金融 |
2 | 菜鸟网络 | 1000 | 物流服务 | |
3 | 微医 | 400 | 医疗健康 | |
南京 | 1 | 苏宁金服 | 500 | 互联网金融 |
2 | 满帮 | 400 | 物流服务 | |
3 | 汇通达 | 200 | 电子商务 | |
天津 | 1 | 神州优车 | 400 | 互联网服务 |
2 | 纳恩博 | 100 | 智能硬件 | |
苏州 | 1 | 信达生物 | 100 | 医疗健康 |
2 | 基石药业 | 70 | 医疗健康 | |
香港 | 1 | 客路旅行 | 70 | 互联网服务 |
2 | 亚洲医疗 | 70 | 医疗健康 | |
成都 | 1 | 1919酒类直供 | 70 | 新零售 |
无锡 | 1 | 华云数据 | 70 | 大数据与云计算 |
武汉 | 1 | 斗鱼 | 200 | 文化娱乐 |
绍兴 | 1 | 电咖汽车 | 100 | 汽车交通 |
重庆 | 1 | 猪八戒网 | 100 | 互联网服务 |
金华 | 1 | 零跑汽车 | 70 | 汽车交通 |
长沙 | 1 | 芒果TV | 100 | 文化娱乐 |
青岛 | 1 | 日日顺 | 100 | 物流服务 |
台北 | 1 | 辉能科技 | 70 | 新能源 |
只有 19 座城市拥有独角兽公司,城市基本是一二线,且一多半的城市只上榜了一家公司,比如成都、重庆。看来,想去独角兽公司工作,得身处一二线城市。
代码实现如下:
# 各城市top3
def unicorn_china4(data):
def top(data):
top = data.sort_values(by=['Valuation'], ascending=False)
return top[:3]
data = data.groupby(by=['Headquarter']).apply(top)
data['add'] = 1 # 辅助
data['top'] = data.groupby(by='Headquarter')['add'].cumsum()
data = data[['Company', 'Valuation', 'Industry', 'top']]
print(data)
接着对比一下各个行业的独角兽公司情况:
互联网金融行业拥有绝对的优势,占了全部公司估值 5 万亿的三分之一。其次是互联网服务行业,看来互联网行业的工作机会要大很多。
具体地看看各行业估值前三名的公司是哪些:
Industry | Rank | Company | Valuation(亿元) |
---|---|---|---|
互联网服务 | 1 | 滴滴出行 | 3000 |
2 | 京东数字科技 | 1000 | |
3 | 车好多 | 500 | |
互联网金融 | 1 | 蚂蚁金服 | 10000 |
2 | 陆金所 | 2500 | |
3 | 微众银行 | 1500 | |
人工智能 | 1 | 商汤科技 | 400 |
2 | Face++ | 200 | |
3 | 地平线机器人 | 200 | |
区块链 | 1 | 比特大陆 | 500 |
2 | 嘉楠耘智 | 150 | |
3 | 亿邦国际 | 70 | |
医疗健康 | 1 | 平安医保科技 | 500 |
2 | 微医 | 400 | |
3 | 联影医疗 | 300 | |
大数据与云计算 | 1 | 金山云 | 100 |
2 | 盘石股份 | 100 | |
3 | 华云数据 | 70 | |
房产服务 | 1 | 链家 | 400 |
2 | 小猪短租 | 100 | |
3 | V领地 | 70 | |
教育 | 1 | VIPKID | 200 |
2 | 猿辅导 | 200 | |
3 | 作业帮 | 200 | |
文化娱乐 | 1 | 今日头条 | 5000 |
2 | 快手 | 1000 | |
3 | 博纳影业 | 200 | |
新能源 | 1 | 辉能科技 | 70 |
新零售 | 1 | 名创优品 | 150 |
2 | 瑞幸咖啡 | 150 | |
3 | 1919酒类直供 | 70 | |
智能硬件 | 1 | 柔宇科技 | 300 |
2 | 寒武纪科技 | 150 | |
3 | 纳恩博 | 100 | |
机器人 | 1 | 大疆 | 1000 |
2 | 优必选 | 300 | |
汽车交通 | 1 | 威马汽车 | 300 |
2 | 小鹏汽车 | 300 | |
3 | 奇点汽车 | 200 | |
游戏 | 1 | 英雄互娱 | 100 |
物流服务 | 1 | 菜鸟网络 | 1000 |
2 | 京东物流 | 800 | |
3 | 满帮 | 400 | |
电子商务 | 1 | 美菜网 | 500 |
2 | 每日优鲜 | 200 | |
3 | 小红书 | 200 |
这里面又有多少公司,你此前是不知道的? 你不知道意味着很多人也不知道,现在你知道了,就掌握了一定的主动权。
文中代码和素材资源可以在下方链接中得到:
本专栏内容到此就结束了,希望能够帮助你顺利入门 Python 爬虫和数据分析。