[关闭]
@wade123 2019-05-13T02:48:01.000000Z 字数 6642 阅读 1363

实战项目 13:2018 年国内外独角兽公司数据分析

Python入门爬虫与数据分析


摘要:Python 分析国内外独角兽公司。

前不久的滴滴裁员新闻,让独角兽公司更为大众熟知。

你可能听过独角兽公司,但并不太清楚和一般公司、上市公司有什么区别,简单介绍下:

独角兽公司(Unicorn Companies)是指:成立不到 10 年,估值在 10 亿美元以上,且未在股票市场上市的科技创业公司。超级独角兽公司则是估值在 100 亿美元以上。

独角兽公司在多轮融资后就会谋划上市,公司市值也会随之大涨一番。比如去年上市之前的独角兽公司:小米、美团、拼多多,上市后市值分别增长了 400、1200、1300 亿元。

根据权威网站「CBInsights」对全世界数百家独角兽公司的最新统计(截止2019 年 1 月),滴滴是世界第 3 大独角兽公司,估值达到 560 亿美金,近 4000 亿人民币。

排名第一和第二的分别是中美两国独角兽老大:今日头条和 Uber,

全球独角兽公司估值 TOP 20 排名

Rank Company Country Valuation (亿美元)
1 Toutiao (Bytedance) China 750
2 Uber United States 720
3 Didi Chuxing China 560
4 WeWork United States 470
5 Airbnb United States 290
6 SpaceX United States 220
7 Stripe United States 200
8 JUUL Labs United States 150
9 Epic Games United States 150
10 Pinterest United States 120
11 Bitmain Technologies China 120
12 Samumed United States 120
13 Lyft United States 120
14 GrabTaxi Singapore 110
15 Palantir Technologies United States 110
16 Global Switch United Kingdom 110
17 Infor United States 100
18 DJI Innovations China 100
19 One97 Communications (operates Paytm) India 100
20 Go-Jek Indonesia 100

上面表格标注了独角兽公司所在国家,可以用 pyecharts 绘制全球独角兽公司分布情况。

可以看到 326 家独角兽公司分布在 26 个国家,总估值超过 10,000 亿美元,大部分集中在中美两国。

代码实现如下:

  1. from pyecharts import Map, Page, Style, Geo # 地图
  2. from pyecharts import Bar, Pie, Boxplot
  3. import pandas as pd
  4. from pyecharts import Grid # 控制图表布局
  5. # 更改默认主题
  6. from pyecharts import configure
  7. # 代码置于首部
  8. configure(global_theme='dark')
  9. # 获取数据
  10. def get_data():
  11. data = pd.read_csv('./unicorn_worldwide.csv') # 全球
  12. data2 = pd.read_csv('./unicorn_china.csv')
  13. return data, data2
  14. # 1 全球独角兽公司分布
  15. def unicorn_world(data):
  16. data = data.groupby(by='Country').count()
  17. data.sort_values(by='Company', ascending=False, inplace=True)
  18. attr = list(data.index)
  19. value = list(data['Company'].values)
  20. # 1 绘制地图
  21. map = Map(
  22. "全球独角兽公司分布",
  23. '326 家公司分布在 26 个国家',
  24. title_color="#fff", title_pos="left", # 标题颜色位置
  25. # background_color='#404a59' #背景色
  26. )
  27. map.add("", attr, value,
  28. maptype="world", # 世界地图
  29. visual_range=[0, 160], # 值范围
  30. visual_text_color="#fff",
  31. is_visualmap=True, is_label_show=False,
  32. label_formatter='{b}' # {a}{b}{c}显示不同标签、值格式
  33. )
  34. map.render(path='全球独角兽公司分布.png', pixel_ration=1)
  35. # 2 绘制柱状图
  36. bar = Bar("各国独角兽公司数量对比", '美中制霸', title_pos="center")
  37. bar.add("", attr, value,
  38. is_label_show=True,
  39. xaxis_interval=0,
  40. xaxis_rotate=45,
  41. )
  42. # Grid 控制图表布局范围,避免坐标标签折断
  43. grid = Grid()
  44. grid.add(bar, grid_bottom='25%') # 图表距离底边25%,x 轴标签能够充分显示
  45. grid.render(path='各国独角兽公司数量.png', dpi=200)

从各国具体的数据来看,美国基本占了全球独角兽公司数量和估值的 50%,其次是中国,占了 30% 左右,剩下的二十来个国家只占 20%。

可以说,全球只有中美两国在「玩」独角兽公司。

代码实现如下:

  1. # 2 各国独角兽公司估值对比饼图
  2. def unicorn_world2(data):
  3. data = data.groupby(by='Country').sum()
  4. data = data.sort_values(by='Valuation', ascending=False)
  5. data2 = data[:5]['Valuation'] # 前5国家
  6. data3 = data[5:]['Valuation'].sum() # 后5国家全部划分为其他
  7. data2.loc['Else'] = data3
  8. attr = list(data2.index)
  9. value = list(data2.values)
  10. chart = Pie(
  11. '各国独角兽公司估值对比',
  12. '中美占据 80%',
  13. title_pos='center',
  14. )
  15. chart.add('', attr, value,
  16. is_label_show=True,
  17. is_legend_show=False,
  18. )
  19. chart.render(path='各国独角兽公司市值对比.png')

简单对比一下两国估值排名前十的独角兽公司。可以看到美国除了 Uber,比较熟悉的还有:短期房屋出租网站 Airbnb、伊隆·马斯克的 SpaceX 、图片分享网站 Pinterest 等。

中国排名前十的则有今日头条、滴滴、大疆等。

总体来看,美国的独角兽公司估值比中国均匀一些。另外,上面的公司名单中没有出现「蚂蚁金服」公司,这可是个估值超过 1500 亿美金的「大家伙」,有了蚂蚁金服,中国在账面上至少是不输美国了。

相较于全球独角兽公司 ,我们可能更关心本土公司的情况。好在,胡润研究院也经常发布独角兽公司报告。

该机构 1 月 24 日发布了《2018胡润大中华区独角兽指数》报告,将「蚂蚁金服」列入了独角兽企业估值榜单的第一位,估值达到 10,000 亿人民币。

这份报告中显示,大中华区一共有 186 家独角兽公司上榜,总估值超过 5 万亿人民币,体量相当大,平均每个公司估值 270 亿。

来看看估值前二十名的公司有哪些:

前二十名公司中,有多少你此前是不知道的?这些公司就是不错的求职目标。

代码实现如下:

  1. def unicorn_china2(data):
  2. data.sort_values(by='Valuation', ascending=False, inplace=True)
  3. data = data[:20][::-1]
  4. attr = list(data['Company'].values)
  5. value = list(data['Valuation'].values)
  6. bar = Bar("大中华区独角兽公司估值前二十名", '巨无霸蚂蚁金服', title_pos="center")
  7. bar.add("单位(亿人民币)",
  8. attr,
  9. value,
  10. is_label_show=True,
  11. label_pos='right',
  12. xaxis_interval=0,
  13. yaxis_roate=45,
  14. is_convert=True,
  15. legend_pos='right'
  16. )
  17. # Grid 控制图表布局,避免坐标标签折断
  18. grid = Grid(width=600, height=1000) # 修改图形尺寸
  19. grid.add(bar, grid_left='15%')
  20. grid.render(path='大中华区独角兽企业估值前二十.png', dpi=200)

先来总体看一下 186 家公司都分布在哪些城市:

独角兽公司主要集中在京津、长江经济带和珠三角三大区域。其中,北京「一枝独秀」,不得不说,北京的科创公司环境氛围是真的好。

代码实现如下:

  1. def unicorn_china(data):
  2. data = data.groupby(by='Headquarter').count()
  3. data.sort_values(by='Company', ascending=False, inplace=True)
  4. value = list(data['Company'].values)
  5. attr = list(data.index)
  6. # print(value,attr)
  7. map = Geo("大中华区独角兽公司分布", '北京突出', title_color="#fff",
  8. title_pos="center", background_color='#404a59')
  9. # type="effectScatter", is_random=True, effect_scale=5 使点具有发散性
  10. # 发散圆点图
  11. map.add("", attr, value, type="effectScatter",
  12. is_random=True, effect_scale=5,
  13. visual_range=[0, 80],
  14. visual_text_color="#fff",
  15. symbol_size=5,
  16. is_visualmap=True,
  17. )
  18. map.render(path='./国内独角兽公司城市分布.png', pixel_ration=1)

挑选图中比较突出的五个城市作对比,四个一线城市加上杭州。北京的独角兽公司整体估值水平远高于其他四大城市,上海和广州较弱,深圳和杭州旗鼓相当,马老板的「蚂蚁金服」让杭州很突出。

代码实现如下:

  1. # 五大城市独角兽公司估值范围对比
  2. def unicorn_china3(data):
  3. data1 = list(data.query("Headquarter == '北京'")['Valuation'].values)
  4. data2 = list(data.query("Headquarter == '上海'")['Valuation'].values)
  5. data3 = list(data.query("Headquarter == '广州'")['Valuation'].values)
  6. data4 = list(data.query("Headquarter == '深圳'")['Valuation'].values)
  7. data5 = list(data.query("Headquarter == '杭州'")['Valuation'].values)
  8. x_axis = ['北京', '上海', '广州', '深圳', '杭州']
  9. y_axis = [data1, data2, data3, data4, data5]
  10. chart = Boxplot('五大城市独角兽公司估值范围对比', title_pos='center')
  11. chart.add('单位(亿人民币)',
  12. x_axis, y_axis,
  13. legend_pos='right'
  14. )
  15. chart.render('五大城市独角企业市值值对比.png')

放大城市范围,看看大中华区各大城市估值排名前三的独角兽公司有哪些:

City Rank Company Valuation(亿元) Industry
北京 1 今日头条 5000 文化娱乐
2 滴滴出行 3000 互联网服务
3 京东数字科技 1000 互联网服务
上海 1 陆金所 2500 互联网金融
2 平安医保科技 500 医疗健康
3 金融壹账通 500 互联网金融
广州 1 小鹏汽车 300 汽车交通
2 云从科技 200 人工智能
3 名创优品 150 新零售
深圳 1 微众银行 1500 互联网金融
2 大疆 1000 机器人
3 柔宇科技 300 智能硬件
杭州 1 蚂蚁金服 10000 互联网金融
2 菜鸟网络 1000 物流服务
3 微医 400 医疗健康
南京 1 苏宁金服 500 互联网金融
2 满帮 400 物流服务
3 汇通达 200 电子商务
天津 1 神州优车 400 互联网服务
2 纳恩博 100 智能硬件
苏州 1 信达生物 100 医疗健康
2 基石药业 70 医疗健康
香港 1 客路旅行 70 互联网服务
2 亚洲医疗 70 医疗健康
成都 1 1919酒类直供 70 新零售
无锡 1 华云数据 70 大数据与云计算
武汉 1 斗鱼 200 文化娱乐
绍兴 1 电咖汽车 100 汽车交通
重庆 1 猪八戒网 100 互联网服务
金华 1 零跑汽车 70 汽车交通
长沙 1 芒果TV 100 文化娱乐
青岛 1 日日顺 100 物流服务
台北 1 辉能科技 70 新能源

只有 19 座城市拥有独角兽公司,城市基本是一二线,且一多半的城市只上榜了一家公司,比如成都、重庆。看来,想去独角兽公司工作,得身处一二线城市。

代码实现如下:

  1. # 各城市top3
  2. def unicorn_china4(data):
  3. def top(data):
  4. top = data.sort_values(by=['Valuation'], ascending=False)
  5. return top[:3]
  6. data = data.groupby(by=['Headquarter']).apply(top)
  7. data['add'] = 1 # 辅助
  8. data['top'] = data.groupby(by='Headquarter')['add'].cumsum()
  9. data = data[['Company', 'Valuation', 'Industry', 'top']]
  10. print(data)

接着对比一下各个行业的独角兽公司情况:

互联网金融行业拥有绝对的优势,占了全部公司估值 5 万亿的三分之一。其次是互联网服务行业,看来互联网行业的工作机会要大很多。

具体地看看各行业估值前三名的公司是哪些:

Industry Rank Company Valuation(亿元)
互联网服务 1 滴滴出行 3000
2 京东数字科技 1000
3 车好多 500
互联网金融 1 蚂蚁金服 10000
2 陆金所 2500
3 微众银行 1500
人工智能 1 商汤科技 400
2 Face++ 200
3 地平线机器人 200
区块链 1 比特大陆 500
2 嘉楠耘智 150
3 亿邦国际 70
医疗健康 1 平安医保科技 500
2 微医 400
3 联影医疗 300
大数据与云计算 1 金山云 100
2 盘石股份 100
3 华云数据 70
房产服务 1 链家 400
2 小猪短租 100
3 V领地 70
教育 1 VIPKID 200
2 猿辅导 200
3 作业帮 200
文化娱乐 1 今日头条 5000
2 快手 1000
3 博纳影业 200
新能源 1 辉能科技 70
新零售 1 名创优品 150
2 瑞幸咖啡 150
3 1919酒类直供 70
智能硬件 1 柔宇科技 300
2 寒武纪科技 150
3 纳恩博 100
机器人 1 大疆 1000
2 优必选 300
汽车交通 1 威马汽车 300
2 小鹏汽车 300
3 奇点汽车 200
游戏 1 英雄互娱 100
物流服务 1 菜鸟网络 1000
2 京东物流 800
3 满帮 400
电子商务 1 美菜网 500
2 每日优鲜 200
3 小红书 200

这里面又有多少公司,你此前是不知道的? 你不知道意味着很多人也不知道,现在你知道了,就掌握了一定的主动权。

文中代码和素材资源可以在下方链接中得到:

https://github.com/makcyun/web_scraping_with_python/tree/master/2018%20%E5%B9%B4%E5%9B%BD%E5%86%85%E5%A4%96%E7%8B%AC%E8%A7%92%E5%85%BD%E5%85%AC%E5%8F%B8%E4%BC%B0%E5%80%BC%E5%88%86%E6%9E%90

本专栏内容到此就结束了,希望能够帮助你顺利入门 Python 爬虫和数据分析。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注