@wade123
2019-05-13T02:48:01.000000Z
字数 6642
阅读 1475
Python入门爬虫与数据分析
摘要:Python 分析国内外独角兽公司。
前不久的滴滴裁员新闻,让独角兽公司更为大众熟知。
你可能听过独角兽公司,但并不太清楚和一般公司、上市公司有什么区别,简单介绍下:
独角兽公司(Unicorn Companies)是指:成立不到 10 年,估值在 10 亿美元以上,且未在股票市场上市的科技创业公司。超级独角兽公司则是估值在 100 亿美元以上。
独角兽公司在多轮融资后就会谋划上市,公司市值也会随之大涨一番。比如去年上市之前的独角兽公司:小米、美团、拼多多,上市后市值分别增长了 400、1200、1300 亿元。
根据权威网站「CBInsights」对全世界数百家独角兽公司的最新统计(截止2019 年 1 月),滴滴是世界第 3 大独角兽公司,估值达到 560 亿美金,近 4000 亿人民币。
排名第一和第二的分别是中美两国独角兽老大:今日头条和 Uber,
| Rank | Company | Country | Valuation (亿美元) |
|---|---|---|---|
| 1 | Toutiao (Bytedance) | China | 750 |
| 2 | Uber | United States | 720 |
| 3 | Didi Chuxing | China | 560 |
| 4 | WeWork | United States | 470 |
| 5 | Airbnb | United States | 290 |
| 6 | SpaceX | United States | 220 |
| 7 | Stripe | United States | 200 |
| 8 | JUUL Labs | United States | 150 |
| 9 | Epic Games | United States | 150 |
| 10 | United States | 120 | |
| 11 | Bitmain Technologies | China | 120 |
| 12 | Samumed | United States | 120 |
| 13 | Lyft | United States | 120 |
| 14 | GrabTaxi | Singapore | 110 |
| 15 | Palantir Technologies | United States | 110 |
| 16 | Global Switch | United Kingdom | 110 |
| 17 | Infor | United States | 100 |
| 18 | DJI Innovations | China | 100 |
| 19 | One97 Communications (operates Paytm) | India | 100 |
| 20 | Go-Jek | Indonesia | 100 |
上面表格标注了独角兽公司所在国家,可以用 pyecharts 绘制全球独角兽公司分布情况。
可以看到 326 家独角兽公司分布在 26 个国家,总估值超过 10,000 亿美元,大部分集中在中美两国。
代码实现如下:
from pyecharts import Map, Page, Style, Geo # 地图from pyecharts import Bar, Pie, Boxplotimport pandas as pdfrom pyecharts import Grid # 控制图表布局# 更改默认主题from pyecharts import configure# 代码置于首部configure(global_theme='dark')# 获取数据def get_data():data = pd.read_csv('./unicorn_worldwide.csv') # 全球data2 = pd.read_csv('./unicorn_china.csv')return data, data2# 1 全球独角兽公司分布def unicorn_world(data):data = data.groupby(by='Country').count()data.sort_values(by='Company', ascending=False, inplace=True)attr = list(data.index)value = list(data['Company'].values)# 1 绘制地图map = Map("全球独角兽公司分布",'326 家公司分布在 26 个国家',title_color="#fff", title_pos="left", # 标题颜色位置# background_color='#404a59' #背景色)map.add("", attr, value,maptype="world", # 世界地图visual_range=[0, 160], # 值范围visual_text_color="#fff",is_visualmap=True, is_label_show=False,label_formatter='{b}' # {a}{b}{c}显示不同标签、值格式)map.render(path='全球独角兽公司分布.png', pixel_ration=1)# 2 绘制柱状图bar = Bar("各国独角兽公司数量对比", '美中制霸', title_pos="center")bar.add("", attr, value,is_label_show=True,xaxis_interval=0,xaxis_rotate=45,)# Grid 控制图表布局范围,避免坐标标签折断grid = Grid()grid.add(bar, grid_bottom='25%') # 图表距离底边25%,x 轴标签能够充分显示grid.render(path='各国独角兽公司数量.png', dpi=200)
从各国具体的数据来看,美国基本占了全球独角兽公司数量和估值的 50%,其次是中国,占了 30% 左右,剩下的二十来个国家只占 20%。
可以说,全球只有中美两国在「玩」独角兽公司。
代码实现如下:
# 2 各国独角兽公司估值对比饼图def unicorn_world2(data):data = data.groupby(by='Country').sum()data = data.sort_values(by='Valuation', ascending=False)data2 = data[:5]['Valuation'] # 前5国家data3 = data[5:]['Valuation'].sum() # 后5国家全部划分为其他data2.loc['Else'] = data3attr = list(data2.index)value = list(data2.values)chart = Pie('各国独角兽公司估值对比','中美占据 80%',title_pos='center',)chart.add('', attr, value,is_label_show=True,is_legend_show=False,)chart.render(path='各国独角兽公司市值对比.png')
简单对比一下两国估值排名前十的独角兽公司。可以看到美国除了 Uber,比较熟悉的还有:短期房屋出租网站 Airbnb、伊隆·马斯克的 SpaceX 、图片分享网站 Pinterest 等。
中国排名前十的则有今日头条、滴滴、大疆等。
总体来看,美国的独角兽公司估值比中国均匀一些。另外,上面的公司名单中没有出现「蚂蚁金服」公司,这可是个估值超过 1500 亿美金的「大家伙」,有了蚂蚁金服,中国在账面上至少是不输美国了。
相较于全球独角兽公司 ,我们可能更关心本土公司的情况。好在,胡润研究院也经常发布独角兽公司报告。
该机构 1 月 24 日发布了《2018胡润大中华区独角兽指数》报告,将「蚂蚁金服」列入了独角兽企业估值榜单的第一位,估值达到 10,000 亿人民币。
这份报告中显示,大中华区一共有 186 家独角兽公司上榜,总估值超过 5 万亿人民币,体量相当大,平均每个公司估值 270 亿。
来看看估值前二十名的公司有哪些:
前二十名公司中,有多少你此前是不知道的?这些公司就是不错的求职目标。
代码实现如下:
def unicorn_china2(data):data.sort_values(by='Valuation', ascending=False, inplace=True)data = data[:20][::-1]attr = list(data['Company'].values)value = list(data['Valuation'].values)bar = Bar("大中华区独角兽公司估值前二十名", '巨无霸蚂蚁金服', title_pos="center")bar.add("单位(亿人民币)",attr,value,is_label_show=True,label_pos='right',xaxis_interval=0,yaxis_roate=45,is_convert=True,legend_pos='right')# Grid 控制图表布局,避免坐标标签折断grid = Grid(width=600, height=1000) # 修改图形尺寸grid.add(bar, grid_left='15%')grid.render(path='大中华区独角兽企业估值前二十.png', dpi=200)
先来总体看一下 186 家公司都分布在哪些城市:
独角兽公司主要集中在京津、长江经济带和珠三角三大区域。其中,北京「一枝独秀」,不得不说,北京的科创公司环境氛围是真的好。
代码实现如下:
def unicorn_china(data):data = data.groupby(by='Headquarter').count()data.sort_values(by='Company', ascending=False, inplace=True)value = list(data['Company'].values)attr = list(data.index)# print(value,attr)map = Geo("大中华区独角兽公司分布", '北京突出', title_color="#fff",title_pos="center", background_color='#404a59')# type="effectScatter", is_random=True, effect_scale=5 使点具有发散性# 发散圆点图map.add("", attr, value, type="effectScatter",is_random=True, effect_scale=5,visual_range=[0, 80],visual_text_color="#fff",symbol_size=5,is_visualmap=True,)map.render(path='./国内独角兽公司城市分布.png', pixel_ration=1)
挑选图中比较突出的五个城市作对比,四个一线城市加上杭州。北京的独角兽公司整体估值水平远高于其他四大城市,上海和广州较弱,深圳和杭州旗鼓相当,马老板的「蚂蚁金服」让杭州很突出。
代码实现如下:
# 五大城市独角兽公司估值范围对比def unicorn_china3(data):data1 = list(data.query("Headquarter == '北京'")['Valuation'].values)data2 = list(data.query("Headquarter == '上海'")['Valuation'].values)data3 = list(data.query("Headquarter == '广州'")['Valuation'].values)data4 = list(data.query("Headquarter == '深圳'")['Valuation'].values)data5 = list(data.query("Headquarter == '杭州'")['Valuation'].values)x_axis = ['北京', '上海', '广州', '深圳', '杭州']y_axis = [data1, data2, data3, data4, data5]chart = Boxplot('五大城市独角兽公司估值范围对比', title_pos='center')chart.add('单位(亿人民币)',x_axis, y_axis,legend_pos='right')chart.render('五大城市独角企业市值值对比.png')
放大城市范围,看看大中华区各大城市估值排名前三的独角兽公司有哪些:
| City | Rank | Company | Valuation(亿元) | Industry |
|---|---|---|---|---|
| 北京 | 1 | 今日头条 | 5000 | 文化娱乐 |
| 2 | 滴滴出行 | 3000 | 互联网服务 | |
| 3 | 京东数字科技 | 1000 | 互联网服务 | |
| 上海 | 1 | 陆金所 | 2500 | 互联网金融 |
| 2 | 平安医保科技 | 500 | 医疗健康 | |
| 3 | 金融壹账通 | 500 | 互联网金融 | |
| 广州 | 1 | 小鹏汽车 | 300 | 汽车交通 |
| 2 | 云从科技 | 200 | 人工智能 | |
| 3 | 名创优品 | 150 | 新零售 | |
| 深圳 | 1 | 微众银行 | 1500 | 互联网金融 |
| 2 | 大疆 | 1000 | 机器人 | |
| 3 | 柔宇科技 | 300 | 智能硬件 | |
| 杭州 | 1 | 蚂蚁金服 | 10000 | 互联网金融 |
| 2 | 菜鸟网络 | 1000 | 物流服务 | |
| 3 | 微医 | 400 | 医疗健康 | |
| 南京 | 1 | 苏宁金服 | 500 | 互联网金融 |
| 2 | 满帮 | 400 | 物流服务 | |
| 3 | 汇通达 | 200 | 电子商务 | |
| 天津 | 1 | 神州优车 | 400 | 互联网服务 |
| 2 | 纳恩博 | 100 | 智能硬件 | |
| 苏州 | 1 | 信达生物 | 100 | 医疗健康 |
| 2 | 基石药业 | 70 | 医疗健康 | |
| 香港 | 1 | 客路旅行 | 70 | 互联网服务 |
| 2 | 亚洲医疗 | 70 | 医疗健康 | |
| 成都 | 1 | 1919酒类直供 | 70 | 新零售 |
| 无锡 | 1 | 华云数据 | 70 | 大数据与云计算 |
| 武汉 | 1 | 斗鱼 | 200 | 文化娱乐 |
| 绍兴 | 1 | 电咖汽车 | 100 | 汽车交通 |
| 重庆 | 1 | 猪八戒网 | 100 | 互联网服务 |
| 金华 | 1 | 零跑汽车 | 70 | 汽车交通 |
| 长沙 | 1 | 芒果TV | 100 | 文化娱乐 |
| 青岛 | 1 | 日日顺 | 100 | 物流服务 |
| 台北 | 1 | 辉能科技 | 70 | 新能源 |
只有 19 座城市拥有独角兽公司,城市基本是一二线,且一多半的城市只上榜了一家公司,比如成都、重庆。看来,想去独角兽公司工作,得身处一二线城市。
代码实现如下:
# 各城市top3def unicorn_china4(data):def top(data):top = data.sort_values(by=['Valuation'], ascending=False)return top[:3]data = data.groupby(by=['Headquarter']).apply(top)data['add'] = 1 # 辅助data['top'] = data.groupby(by='Headquarter')['add'].cumsum()data = data[['Company', 'Valuation', 'Industry', 'top']]print(data)
接着对比一下各个行业的独角兽公司情况:
互联网金融行业拥有绝对的优势,占了全部公司估值 5 万亿的三分之一。其次是互联网服务行业,看来互联网行业的工作机会要大很多。
具体地看看各行业估值前三名的公司是哪些:
| Industry | Rank | Company | Valuation(亿元) |
|---|---|---|---|
| 互联网服务 | 1 | 滴滴出行 | 3000 |
| 2 | 京东数字科技 | 1000 | |
| 3 | 车好多 | 500 | |
| 互联网金融 | 1 | 蚂蚁金服 | 10000 |
| 2 | 陆金所 | 2500 | |
| 3 | 微众银行 | 1500 | |
| 人工智能 | 1 | 商汤科技 | 400 |
| 2 | Face++ | 200 | |
| 3 | 地平线机器人 | 200 | |
| 区块链 | 1 | 比特大陆 | 500 |
| 2 | 嘉楠耘智 | 150 | |
| 3 | 亿邦国际 | 70 | |
| 医疗健康 | 1 | 平安医保科技 | 500 |
| 2 | 微医 | 400 | |
| 3 | 联影医疗 | 300 | |
| 大数据与云计算 | 1 | 金山云 | 100 |
| 2 | 盘石股份 | 100 | |
| 3 | 华云数据 | 70 | |
| 房产服务 | 1 | 链家 | 400 |
| 2 | 小猪短租 | 100 | |
| 3 | V领地 | 70 | |
| 教育 | 1 | VIPKID | 200 |
| 2 | 猿辅导 | 200 | |
| 3 | 作业帮 | 200 | |
| 文化娱乐 | 1 | 今日头条 | 5000 |
| 2 | 快手 | 1000 | |
| 3 | 博纳影业 | 200 | |
| 新能源 | 1 | 辉能科技 | 70 |
| 新零售 | 1 | 名创优品 | 150 |
| 2 | 瑞幸咖啡 | 150 | |
| 3 | 1919酒类直供 | 70 | |
| 智能硬件 | 1 | 柔宇科技 | 300 |
| 2 | 寒武纪科技 | 150 | |
| 3 | 纳恩博 | 100 | |
| 机器人 | 1 | 大疆 | 1000 |
| 2 | 优必选 | 300 | |
| 汽车交通 | 1 | 威马汽车 | 300 |
| 2 | 小鹏汽车 | 300 | |
| 3 | 奇点汽车 | 200 | |
| 游戏 | 1 | 英雄互娱 | 100 |
| 物流服务 | 1 | 菜鸟网络 | 1000 |
| 2 | 京东物流 | 800 | |
| 3 | 满帮 | 400 | |
| 电子商务 | 1 | 美菜网 | 500 |
| 2 | 每日优鲜 | 200 | |
| 3 | 小红书 | 200 |
这里面又有多少公司,你此前是不知道的? 你不知道意味着很多人也不知道,现在你知道了,就掌握了一定的主动权。
文中代码和素材资源可以在下方链接中得到:
本专栏内容到此就结束了,希望能够帮助你顺利入门 Python 爬虫和数据分析。