25岁常常被定义为女性肌肤的分水岭,25岁后很多女性开始注重护肤品的抗衰老功效。雅诗兰黛和兰蔻的一系列产品,凭借其抗初老、抚平细纹功效,受到了很多轻熟女性的青睐。那么,它们究竟是以怎样的产品和价格占领市…
25岁常常被定义为女性肌肤的分水岭,25岁后很多女性开始注重护肤品的抗衰老功效。雅诗兰黛和兰蔻的一系列产品,凭借其抗初老、抚平细纹功效,受到了很多轻熟女性的青睐。那么,它们究竟是以怎样的产品和价格占领市场的呢?
分析目的:对天猫美妆店铺内雅诗兰黛和兰蔻的相关信息进行调查,了解这两个品牌线上产品主要有哪些,具体的价位是多少,各自有什么样的特色产品,帮助大家更深入地了解这两个品牌。
数据来源:天猫美妆旗舰店
一、提出问题
1.雅诗兰黛和兰蔻的明星产品分别是什么?
2.两个品牌分别销售哪些类别的产品?
3.参与双十一活动的产品有哪些?
4.两个品牌各类产品的价格如何?
二、理解数据
原数据1.一共4列数据是有效数据,即价格、标签、总销量和评论数,后面的几列都是从网上爬数时自动增加的,可以删除。评论数是非数值型,需要进行转化。
2.价格、总销量和评论数通俗易懂,不再赘述,标签主要提取了该产品的名称及简单介绍,本人将从这一列中提取一些有用信息,对产品进行分类。
三、数据清洗
接下来需要对数据进行初步的清洗处理,以方便后续的分析。
1.删除多余列,增加一列产品ID作为主键,只剩下5列,如下图:
导入数据
在这一步骤中,将excel导入MySQL中时中文出现了乱码,只需要修改数据库属性即可,如下图
我将excel表格导入数据库,表格名导入后的表如下图所示:
2.排查空值
在此检查表内是否存在空值。主要针对产品标签,价格,销量和评论数列:
SELECT * FROM ES
WHERE 价格 IS NULL OR 销量 IS NULL OR 评论数 IS NULL OR 产品标签 IS NULL;
执行上述语句返回的结果显示表内无空值。原因可能是由于爬虫自动跳过了空值。
3.数据一致化处理
3.1 接下来对“评论数”列进行清洗,去除冗余内容,只留下数字:
update ES
SET 评论数 = REPLACE(评论数,评价:,);
执行结果如图所示:
3.2 产品分类
这一步骤主要对产品一列进行分类整理,找出分别是精华,口红,粉底(BB霜),眼霜,面霜,爽肤水,套装,其他的产品,因为雅诗兰黛的常见产品主要是这几类,所以将此外的产品分类为其他。
select 销量,
case
when 产品标签 like(%精华%) then 精华
when 产品标签 like(%唇%) then 口红
when 产品标签 like(%粉底%) then 粉底
when 产品标签 like(%BB%) then 粉底
when 产品标签 like(%套装%) then 套装
when 产品标签 like(%眼霜%) then 眼霜
else 其他 end as 类别
from ES;
但是这段代码我尝试了很多次一直报错,最后使用excel的筛选功能对产品进行了分类,并重新导入数据库,导入后如下图:
雅诗兰黛(Estée Lauder)简介
雅诗兰黛是美国雅诗兰黛公司旗下的化妆品旗舰品牌,以抗衰修护护肤品闻名。1946年雅诗兰黛公司成立于美国纽约,其产品风格是精于研发和精致优雅,雅诗兰黛公司底下还有其他鼎鼎大名的分支品牌,比如Clinique(倩碧)、La Mer(海蓝之谜)、LAB SERIES(朗仕)、Prescriptives、Origins(悦木之源),以及化妆品品牌Bobbi Brown、M·A·C,和男性香水品牌Aramis等等。雅诗兰黛旗下品牌的定位整体偏向中高端或是专业线,基本忽略了平价入门款。而本文所述的雅诗兰黛作为雅诗兰黛公司的创始品牌,无疑也是旗下最为人所知的品牌了,现在的雅诗兰黛产品线覆盖了护肤、彩妆和香水。
(1)哪一类产品品种最丰富呢?输入
select count(产品ID) ,类别 from esteelauder
group by 类别;
返回的结果如下图,可以看出线上销售品类最丰富的是套装,说明雅诗兰黛天猫旗舰店在售各种类型的套装组合,其他除外(因为其他包含很多产品种类)。
(2)哪一类产品销量最好呢?输入
select sum(销量) ,类别 from esteelauder
group by 类别
order by sum(销量) DESC;
返回结果如下图,热销程度排名可以看出粉底液的销量是最高的,这也印证了我之前分析粉底的一篇文章的结论,即雅诗兰黛粉底液的确是一款网红产品。其次分别是口红,眼霜,套装和面部精华等等。
(3)参加天猫双十一预售活动的产品有哪些?输入
select * from esteelauder
where `产品标签` like %预售%;
返回结果如下图,热销产品如粉底液,眼霜,口红,精华等都参加了双十一的预售活动。
将价格,销量,评论数这3列改为数值型的,方便后续的比较分析,修改方式如下,右击需要修改的表,点击表设计,弹框如下,将varchar(字符型)修改为int(整数型),长度改为4,改好后,这些字段都变成了右对齐。
(4)销量最好的前3款产品是什么?输入
select * from esteelauder
order by `销量` DESC LIMIT 3;
返回结果如下所示,销量最好的是小棕瓶眼霜,其次是dw粉底液和倾慕口红,这三款产品才是真正的明星产品,似乎与雅诗兰黛官网公布的畅销排名不太一致,这三款产品在官网的排名分别是2,10,8。
同样地,我又找出了评论数最多的前3名产品,还是这三款,评论数越多代表用户对其的关注度越高,在美妆护肤产品界,非常注重产品体验和口碑,其和销量也是紧密相关的。
(5)各类产品的平均价格是多少?输入
select `类别`, avg(价格) from esteelauder
group by `类别`
order by avg(价格);
返回结果如下图
最便宜的产品类型就是口红,看来口红销量高与它很高的性价比是有关的。类似的产品还有粉底液,雅诗兰黛的粉底液一直以性价比高著称,相比其他类似品牌的定价,其粉底液算得上是良心价了。套装的价格最高,因为其中包括多件产品。但是面霜的价格也似乎高出了我的预期,于是我将面霜的价格调出来一窥究竟,输入
select * from esteelauder
where `类别` = 面霜
order by `价格` DESC;
结果如下
发现雅诗兰黛的面霜价格差异很大,最贵的高达3800,但是销量最高的红石榴面霜的价格仅仅590,但是这些高价面霜拉高了平均价格,可见在这里平均价格的确不是一个靠谱的统计量。
兰蔻(Lancome)简介
1993年兰蔻进入中国市场,兰蔻1935年诞生于法国,由Armand Petitjean创办。作为全球知名的高端化妆品品牌,最早以香水起家,发展至今兰蔻已涉足护肤、彩妆、香水等多个产品领域,旗下的各类产品已遍布全球163个国家。主要面向教育程度、收入水平较高,年龄在25~40岁的成熟女性,并于 1993年进入中国市场。
按照同样的方法分析兰蔻的产品。
(1)兰蔻的哪一类产品品种最丰富呢?由下图的返回结果可知线上销售品类最丰富的是兰蔻的套装,说明兰蔻天猫旗舰店在售各种类型的套装组合。
(2)参加天猫双十一预售活动的产品有哪些?输入
select * from lancome
where `产品标签` like %预售%
order by `销量` DESC;
返回结果如下图,热销产品如爽肤水,精华,粉底,眼霜等都参加了双十一的预售活动。
再输入
select count(产品ID) from lancome
where `产品标签` like %预售%;
发现共有61款产品参加了双十一的预售活动。
(3)哪一类产品销量最好呢?输入
select sum(销量) ,类别 from lancome
group by 类别
order by sum(销量) DESC;
返回结果如下图,热销程度排名可以看出爽肤水的销量是最高的,也就是赫赫有名的“兰蔻粉水”,也是一款各大美妆论坛被推烂了的产品。其次分别是精华,粉底,口红等等。其早期起家的产品香水却排到了最后。
(4)销量最好的前3款产品是什么?输入
select * from lancome
order by `销量` DESC LIMIT 3;
返回结果如下所示,销量最好的是大粉水,其次是小黑瓶精华,这两款产品是兰蔻的明星产品,似乎与兰蔻官网公布的畅销排名也不太一致,粉水的排名仅仅为第5。
(5)各类产品的平均价格是多少?输入
select `类别`, avg(价格) from lancome
group by `类别`
order by avg(价格);
返回结果如下图:
最便宜的产品类型也是口红,但是兰蔻口红的均价比雅诗兰黛的要高80元左右,所以兰蔻的口红就没那么“好卖”。但是兰蔻粉底类的产品的价格还是比较低的,与雅诗兰黛粉底液相比,价格上也比较“良心”。兰蔻的面霜均价最高,同样地,我调出来所有面霜的信息。
输入
select * from lancome
where `类别` = 面霜
order by `价格` DESC;
结果如下
兰蔻额金箔面霜竟然高达20000元,所以将面霜的均价拉高了,因为大多数的面霜价格仍然低于1000。销量最好的还是最便宜的那款面霜。