基于分位数回归的C2C电商卖家销量分析与信用评价 - 销售管理

第一章绪论

1.1 选题背景

C2C 电子商务将传统的交易搬到了网络上，并且由于其独特的特性：便利性、节约性和跨越地域性等等，C2C 电子商务在近年来获得了蓬勃发展。根据中国互联网络信息中心 2016 年 1 月最新发布的《第 36 次中国互联网络发展状况统计报告》，截至 2015 年 6 月，中国网民规模达 6.68 亿，半年共计新增网民 1894万人，互联网普及率为 48.8%。如此数量庞大的网民群体，也在一定程度上刺激了 C2C 电子商务的发展。同时，由于 C2C 电子商务的巨大潜力，也使得众多国内外学者对 C2C 电子商务展开了各个方面的研究。

在 C2C 电子商务快速发展的同时，伴生了大量的问题。首先，C2C 网络店铺的虚拟性，使得其与实体店铺具有本质差别，一些适用于实体店铺的规律并不完全适用于虚拟店铺，另外某些特定问题在虚拟店铺中的表现形式及关联关系并不一定同于实体店铺中研究所得的结论。

其次，从卖家角度考虑，销量的提升是首要问题。网络店铺的复杂性使得销量的影响因素众多，且影响方式复杂多变，普通的研究方法无法全面体现各影响因素对销量的影响方式，所以在研究过程中，需要选择更合适的研究方法，才能适应网络环境的复杂性，得到更精准的影响关系，针对得到的结论进一步完善店铺的营销策略，完成销量提升的目的。

最后，在销量的影响因素分析的基础上，发现卖家信用得分会对销量产生显著影响，网络店铺的虚拟性使得买家在交易中更加关注店铺的可信度，可信度的主要体现就是店铺的信用水平；反之，体现店铺的真实信用水平也有利于促进C2C 网络店铺的良性竞争。反观目前的信用评价方法，可以发现其存在很大的弊病，亟需进行针对性的改进。同时，已有的研究工作中，通过理论分析和研究假设，提出了大量新的信用评估方法，但是鲜有针对提出的信用评估方法进行实证检验的研究工作，所以信用评估方法的有效性检验也是目前研究的重点之一。

综上可知，C2C 电商产品销量影响因素分析和信用评价方法改进问题是极具研究价值的重要课题，其研究成果将有助于卖家在营销策略方面进行科学决策。鉴于此，本文对 C2C 电子商务开展了两个方面的研究：第一，C2C 电商销量的影响因素研究；第二，C2C 电商卖家信用评价方法改进研究及有效性检验。

..........................

1.2 研究现状

1.2.1 C2C 电商销量影响因素研究现状

国外文献对电商产品销量影响因素的研究较多，研究者主要都通过网络交易数据研究信誉方面对销量的重要性，例如 Melnik 等(2002)和 Standifird 等(2005)的研究工作。Zhang 等(2011)对信誉与销量之间关系进行了研究，主要通过淘宝网上交易数据进行实证，研究发现：卖家信用与销量间并不是简单的线性关系，而存在更复杂的非线性关系，在某个阈值之上时，信誉提升会导致销量提高，但是在某个阈值之下时，信誉提升反而会导致销量下降；价格并不是销量的决定性因素，当卖家信誉足够大的时候，价格的上升反而会对销量产生促进作用。国内文献在这方面的研究起步较晚，但进展迅速，主要集中在：电商产品销量分析、信誉分析、在线评论分析等方面。

在电商产品销量研究方面，赵占波等(2013)搜集了网络交易平台上化妆品销售数据，对产品浏览量和产品销量的影响因素进行分析，并采用零膨胀的泊松模型对此开展定量研究，发现：影响产品浏览量和产品销量的因素具有很大的差异，相同的因素对二者的影响程度也存在很大差别。孙光宇(2016)通过对泰安市农产品电子商务地调研，提出了 B2C、C2C、B2M 等几种模式，用以提高泰安市农产品在电商平台上的销量。

在信誉研究方面，周黎安等(2006)通过易趣网的交易数据，使用 Heckman两阶段模型研究卖家信誉对交易产生的影响，发现：卖家信誉对交易的最终成交价格确实有影响，但影响程度有限；卖家信誉同时还会对交易成功的概率产生正向的影响，并且影响程度十分显著。

在在线评论研究方面，崔香梅等(2010)通过对淘宝网数据的采集，在进行相关性分析和多元线性回归之后，发现：价格对交易笔数有显著的负影响，好评数对交易笔数有显著的正影响，而由于淘宝网的默认好评和卖家对中评差评的控制，导致中评差评数相对好评数而言极少，从而导致分析结果中，中评与差评数也对销量产生正向影响。此外，是否参加商盟对销量并无显著影响。王君珺等(2013)通过收集京东商城的手机销售相关数据，使用相关分析、回归分析等研究方法，对评论长度、评论星级、评论及时度、产品价格对不同热度搜索型产品的销量影响情况进行了研究，发现对于搜索型产品，热门品牌的评论长度、评论及时度对非热门品牌的产品销量均有显著影响。龚诗阳等(2013)通过搜集当当网上图书评论的数据共计 3200 多万条，形成大样本面板数据，以此为基础进行实证分析，并发现线上消费者的评论对图书商品的销量呈现出显著的影响。

..........................

第二章模型与方法

2.1 分位数回归

2.1.1 提出背景

回归分析有着十分悠久的历史，而均值回归是最典型且应用最广泛的方法。建立在古典假定基础上的均值回归具有良好的统计性质，已成为统计分析与经济计量分析中的标准工具，尤其在假设误差满足正态性的条件时，均值回归具有无偏性、有效性等优点。然而，在实际应用环境中，均值回归要求满足的条件比较严格，包括等方差性、随机误差的不相关性和正态性等等，当应用环境中的数据存在厚尾或者异常值时，均值回归的结果稳健性并不高，同时均值回归只能揭示解释变量对响应变量条件均值的影响，难以适应响应变量具有非对称和分散性的建模需求。

鉴于此，Koenker 等(1978)提出了分位数回归（QR）的概念，他们在中位数回归理论的基础上，将中位数回归推广到了更一般的分位数回归。分位数回归方法相比较均值回归，通过考察解释变量对响应量在不同分位点处的异质影响，可以挖掘到更加丰富的信息，进而给出响应变量整个条件分布特征的描述，尤其在应用数据存在厚尾等特殊情况时给出更加稳健的结果。

在分位数回归理论发展的二三十年时间中，Koenker、Bassett、Powell、Chernozhukov 等学者为了丰富和完善分位数回归理论体系做出了卓越的贡献。而随着分位数理论的完善，其在国内外各个领域研究中的应用也越来越广泛。Buchinsky(1994)使用分位数回归的方法对美国 1963 年至 1987 年工资结构的变化规律进行了分析；Barnes(2002)将分位数回归应用到跨部门公债市场回报率分析的研究中；刘生龙(2008)将分位数回归应用在居民收入研究中，使用分位数回归的方法对中国的明瑟方程进行了检验，发现教育和经验对中国居民的收入有正面的促进作用，并通过不同分位点上的比较发现，教育和经验对中国女性居民收入的回报要高于男性居民收入的回报。张颖等(2012)将分位数回归应用到金融风险计量研究中，实证测试表明在国内金融市场中，分位数回归的 GARCH模型（QGARCH）对于刻画金融市场风险过程具有更加良好的表现，尤其是在用于估计市场指数收益的 1%VaR 中。牛品一等(2013)将分位数回归方法应用在分析影响城市化发展的动力银子的研究工作中，使用分位数回归进行实证建模后发现，江苏省城市化在不同时间段中发展路径有不同的侧重点。许启发等(2013)[35]使用分位数回归方法研究了不同分位点处的中国股市费雪效应的存在性。卢进勇等(2014)将分位数回归应用到外商直接投资（FDI）、人力资本对中国环境污染的影响分析中，通过分位数回归分析，实证检验了外商直接投资、人力资本与环境污染排放的关系。毕茜等(2016)将分位数回归应用到企业绿色投资研究中，在分位数回归模型中，分析发现环境税对企业绿色投资的边际效应为正向并在不同分位水平下具有异质性，为环境税的出台提出了证据支持，为完善环境税的设计提供了经验证据。

........................

2.2 神经网络分位数回归

2.2.1 提出背景

上节中提到的分位数回归方法虽然使用简单、应用广泛，但是其只是一种简单的线性回归方法。在具体的应用中，当样本中解释变量与被解释变量间存在非线性的关系时，分位数回归方法往往无法准确地定义模型结构，从而给建模带来困难，并且对结果的稳健性和可靠性产生较大影响。基于此，Taylor(2000)在分位数理论的基础上，将分位数回归与神经网络结构相结合，提出了一种新的非线性非参数的分位数回归模型——神经网络分位数回归模型（QRNN）。Cannon(2011)在 R 软件中实现了 QRNN 模型的建模和求解，为 QRNN 模型的广泛应用提供了极大的便利。

神经网络分位数回归模型在进行建模时，无需确定模型具体结构，通过数据的不断训练和迭代，即可得到模型中各解释变量的参数，是一种结合人工智能与分位数回归的灵活方法。何耀耀等(2013)[46]、许启发等(2015)指出，神经网络分位数回归结合了神经网络和分位数回归两个方面的优势：一方面，QRNN 模型通过神经网络结构，能够模拟系统中的非线性机制，对非线性的模型关系能够给出更加精准的描述；另一方面，QRNN 模型通过分位数回归，能够揭示解释变量对响应变量的异质影响。具体的模型结构可以表示为图 1所示。

神经网络分位数回归模型由于其固有的特点和优势，一经提出便受到广泛得关注和应用。阮素梅等(2015)将 QRNN 模型应用在证券投资收益地预测中，使用神经网络分位数回归模型进行概率密度预测，提供出比点预测更多的有用信息。卢全莹等(2015)在天然气需求分析与预测地研究中，使用了神经网络分位数回归模型，估计和预测了 2012 年至 20