百科知识
工商名录数据库(实时-要点)
2023-09-08 10:07:05
来源:互联网
该数据集是研究微观企业及其对外直接投资的重要数据集!
蒋冠宏等众多著名国际商务学者均使用该数据集产出重要研究成果!
具体的处理方法为:
参考Brandt等(2023)对数据库进行了逐年合并,并对错误数据进行了清洗。将《名录》与《工业企业数据库》按照企业进行匹配合并,以蒋冠宏等(2023)为代表的众多学者在研究相关问题时均对两个数据库进行了合并,但由于《工业企业数据库》错误较多且企业存在改名的现象,导致两个数据库匹配成功率较低。为解决这一问题,采用了独创的同地区模糊匹配法,具体步骤如下:
首先,根据《工业企业数据库》中错误率较低的“地区编码”和“邮政编码”确定该企业所在(副)省级单位(包括省、直辖市、自治区和计划单列市),未能确定企业所在地点的样本不足1%(398万余个原始样本中不足2万),剔除这部分样本。然后,采用文本处理工具将两个数据库中的企业名进行分词,提取出核心部分,将地点和“有限责任公司”等通用后缀去除,如“南京盛东化工有限公司”,提出的核心部分为“盛东化工”。使用模糊匹配程序包将两个数据库进行匹配,模糊匹配提高了匹配的成功率,如“中国石油”和“中石油”是一家公司,如果使用精确匹配,则不能匹配成功,但不能过于模糊,否则“中石油”和“中石化”将被识别成同一家公司,根据该程序包的使用经验,将模糊匹配阈值设为80%。最后,按年按地区进行匹配,这样可以大大提高匹配的成功率,在同一省份的同一年份,每个企业的匹配空间大幅减小,重名的可能性降低,此外,去除地名开头和通用后缀避免了如“北京”和“北京市”这样同一意思但字符不同所造成的差别,使得成功率进一步提高。最终,经过以上处理,在2001—2023年的样本区间上,将两个数据库匹配合并,共获得3989940个样本,其中,共有6889家工业企业进行对外直接投资,共投资8429次,匹配成功率大幅高于同类文献。
由于《工业企业数据库》中统计错误和缺失值较多,参考Feenstra等(2023)、聂辉华等(2023)对原始数据进行清洗和精简,包括(1)剔除了雇员数少于8人且多于100万人的样本;(2)剔除了同一年内重复或错误的记录以提高样本信息的准确度;(3)剔除了一些明显错误,如工业总产值、工业增加值、固定资产数值非正数的样本;(4)剔除了存续年份大于100年或小于0年的样本等;(5)本文将按年列示的数据库根据企业名称、法人代表名称、地理位置等信息匹配成非平衡面板,非平衡面板中,由于统计披露和逐年匹配误差,部分企业出现时间较短或者不连续,本文仅选择数据连续存在3年以上的企业,剔除了不足3年的样本。最终,精简之后的样本量总数为742788,共2492家工业企业进行对外直接投资,投资3140笔。总结来看,在工业企业数据库的基础上匹配了两个新变量,第一个是该企业该年是否进行了对外直接投资;第二,同一家企业每一年可能会有多笔对外直接投资,本文统计了匹配到的样本数,即该企业该年对外直接投资的笔数。
处理过程和代码展示: 首先是原始数据,包括2000-2023年工业企业数据库数据和境外投资企业(机构)名录数据。
Python代码包括数据预处理,字段删减统一改名,公司名处理,模糊匹配等。
stata代码包括分年合并,非平衡面板处理,删除离群数据等。
结果展示及字段说明:
处理后保留的字段和相关说明详见Excel表。 1.该数据集一共含有3989940个样本值,合并了2000年-2023年的分年工业企业数据库,剔除了各年的重复值和失效样本,未做其他样本选择。
2.将各年数据分别与商务部境外投资企业名录进行匹配,采取了必要的模糊匹配,增加配对成功的数量,其中OFDIs列表示该企业当年对外投资的次数,一共匹配成功8900多笔投资,优于目前可以见到的一些匹配工作。
3.penal_id字段唯一标识面板中的不同企业,总面板数据是非平衡的,企业样本从一年到横跨十四年不等。
4.字符串变量基本选自工业企业数据库中的字符串,加入了省份变量和分词后的法人单位变量帮助匹配。
5.数据变量除了OFDIs之外,其他均来自于工业企业数据库,在一定程度上选取了2000年-2023年各年数据库字段的交集,即14年出现了12次以上的变量(这样做是因为即使缺失也可以通过插值补全),如果某个变量仅出现过个位次,则无法补全缺失值,无法使用该指标的面板数据。
6.通过以上方法选取了40多个企业指标,均为财务指标,包括资产类、负债类、权益类和损益类等,具体即缺失情况见“字段及缺失情况.xlsx”为进行微观层面的研究提供了坚实的基础。
7.但也不得不删去了一些变量,如仅在某几年出现的现金流量指标,以及行政区码、轻重工业、企业规模、从业人数、新产品产值、工业增加值、长期投资、流动资产净额、本年折旧、固定资产净值、无形资产、营业收入、营业成本、销售利润、投资收益、营业外收入、营业外支出、利税总额、应付福利总额、税金及附加、中间投入合计等指标。
数据说明、字段及缺失情况.xlsx
最终结果:
总数据300多万条,目前仅支持stata格式,敬请谅解!清洗后数据质量非常高且目前很新,谢绝议价!
工企与境外投资匹配结果 分年数据也可出售,30一年,未合并,可见下方联系方式
蒋冠宏等众多著名国际商务学者均使用该数据集产出重要研究成果!
具体的处理方法为:
参考Brandt等(2023)对数据库进行了逐年合并,并对错误数据进行了清洗。将《名录》与《工业企业数据库》按照企业进行匹配合并,以蒋冠宏等(2023)为代表的众多学者在研究相关问题时均对两个数据库进行了合并,但由于《工业企业数据库》错误较多且企业存在改名的现象,导致两个数据库匹配成功率较低。为解决这一问题,采用了独创的同地区模糊匹配法,具体步骤如下:
首先,根据《工业企业数据库》中错误率较低的“地区编码”和“邮政编码”确定该企业所在(副)省级单位(包括省、直辖市、自治区和计划单列市),未能确定企业所在地点的样本不足1%(398万余个原始样本中不足2万),剔除这部分样本。然后,采用文本处理工具将两个数据库中的企业名进行分词,提取出核心部分,将地点和“有限责任公司”等通用后缀去除,如“南京盛东化工有限公司”,提出的核心部分为“盛东化工”。使用模糊匹配程序包将两个数据库进行匹配,模糊匹配提高了匹配的成功率,如“中国石油”和“中石油”是一家公司,如果使用精确匹配,则不能匹配成功,但不能过于模糊,否则“中石油”和“中石化”将被识别成同一家公司,根据该程序包的使用经验,将模糊匹配阈值设为80%。最后,按年按地区进行匹配,这样可以大大提高匹配的成功率,在同一省份的同一年份,每个企业的匹配空间大幅减小,重名的可能性降低,此外,去除地名开头和通用后缀避免了如“北京”和“北京市”这样同一意思但字符不同所造成的差别,使得成功率进一步提高。最终,经过以上处理,在2001—2023年的样本区间上,将两个数据库匹配合并,共获得3989940个样本,其中,共有6889家工业企业进行对外直接投资,共投资8429次,匹配成功率大幅高于同类文献。
由于《工业企业数据库》中统计错误和缺失值较多,参考Feenstra等(2023)、聂辉华等(2023)对原始数据进行清洗和精简,包括(1)剔除了雇员数少于8人且多于100万人的样本;(2)剔除了同一年内重复或错误的记录以提高样本信息的准确度;(3)剔除了一些明显错误,如工业总产值、工业增加值、固定资产数值非正数的样本;(4)剔除了存续年份大于100年或小于0年的样本等;(5)本文将按年列示的数据库根据企业名称、法人代表名称、地理位置等信息匹配成非平衡面板,非平衡面板中,由于统计披露和逐年匹配误差,部分企业出现时间较短或者不连续,本文仅选择数据连续存在3年以上的企业,剔除了不足3年的样本。最终,精简之后的样本量总数为742788,共2492家工业企业进行对外直接投资,投资3140笔。总结来看,在工业企业数据库的基础上匹配了两个新变量,第一个是该企业该年是否进行了对外直接投资;第二,同一家企业每一年可能会有多笔对外直接投资,本文统计了匹配到的样本数,即该企业该年对外直接投资的笔数。
处理过程和代码展示: 首先是原始数据,包括2000-2023年工业企业数据库数据和境外投资企业(机构)名录数据。
Python代码包括数据预处理,字段删减统一改名,公司名处理,模糊匹配等。
stata代码包括分年合并,非平衡面板处理,删除离群数据等。
结果展示及字段说明:
处理后保留的字段和相关说明详见Excel表。 1.该数据集一共含有3989940个样本值,合并了2000年-2023年的分年工业企业数据库,剔除了各年的重复值和失效样本,未做其他样本选择。
2.将各年数据分别与商务部境外投资企业名录进行匹配,采取了必要的模糊匹配,增加配对成功的数量,其中OFDIs列表示该企业当年对外投资的次数,一共匹配成功8900多笔投资,优于目前可以见到的一些匹配工作。
3.penal_id字段唯一标识面板中的不同企业,总面板数据是非平衡的,企业样本从一年到横跨十四年不等。
4.字符串变量基本选自工业企业数据库中的字符串,加入了省份变量和分词后的法人单位变量帮助匹配。
5.数据变量除了OFDIs之外,其他均来自于工业企业数据库,在一定程度上选取了2000年-2023年各年数据库字段的交集,即14年出现了12次以上的变量(这样做是因为即使缺失也可以通过插值补全),如果某个变量仅出现过个位次,则无法补全缺失值,无法使用该指标的面板数据。
6.通过以上方法选取了40多个企业指标,均为财务指标,包括资产类、负债类、权益类和损益类等,具体即缺失情况见“字段及缺失情况.xlsx”为进行微观层面的研究提供了坚实的基础。
7.但也不得不删去了一些变量,如仅在某几年出现的现金流量指标,以及行政区码、轻重工业、企业规模、从业人数、新产品产值、工业增加值、长期投资、流动资产净额、本年折旧、固定资产净值、无形资产、营业收入、营业成本、销售利润、投资收益、营业外收入、营业外支出、利税总额、应付福利总额、税金及附加、中间投入合计等指标。
数据说明、字段及缺失情况.xlsx
最终结果:
总数据300多万条,目前仅支持stata格式,敬请谅解!清洗后数据质量非常高且目前很新,谢绝议价!
工企与境外投资匹配结果 分年数据也可出售,30一年,未合并,可见下方联系方式
其他文章
- 申报残保金时提示上年在职职工年平均工资小于社会平均工资50% 这个有风险吗
- 紧急求助一下:报税的那个电脑开不了机了,在新的电脑里下载了报税软件可以把原来报过的内容带过来吗?如何操作?谢谢
- 增值税申报表的小微企业免税销售额是不是就是我们的营业收入,不算营业外收入把,
- 股东减资用不用考虑未分配利润?
- 用于职工集体福利取得的进项税,怎么入账呢,还是进到进项税吗,具体会计科目怎么做呢
- 请问金蝶云星空版 如何按供应商查明细账
- 独立核算的分公司,总公司可以一起核算所得税吗?
- 一般纳税人清包工可以开3%专票不可以开普票是吗?简易计税的只能开普票是吗?
- 本期如果有在外地预交的税款,增值税申报的时候怎么申报?
- 开办费用要在营业前结转?还是下个月结转
- 计提工会经费计入什么科目呀?问了两个给了两种答案。
- 坏账准备计提的 信用减值准备属于什么科目, 借贷方向代表增加还是减少
- 资产负债表上应付账款为负数,预收账款为正数,这两个表示什么意思?
- 餐饮行业印花税是怎么核定的,税率是多少?
- 你好!行业协会会员费收入属免税收入吗
- 行政单位财务规则和事业单位财务规则的区别是什么?
- 企业给员工发的过节费,做账怎么处理合适,这个也需要缴税吧
- 建筑类,成本 人工 费用 利润比例分别是多少啊?
- 你们好,请问下一般纳税人资格证明文件怎么下载?在电子税务局网站里
- 投资性房地产公允价值模式计量是如何确定的?