中國工業企業數據庫的使用現狀和潛在 問題
中國工業企業數據庫的使用現狀和潛在問題聶輝華江艇楊汝岱內容提要在經驗研究中,企業級的微觀數據正受到越來越多的重視。中國工業企業數據庫成為國內外學者研究中國企業行為和績效的主要數據庫之一。
但是該數據庫存在樣本匹配混亂、變量大小異常、測度誤差明顯和變量定義模糊等嚴重問題,忽視這些問題可能會導致研究結論錯誤。本文介紹了該數據庫的基本情況和使用現狀,指出了該數據庫存在的缺陷,并根據現有研究提出了改進建議。
一引言數據是經驗研究的細胞,因此數據質量的好壞直接決定了經驗研究的活力。最近十多年來,國際經濟學界越來越重視使用微觀面板數據longitudinal micro-level da ta的研究。相對于宏觀數據或行業數據,微觀的企業數據或個體數據的優勢是非常明顯的:第一,微觀面板數據包含了更多信息,例如企業的所有制、規模和出口等狀態,這些信息對于企業行為的研究必不可少;第二,微觀面板數據同時包含了時間維度和個體維度,有助于解決計量經濟學中的個體異質性問題,更容易保證估計的一致性;第期第年濟經界世聶輝華:中國人民大學經濟學院中國人民大學企業與組織研究中心100872 263.net;江艇:中國人民大學經濟學院中國人民大學企業與組織研究中心電子信箱:econjiang gmail.com;楊汝岱:湘潭大學消費研究院電子信箱:rudaiyang gmail.com.
作者感謝何帆對本文提出的建議,感謝屠順杰提供的助研工作,同時感謝兩位匿名審稿人指出的有益建議。
本文的研究得到姚洋主持的國家社科基金重大項目我國中長期經濟增長與結構變動趨勢研究09&ZD020以及聶輝華、楊汝岱分別主持的教育部新世紀優秀人才項目的資助,特此感謝。當然文責自負。
三,微觀面板數據增加了觀測值個數,使估計更有效率。對于產業組織理論、企業理論、公司金融、國際貿易、收入分配和勞動供給等研究領域來說,經驗研究的數據主要就是微觀數據。
伴隨微觀計量經濟學的引入和國內外微觀數據庫的開放,中國經濟學者越來越重視微觀數據的開發和使用,產生了很多基于微觀數據的研究成果。一些中國數據庫甚至被全世界各國學者使用,這一方面表明中國問題越來越受到國際經濟學界的重視,另一方面也表明中國數據的質量得到了越來越多的認可。特別是相當多的國內外學他們的研刊上。作為一個由中國國家統計局收集的數據庫,它的優點是樣本大、指標多、時間長。但是,它畢竟不是一個由學術機構發布的數據庫,因此在很多方面還不太符合學術研究的嚴格要求,其缺陷包括樣本匹配混亂、指標存在缺失、指標大小異常、測度誤差明顯和變量定義模糊等問題。如果研究者沒有察覺到這些數據存在的缺陷,并且沒有采取有效的方法緩解或消除這些缺陷,那么就會對經驗研究的結果產生負面影響,甚至會得出錯誤的結論。而錯誤的結論對于理論和經驗研究來說,不僅浪費了學者們時間和精力,還可能產生誤導作用。鑒于此,我們認為有必要詳細、嚴謹地討論中國工業企業數據庫的基本情況、使用現狀,指出其存在的問題,并盡可能提供解決問題的建議。我們希望,本文的分析不僅有助于潛在使用者了解該數據庫的研究現狀和未來方向,還能有助于他們更準確地使用該數據庫,從而推進相關領域的研究發展。當然,作為該數據庫的使用者之一,我們并不能保證我們全面地熟悉了該數據庫,并且我們對問題的分析不可避免地包含了一定的研究傾向。
二數據庫基本信息我們首先簡單地描述該數據庫的基本情況。中國工業企業數據庫由國家統計局建立,它的數據主要來自于樣本企業提交給當地統計局的季報和年報匯總。該數據庫的全稱為全部國有及規模以上非國有工業企業數據庫,其樣本范圍為全部國有工業企業以及規模以上非國有工業企業,其統計單位為企業法人。這里的工業統計期第年濟經界世聶輝華江艇楊汝岱口徑包括國民經濟行業分類中的采掘業、制造業以及電力、燃氣及水的生產和供應業三個門類,主要是制造業占90以上。這里的規模以上要求企業每年的主營業務收入即銷售額在500萬元及以上,2011年該標準改為2000萬元及以上。基于上述統計口徑的數據庫自1998年開始采集,多數學者使用的工業企業數據庫涉及的年份在1999~2007年之間。由于該數據庫的主要成分為制造業企業,在統計口徑上與其他國家的產業分類比較一致,而且一些變量例如資本、研發投入和出口交貨值更容易度量,因此使用者通常析出該數據庫中的制造業企業。制造業的統計口徑包括從農副食品加工業、食品制造業到工藝品及其他制造業、廢棄資源和廢舊材料回收加工業等30個大類二位數行業,對應于國民經濟行業分類與代碼GB/ T4754-2002中的代碼13~43不含38.為了保持企業樣本的完整性,同時與現有研究具有可比性,我們以1999~2007年全部國有及規模以上非國有工業企業作為我們分析該數據庫的主要樣本。
但是該數據庫存在樣本匹配混亂、變量大小異常、測度誤差明顯和變量定義模糊等嚴重問題,忽視這些問題可能會導致研究結論錯誤。本文介紹了該數據庫的基本情況和使用現狀,指出了該數據庫存在的缺陷,并根據現有研究提出了改進建議。
一引言數據是經驗研究的細胞,因此數據質量的好壞直接決定了經驗研究的活力。最近十多年來,國際經濟學界越來越重視使用微觀面板數據longitudinal micro-level da ta的研究。相對于宏觀數據或行業數據,微觀的企業數據或個體數據的優勢是非常明顯的:第一,微觀面板數據包含了更多信息,例如企業的所有制、規模和出口等狀態,這些信息對于企業行為的研究必不可少;第二,微觀面板數據同時包含了時間維度和個體維度,有助于解決計量經濟學中的個體異質性問題,更容易保證估計的一致性;第期第年濟經界世聶輝華:中國人民大學經濟學院中國人民大學企業與組織研究中心100872 263.net;江艇:中國人民大學經濟學院中國人民大學企業與組織研究中心電子信箱:econjiang gmail.com;楊汝岱:湘潭大學消費研究院電子信箱:rudaiyang gmail.com.
作者感謝何帆對本文提出的建議,感謝屠順杰提供的助研工作,同時感謝兩位匿名審稿人指出的有益建議。
本文的研究得到姚洋主持的國家社科基金重大項目我國中長期經濟增長與結構變動趨勢研究09&ZD020以及聶輝華、楊汝岱分別主持的教育部新世紀優秀人才項目的資助,特此感謝。當然文責自負。
三,微觀面板數據增加了觀測值個數,使估計更有效率。對于產業組織理論、企業理論、公司金融、國際貿易、收入分配和勞動供給等研究領域來說,經驗研究的數據主要就是微觀數據。
伴隨微觀計量經濟學的引入和國內外微觀數據庫的開放,中國經濟學者越來越重視微觀數據的開發和使用,產生了很多基于微觀數據的研究成果。一些中國數據庫甚至被全世界各國學者使用,這一方面表明中國問題越來越受到國際經濟學界的重視,另一方面也表明中國數據的質量得到了越來越多的認可。特別是相當多的國內外學他們的研刊上。作為一個由中國國家統計局收集的數據庫,它的優點是樣本大、指標多、時間長。但是,它畢竟不是一個由學術機構發布的數據庫,因此在很多方面還不太符合學術研究的嚴格要求,其缺陷包括樣本匹配混亂、指標存在缺失、指標大小異常、測度誤差明顯和變量定義模糊等問題。如果研究者沒有察覺到這些數據存在的缺陷,并且沒有采取有效的方法緩解或消除這些缺陷,那么就會對經驗研究的結果產生負面影響,甚至會得出錯誤的結論。而錯誤的結論對于理論和經驗研究來說,不僅浪費了學者們時間和精力,還可能產生誤導作用。鑒于此,我們認為有必要詳細、嚴謹地討論中國工業企業數據庫的基本情況、使用現狀,指出其存在的問題,并盡可能提供解決問題的建議。我們希望,本文的分析不僅有助于潛在使用者了解該數據庫的研究現狀和未來方向,還能有助于他們更準確地使用該數據庫,從而推進相關領域的研究發展。當然,作為該數據庫的使用者之一,我們并不能保證我們全面地熟悉了該數據庫,并且我們對問題的分析不可避免地包含了一定的研究傾向。
二數據庫基本信息我們首先簡單地描述該數據庫的基本情況。中國工業企業數據庫由國家統計局建立,它的數據主要來自于樣本企業提交給當地統計局的季報和年報匯總。該數據庫的全稱為全部國有及規模以上非國有工業企業數據庫,其樣本范圍為全部國有工業企業以及規模以上非國有工業企業,其統計單位為企業法人。這里的工業統計期第年濟經界世聶輝華江艇楊汝岱口徑包括國民經濟行業分類中的采掘業、制造業以及電力、燃氣及水的生產和供應業三個門類,主要是制造業占90以上。這里的規模以上要求企業每年的主營業務收入即銷售額在500萬元及以上,2011年該標準改為2000萬元及以上。基于上述統計口徑的數據庫自1998年開始采集,多數學者使用的工業企業數據庫涉及的年份在1999~2007年之間。由于該數據庫的主要成分為制造業企業,在統計口徑上與其他國家的產業分類比較一致,而且一些變量例如資本、研發投入和出口交貨值更容易度量,因此使用者通常析出該數據庫中的制造業企業。制造業的統計口徑包括從農副食品加工業、食品制造業到工藝品及其他制造業、廢棄資源和廢舊材料回收加工業等30個大類二位數行業,對應于國民經濟行業分類與代碼GB/ T4754-2002中的代碼13~43不含38.為了保持企業樣本的完整性,同時與現有研究具有可比性,我們以1999~2007年全部國有及規模以上非國有工業企業作為我們分析該數據庫的主要樣本。
本文標簽:中國工業企業數據庫的使用現狀和潛在 問題
* 由于無法獲得聯系方式等原因,本網使用的文字及圖片的作品報酬未能及時支付,在此深表歉意,請《中國工業企業數據庫的使用現狀和潛在 問題》相關權利人與機電之家網取得聯系。










