一、什么是法学实证研究
法学实证研究(Empirical Legal Studies)是指运用定量或定性方法,对法律现象进行系统性观察与分析的研究范式。与传统规范法学侧重于"法律应当如何"不同,实证研究关注的是"法律实际上如何运作"——法院如何裁判、哪些因素影响判决结果、法律规则的实施效果如何。
这一研究范式在欧美法学界已有数十年积累,近年来在中国法学界也快速兴起。裁判文书数据的大规模公开,为中国法学实证研究提供了前所未有的数据基础。
二、裁判文书数据的研究优势
相比其他法律数据来源,裁判文书数据在实证研究中具有三方面突出优势:
样本量大
我们整理的数据集覆盖1985年至2025年超过4500万份裁判文书,远超任何问卷调查或案例库所能提供的样本规模。大样本使得研究者可以对小概率事件(如特定案由的改判率)进行可靠的统计推断。
覆盖面广
数据覆盖全国各省市自治区、各级法院(基层、中级、高级、最高),涵盖民事、刑事、行政、执行四大案件类型,以及数百个细分案由。这种广度使得跨地区、跨层级的比较研究成为可能。
可量化
结构化字段(案号、裁判日期、案由、地区、法院级别等)可直接用于统计分析,无需人工编码。对于需要深度信息的研究,还可通过 NLP 技术从文书全文中提取裁判理由、证据认定、涉案金额等字段,详见数据处理能力说明。
三、研究流程:从选题到可视化
第一步:选题与假设
好的实证研究选题通常来自对法律现象的观察或对既有理论的质疑。例如:
- 某类司法解释出台后,相关案件的裁判结果是否发生系统性变化?
- 不同地区法院对同类案件的裁判尺度是否存在显著差异?
- 经济周期与特定类型纠纷的案件量之间是否存在相关性?
选题确定后,需要将研究问题转化为可检验的假设,并明确所需的数据字段与分析方法。
第二步:获取数据
数据获取是实证研究的关键瓶颈。自行从裁判文书网采集数据面临技术门槛高、数据清洗工作量大、历史数据缺失等问题。我们提供的结构化数据集已完成去重清洗,可按年份、案由、地区等条件切片交付,大幅降低数据准备成本。
第三步:数据清洗
即便使用经过预处理的数据集,研究者仍需根据具体研究问题进行二次清洗:
- 筛选目标案由(如仅保留"民间借贷纠纷")
- 处理缺失值(部分早期年份字段覆盖率较低)
- 统一地区编码(不同年份的地区字段格式可能存在差异)
- 识别并剔除异常值(如裁判日期早于立案日期的记录)
第四步:统计分析
根据研究问题选择合适的分析方法:描述性统计(频率分布、均值、中位数)适合呈现基本规律;回归分析适合检验变量间的因果关系;时间序列分析适合研究趋势与周期性变化;文本分析(TF-IDF、主题模型、BERT)适合从文书全文中提取语义信息。
第五步:可视化与输出
研究结论的呈现方式直接影响传播效果。常用可视化形式包括:折线图(趋势变化)、热力图(地区分布)、桑基图(案件流向)、词云(高频词汇)。Python(matplotlib、seaborn、pyecharts)和 R(ggplot2)是学术研究中最常用的可视化工具。
四、常见研究维度
案由分布分析
统计各案由的案件量及其占比,分析不同案由的历年变化趋势。例如,民间借贷纠纷在2019年达到峰值后持续下降,而劳动争议类案件在2020年后出现明显增长,这些变化背后都有可供深入研究的制度与社会背景。
地区差异分析
对比不同省份的案件结构、审判效率与裁判结果,研究司法地方化问题。数据显示,东部沿海省份的商事案件占比显著高于中西部地区,而部分中西部省份的案件平均审理周期则明显偏长。
审判效率分析
基于立案日期与裁判日期计算案件审理周期,分析不同案由、不同法院级别的效率差异。这一维度对于评估司法改革效果(如员额制改革、繁简分流)具有重要价值。
胜诉率分析
通过 NLP 技术从文书全文中提取判决结果,统计原告胜诉率、部分支持率等指标。这类分析需要定制化的字段提取服务,我们可根据研究需求提供相应支持。