数据处理能力 | 裁判文书数据清洗与分析服务

01 / Cleaning

数据清洗能力

Data Cleaning

对原始裁判文书数据进行系统性清洗，确保数据可用性与一致性。

去重处理

案号 + 日期

当天同案号计一次，有效消除重复录入

实际去重率

0.16% – 9%

因年份不同而异，2021年去重率达2.31%

格式统一

标准化

日期、案号、地区字段统一编码规范

02 / Format

格式转换能力

Format Conversion

将原始 CSV 文件转换为高效列式存储格式，大幅降低存储成本与查询耗时。

压缩示例

4.2 GB → 894 MB

CSV 转 Parquet，单年度数据实测

压缩比

4.7 : 1

存储成本降低约 79%

支持格式

多格式

CSV / Parquet / JSON，按需交付

03 / Scale

大规模数据处理

Large Scale

处理法律文书数据的真正难点不在于工具选型，而在于数据本身的复杂性：跨年度字段结构不一致、编码混乱、批次间重复逻辑各异、单年原始文件超过 49GB。我们基于列式存储与向量化执行的分析管道，在普通单机上完成了全量数据的清洗、去重与多维聚合，无需分布式集群，查询延迟控制在秒级。

已处理总量

4500+ 万份

跨 40 年全量数据

原始数据体量

数百 GB

单年最大 49GB CSV

全量去重耗时

秒级

千万级记录跨字段去重

运行环境

单机

无需 Spark / Hadoop 集群

难点在于各年度原始数据的字段结构、编码规范、批次划分方式均不相同，需要针对每个年份单独设计解析与清洗逻辑，并在合并时保证跨年度的字段对齐与去重一致性。这是单纯安装一个分析工具无法解决的问题。

04 / Custom

定制化分析能力

Custom Analysis

根据客户需求灵活定制分析维度与输出形式，覆盖学术研究、法律实务、商业决策等场景。

统计报表

· 按案件类型 / 案由 / 地区 / 法院级别
· 按时间维度（月度、季度、年度）
· 多年度横向对比分析

可视化输出

· 趋势折线图、分布柱状图、地图热力图
· 交互式 HTML 报告或静态图表
· 支持导出 PNG / PDF / Excel

05 / Update

数据更新能力

Incremental Update

支持增量更新交付，客户无需每次获取全量数据，降低使用成本。

月度更新

按月交付

每月新增数据单独打包，便于追加合并

年度更新

按年交付

年度全量数据，含清洗与去重处理

历史回溯

2019 起

可按需补充历史年份数据

06 / NLP

字段补充能力

Field Enrichment

部分批次原始数据存在字段缺失（如法院名称、判决结果），可基于 NLP 技术从文书全文中提取补充，具体字段可按需定制。

可补充字段（示例）

· 法院名称 / 法院级别
· 判决结果（支持 / 驳回 / 调解）
· 涉案金额
· 当事人类型（自然人 / 企业）

技术说明

· 基于规则匹配 + NLP 模型双重提取
· 提取准确率视字段复杂度而定
· 支持定制字段，交付前提供样本验证