01 / Cleaning
数据清洗能力
Data Cleaning
对原始裁判文书数据进行系统性清洗,确保数据可用性与一致性。
去重处理
案号 + 日期
当天同案号计一次,有效消除重复录入
实际去重率
0.16% – 9%
因年份不同而异,2021年去重率达2.31%
格式统一
标准化
日期、案号、地区字段统一编码规范
02 / Format
格式转换能力
Format Conversion
将原始 CSV 文件转换为高效列式存储格式,大幅降低存储成本与查询耗时。
压缩示例
4.2 GB → 894 MB
CSV 转 Parquet,单年度数据实测
压缩比
4.7 : 1
存储成本降低约 79%
支持格式
多格式
CSV / Parquet / JSON,按需交付
03 / Scale
大规模数据处理
Large Scale
处理法律文书数据的真正难点不在于工具选型,而在于数据本身的复杂性:跨年度字段结构不一致、编码混乱、批次间重复逻辑各异、单年原始文件超过 49GB。 我们基于列式存储与向量化执行的分析管道,在普通单机上完成了全量数据的清洗、去重与多维聚合,无需分布式集群,查询延迟控制在秒级。
已处理总量
4500+ 万份
跨 40 年全量数据
原始数据体量
数百 GB
单年最大 49GB CSV
全量去重耗时
秒级
千万级记录跨字段去重
运行环境
单机
无需 Spark / Hadoop 集群
难点在于各年度原始数据的字段结构、编码规范、批次划分方式均不相同,需要针对每个年份单独设计解析与清洗逻辑,并在合并时保证跨年度的字段对齐与去重一致性。这是单纯安装一个分析工具无法解决的问题。
04 / Custom
定制化分析能力
Custom Analysis
根据客户需求灵活定制分析维度与输出形式,覆盖学术研究、法律实务、商业决策等场景。
统计报表
- · 按案件类型 / 案由 / 地区 / 法院级别
- · 按时间维度(月度、季度、年度)
- · 多年度横向对比分析
可视化输出
- · 趋势折线图、分布柱状图、地图热力图
- · 交互式 HTML 报告或静态图表
- · 支持导出 PNG / PDF / Excel
05 / Update
数据更新能力
Incremental Update
支持增量更新交付,客户无需每次获取全量数据,降低使用成本。
月度更新
按月交付
每月新增数据单独打包,便于追加合并
年度更新
按年交付
年度全量数据,含清洗与去重处理
历史回溯
2019 起
可按需补充历史年份数据
06 / NLP
字段补充能力
Field Enrichment
部分批次原始数据存在字段缺失(如法院名称、判决结果),可基于 NLP 技术从文书全文中提取补充,具体字段可按需定制。
可补充字段(示例)
- · 法院名称 / 法院级别
- · 判决结果(支持 / 驳回 / 调解)
- · 涉案金额
- · 当事人类型(自然人 / 企业)
技术说明
- · 基于规则匹配 + NLP 模型双重提取
- · 提取准确率视字段复杂度而定
- · 支持定制字段,交付前提供样本验证
有定制化需求?
我们可以根据您的具体场景提供针对性的数据处理方案。