Data Capabilities

数据处理能力

基于 DuckDB 引擎与多年实践积累,提供从原始数据清洗到定制化分析的全链路数据处理服务。

01 / Cleaning
数据清洗能力
Data Cleaning

对原始裁判文书数据进行系统性清洗,确保数据可用性与一致性。

去重处理
案号 + 日期
当天同案号计一次,有效消除重复录入
实际去重率
0.16% – 9%
因年份不同而异,2021年去重率达2.31%
格式统一
标准化
日期、案号、地区字段统一编码规范
02 / Format
格式转换能力
Format Conversion

将原始 CSV 文件转换为高效列式存储格式,大幅降低存储成本与查询耗时。

压缩示例
4.2 GB → 894 MB
CSV 转 Parquet,单年度数据实测
压缩比
4.7 : 1
存储成本降低约 79%
支持格式
多格式
CSV / Parquet / JSON,按需交付
03 / Scale
大规模数据处理
Large Scale

处理法律文书数据的真正难点不在于工具选型,而在于数据本身的复杂性:跨年度字段结构不一致、编码混乱、批次间重复逻辑各异、单年原始文件超过 49GB。 我们基于列式存储与向量化执行的分析管道,在普通单机上完成了全量数据的清洗、去重与多维聚合,无需分布式集群,查询延迟控制在秒级。

已处理总量
4500+ 万份
跨 40 年全量数据
原始数据体量
数百 GB
单年最大 49GB CSV
全量去重耗时
秒级
千万级记录跨字段去重
运行环境
单机
无需 Spark / Hadoop 集群

难点在于各年度原始数据的字段结构、编码规范、批次划分方式均不相同,需要针对每个年份单独设计解析与清洗逻辑,并在合并时保证跨年度的字段对齐与去重一致性。这是单纯安装一个分析工具无法解决的问题。

04 / Custom
定制化分析能力
Custom Analysis

根据客户需求灵活定制分析维度与输出形式,覆盖学术研究、法律实务、商业决策等场景。

统计报表
  • · 按案件类型 / 案由 / 地区 / 法院级别
  • · 按时间维度(月度、季度、年度)
  • · 多年度横向对比分析
可视化输出
  • · 趋势折线图、分布柱状图、地图热力图
  • · 交互式 HTML 报告或静态图表
  • · 支持导出 PNG / PDF / Excel
05 / Update
数据更新能力
Incremental Update

支持增量更新交付,客户无需每次获取全量数据,降低使用成本。

月度更新
按月交付
每月新增数据单独打包,便于追加合并
年度更新
按年交付
年度全量数据,含清洗与去重处理
历史回溯
2019 起
可按需补充历史年份数据
06 / NLP
字段补充能力
Field Enrichment

部分批次原始数据存在字段缺失(如法院名称、判决结果),可基于 NLP 技术从文书全文中提取补充,具体字段可按需定制。

可补充字段(示例)
  • · 法院名称 / 法院级别
  • · 判决结果(支持 / 驳回 / 调解)
  • · 涉案金额
  • · 当事人类型(自然人 / 企业)
技术说明
  • · 基于规则匹配 + NLP 模型双重提取
  • · 提取准确率视字段复杂度而定
  • · 支持定制字段,交付前提供样本验证
有定制化需求?

我们可以根据您的具体场景提供针对性的数据处理方案。

获取数据服务 →