AI 数据标注思维导图
2025-07-19 17:58 3
0
0
免费使用
画布
|
大纲
# AI 数据标注思维导图
## 一、标注到底在“标”什么
### 数据类型
#### 图像
##### 常见标签示例:目标框、分割掩膜、关键点、OCR 文字
##### 场景:自动驾驶识别行人、医疗 CT 病灶
#### 视频
##### 常见标签示例:动作段、跟踪 ID、事件起止帧
##### 场景:安防打架检测、体育动作分析
#### 文本
##### 常见标签示例:实体、情感、意图、关系
##### 场景:聊天机器人、金融舆情
#### 语音
##### 常见标签示例:音素、说话人、情绪、唤醒词
##### 场景:智能音箱、语音客服
#### 3D 点云
##### 常见标签示例:物体边框、语义分割
##### 场景:无人车激光雷达
## 二、标注流程 4 步
### 任务定义
#### 明确模型要学到的内容(如“识别猫/狗”)
### 工具标注
#### 使用各种工具进行标注(Labelme、CVAT、Prodigy、Label Studio)
### 质检审核
#### 双人交叉审核、AI 预标 + 人工修正,保证准确率≥98%
### 格式转换
#### 转换成 COCO、Pascal VOC、YOLO、JSON等模型可读格式
## 三、谁来标注
### 人工标注
#### 众包平台(阿里众包、百度众测)、数据工厂、专业团队
### AI 预标注
#### 大模型先进行预标注,人工只需修改少部分
### 主动学习
#### 模型挑出最难样本给人标注,提高精度和效率
## 四、行业用量举例
### 自动驾驶
#### 车辆每天产生大量原始数据,需要上万帧的 2D / 3D 框 + 语义分割
### ChatGPT
#### 每次训练需使用45TB文本,大量依靠人工 RLHF 标注提高质量
### 医疗影像
#### 对于每张512×512 CT切片需要耗费3-5分钟精细勾画肿瘤边缘
## 五、成本与趋势
### 成本
#### 简单图像框选0.03–0.1元/框;复杂3D分割2–5元/帧
### 趋势
#### 大模型预标注 + 人机协同 -> 标注价格每年下降20%-30%,质量不断提升
## 总结
### AI 数据标注是“把人类知识翻译成机器语言”的过程,是人工智能落地前重要步骤,也是算法精度的天花板。
作者其他创作