LOADING

加载过慢请开启缓存 浏览器默认开启

coworkers_for_KFS

2025/11/20 robocon

KFS数据集共创计划

[TOC]

前言

PS. 本文项目现已刊登至比赛组委会官方公众号 原文链接

在2026赛季的robocon比赛中,我们可以发现机器人在功夫卷轴上完成识别几乎是硬性需求,但是功夫卷轴种类繁多,光凭借一个队伍的视觉ldx和xdx,每种50张工作量也是巨大的。因此,本人决定发起一个数据集标注活动,将每种图片规定好标签等,然后汇总到github仓库,并且通过一些开源中附带的小工具针对不同队伍需求进行数据格式转换。同时保留了原始数据文件夹供各个队伍自行决定。由于采用yolo模型的人数较多,因此本人倡议使用yolo数据集格式(即txt坐标文件+原始图像+一个标签文件)。本项目不要求区分train和val,只需要标注完成后上传即可。希望Rc比赛可以有更好的开源氛围以及共创氛围。

20251110更新:增加了马术分支,但是由于本人精力有限,目前需要助手帮助维护更新马术分支

一、数据采集注意事项

由于比赛过程中,我们可能需要面对复杂的场景以及灯光干扰,因此本人建议在数据集中尽可能涉及大块纯色色块(绿色、红色或者蓝色)。可以考虑加入一些天花板为背景的图片作为应对灯光的抗干扰。若觉得模型数据仍然不理想,可以参考我校排球开源中的灯光抗干扰方案,但是未经验证不知可行性。数据集采集时,可以通过录制1080p30帧的视频,然后导入剪辑软件中。剪辑软件设置为导出640*640(yolo默认格式)视频,随后在格式工厂(或者其他工具中)导出为帧,然后摇两个小登开始标数据。

注:关于剪辑软件说明

个人推荐:
达芬奇(专业,免费的剪辑软件,适合让运营兼职的同时学习,也适合想要学习新技能的同学。同时本身也有强大的各种工具。如果有需要本人后续会录制简单说明)

剪映(相对达芬奇,简单易上手,专业性并没有差很多,十分适合所有视觉组成员学习一下)

finalcut(macOS专用,但是本人用的不多)

PR为付费软件,处于支持正版角度考虑不建议购买使用,并且对于新手没有达芬奇好上手。必剪,本人不是很推荐的一款软件,但是如果有会使用的同学可以考虑使用。其余软件本人使用不多,是否采用还是以个人习惯为主看,本人仅以高中以及大一时期融媒体工作流相关经验提出观点。

二、数据集标注要求

(一)标签要求

 标签从零到一到32开始,并且每张图最好只出现一类标签!标注时,请框选整个KFS(若条件有限则只框选有颜色的部分)。标签顺序如图标注:上为甲骨、下为小篆,内容一致:武林至尊戈刀弓矢力德王帝天日月target
左上角的数字代表标签顺序(本来应从零开始,但是由于外包疏忽以及理解方便还是标注为1开始计数),标签建议在制作数据集之前就提前创建好或者使用本项目下的标签文件(targets文件夹内)。接下来会规范每一个标签的命名,从第一个开始:

R_R1
B_R1
T_03
T_04
T_05
T_06
T_07
T_08
T_09
T_10
T_11
T_12
T_13
T_14
T_15
T_16
T_17
F_18
F_19
F_20
F_21
F_22
F_23
F_24
F_25
F_26
F_27
F_28
F_29
F_30
F_31
F_32

本意是可以让网络识别到单个字体,后续通过标签来判断真假。标注时请注意类别一定要全部添加,后续整理合并数据集时才不会混乱。

(二)关于数据集

 如前文所说,本人倡议使用yolo数据集格式,因为本人接触到的队伍大多都使用yolo作为主要识别模型,因此本项目推荐使用yolo格式。若有其他格式需求可以使用转换工具。如果有需求,可以单独开设数据集格式文件夹以供使用。数据集最小数量要求为50张。

三、标注完成

(一)整理数据集

 将您的数据集标签与图片放置于同一文件夹下,命名为贵校缩写或者战队英文名(例如FJUT,MTI等),然后上传至对应的文件夹下。

(二)上传文件

 提交PR至对应文件夹,文件夹结构如下

--+--labeled
  |
  +--orignal_datas
  |
  +--tools

labeled为数据集对应存放处,打开即可看见多种数据集名字。请按照上述要求创建好学校名字文件夹后提交您的pr。如果发现pr没有及时采用请私聊骚扰本人。如果您有需求也可以通过悬赏提出issue,也请各位创作时注意数据集的均衡性,尽量保证r2的每一种方块数据数量是相等的。

四、下载数据集

(一)下载

 您可以通过各种方式下载,这里不再赘述

(二)使用

 在本项目的tools文件夹下会有各种文件处理工具,具体使用说明请参阅tools下的readme文档。由于部分工具可能非本人上传,因此请谨慎使用或检查源码自行评估使用。上传的工具必须为c源码或python的py程序,上传工具源码必须可见!这是根本原则!
在进行完数据集合并后,我建议您自行半随机抽取图像进行数据集的划分,因为不同学校拍摄环境不同,训练效果也不同,若均匀分配则可以使模型泛化能力更强。具体如何操作看您设计。

五、如何参与

获取联系方式或参与讨论:

 添加个人联系方式:1652107474(QQ)或者进入QQ群1065597020。

参与协作:

 将您标注的数据集的图片(总览)以及数据集通过邮箱发给本人(1652107474@qq.com),若您介意,只需要发送标注好的部分图像也可,本人将会在三个工作日内完成审核并且邀请您加入私有仓库协作,请在发送邮件时注明学校以及参加KFS标注协作,若审核不及时请在群内艾特一下本人。

六、碎碎念

 由于这是多人共创项目,并且由于加入时间先后,队员数量等原因必然会产生各个学校上传数据集不同等的现象。例如本人队伍目前只有本人一位正式的视觉组成员,因此产出数据集必然是不同等的,如果您需要根据已有总量评估,请联系本人,我也会尽量配合您进行数据集数量评估。我也并未强制要求您将所有数据集上传,仅需要上传您认为值得上传的部分,希望参与本项目的学校可以对此做好心理准备
 我仍然衷心希望RC可以是一个开放包容的比赛氛围。对于贡献较高的队伍在比赛时我们将会为其准备一些神秘小礼品以示心意。本项目仍然在完善阶段,欢迎踊跃参与。