AI数据中心实战:量化标签的AI效能革命
AI数据中心不仅负责数据的处理和分析,还通过实时推理和低延迟响应,提升数据的应用效果。本文将分享在AI数据中心设计中的实战经验,探讨如何通过量化标签提高数据流转效率,增强模型的动态优化能力,推动企业在人工智能领域取得突破性进展。 数据是AI的食粮,巧妇也会难为无米之炊。在通常的定义中,AI数据中心不仅承担着数据处理与分析,模型训练与优化,还能通过实时推理和低延迟响应,来进行数据的应用和版本控制。 而我也曾设计过AI产品的数据中心,只不过我的经验是图像识别领域的,而且不是通用数据,而是小样本量的医疗图像数据,所以不一定适合所有的AI产品。不过希望也能通过分享给大家带来一些我思考的角度和设计的考量,如果这些能对大家有所启发和思考,就请您不吝小手,「点赞收藏分享」这篇文章。 以下我将会从「数据中心的作用,数据中心的模块,数据中心的主要数据流程,数据中心的用户角色,达成的效果、注意的事项、遗憾和未达成的部分」七大板块进行阐述。 01 数据中心的作用 经过我和数据中心的各类目标用户进行讨论和了解后,我大概理清了其中部分的思路。就是从使用环境、用户角色、数据流程、应用场景和使用需求着手。在通过1周多的时间,整理出一个大概的需求列表,并从中扩展放大,最后形成了下面的内容,「数据中心的作用是什么?」 1. 串联数据使用流程 数据使用流程总体步骤其实并不多,不外乎就是「采集-标记-训练-测试-反馈」。但一旦加入了不同的用户角色和应用场景后,就开始变得复杂了。我通过进一步的梳理,得出了以下流程表 附图1.数据中心‘数据使用流程图’ 从上图可看出「反馈」串联着整个流程。另外,数据集又会因为场景,分别形成训练数据集、训练测试集、应用测试集,又通过不同的反馈流程重新回到数据流程中。这样就形成了数据中心的另外一层核心的作用。 2. 提高数据的流转效率 通过不停的“反馈”,数据的流转效率和数据应用范围就会不断增加和丰富。比如 「协助算法研发团队对模型进行更新与动态优化」 「增加数据多样性与泛化能力」 通过不同的数据标签。比如,来源类标签、标记类标签、训练类标签、测试类标签、反馈标签等等;数据标签可以反映出数据不同流程和阶段中产生的主动性和被动性的标记,然后将相同、相近、相反或不同类别标签的数据整合成集,就能在不同的使用和应用场景中批量调用和记录标记了。 3. 协助系统应用的实时分析与决策支持 模型优化和实时的数据协同,加上数据流程中不断产生和变化的数据标签,再通过贯穿整个流程「反馈」,为数据增加一层新类型的标签,「量化标签」。你也可以理解成“阈值‘’权重‘等等,因为之前的标签大多都是有还是没有,即0或者1,现在通过反馈分析,增加了量化标签后,数据就变得维度更复杂了。加上实时的数据协同,就可以给到整体流程更多更丰富的决策支持了。如果有兴趣了解详情,可以去查看我已发布的文章AI产品经理的核心能力(一)[1]中有详细的说明。 02 数据中心的模块 根据上文「数据中心的作用」中的数据中心‘数据使用流程图’,我原来是梳理出七大模块,但由于我最后的实际方案把“数据库安全”通过其它手段达成了,最后就没有把该模块列入进去了。最终整理出六大模块 「数据采集与导入」 「标记分配与标记操作」 「数据测试」 「测试标准」 「用户权限」 「量化赋值」 其中,前面4个模块分别对应着不同节点的数据流程,最后两个则是数据中心的管理员对各流程中的用户角色权限进行定义和管理,和涉及数据全流程的量化赋值模块。 03 数据中心主要的数据流程 根据上面整理的六大模块,我先将前面4个模块分别用不同的数据流程来解释各自模块的作用和意义,章节最后我将补充全数据流程都参与的量化赋值流程。 1. 数据采集流程 这个主要的用户角色是运维人员,因为我的产品应用场景是医疗,所以需要将原始医疗数据进行导入操作和批处理操作,具体流程如下 附图2.数据采集流程图 编辑数据来源就是将数据的采集时间、设备、机构、操作用户、数据类型等标签添加在数据中,为最原始的数据添加第一批的数据标签「来源标签」。 2. 标记流程 这个主要的用户角色是“标记管理员”和“标记用户”,而且流程更像是工单系统,所以我最后也是通过工单流程对其进行梳理和设计的,具体流程如下: 附图3.标记流程图 其中,如果遇上特殊情况,数据预处理和标记操作部分,也会有其它用户角色参与。比如,数据预处理流程的优化和修改,医学专家修改标记操作流程和规范,还有提供标记修正和金标准标记。另外,重新指派是支线流程,不是主流程,而是标记指派后,指派无法完成的情况下才会出现的支线流程。 3. 测试流程 这个流程其实包含了训练测试和应用测试,但其实大体上分别不大,只是在环境和测试标准、测试数据集上有所区别,所以我就不将它们分开来讲了,具体流程如下: 附图4.测试流程图 为了流程的简洁,我将很多流程节点省略了很多支线流程和步骤,比如测试集的创建、编辑;模型的创建、算法参数的创建、编辑(参数的类型、类型是文本、数值还是选项),测试数据集的创建、编辑等等。还有数据查重这个,其实是因为这个数据中心是搭建在小样本数据库前提下的,为了提升数据的有效利用,训练数据有可能会和测试数据有所重合,因此特地增设此步骤来防止对测试结果的影响。 以上的都是根据数据流程来梳理的,下面的就是根据系统管理需要补充的流程。 4. 管理流程 这里面包括3个主要流程,**系统管理员流程、标记管理员流程、算法管理员流程” 系统管理员:「创建(删除)用户 – 查看用户 – 编辑用户权限」 标记管理员:「创建(编辑)‘标记数据集’ – 选择‘标记数据集’ – 指派标记用户 – 查看标记进程 – 创建(编辑)标记摘要 – 提交标记数据」 算法管理员:「创建(编辑)算法模型 – 创建(编辑/禁用)算法参数 – 创建(编辑/禁用)测试标准」 其中,系统管理员主要就是创建用户和编辑用户权限,比如标记用户和标记管理员用户的权限,一个是指派,另一个是接受指派并进行标记操作。算法管理员里其实是三个单独的流程,主要是为测试流程里,提供模型、参数、测试标准等的各种选项和范围,对标签进行统一化和规则一致性管理,防止各团队中研发成员有各自的习惯和方式,造成标签混乱、重复和冗余。 5. 量化赋值流程 这个算是数据中心最核心的模块和功能之一了,详细说起来可以很复杂,但其实本质就是通过不断的数据反馈和用户反馈,将其进行分析后量化一个值赋予于数据之上,形成数据的量化标签(即阈值权重)。 在我已发布的文章AI产品经理的核心能力(一)[1]中有详细的说明。 附图5.量化赋值流程图 其中就如上文【附图1.数据中心‘数据使用流程图’】里的反馈环节,就可以通过流程流转重新回到数据流程里的将近每个环节,来对流程进行优化调整。 04 数据中心的用户角色 经过数据中心的主要流程梳理,我已经能很好地洞见到,数据中心应该具有的用户角色,还有其在系统中的作用和需求目的。现在我将根据不同的用户角色,分别讲讲他们各自在系统中权限和操作内容。 1. 运维用户 这个角色权限比较简单,但也很重要,因为这个角色是唯一一个能接触到数据的实际物理承载体的,这个我将在后面的「注意事项」章节进行说明,这里先按下不表。 数据采集与数据导入 数据来源标签管理 转处理数据 生成待标记数据集 2. 标记管理员 这个角色主要就是为了管理“标记流程”所建立的,数据在这里需要经过指派和流转,最后进入到核心数据库中,让‘训练测试’和‘应用测试’等流程随时调用。 数据预处理 标记数据集管理 标记工单指派 标记摘要管理 数据预处理和标记数据集管理部分,有可能会有算法研发团队成员加入协助完成,因此此角色有可能会与其它用户角色权限叠加 3. 标记用户 这个角色主要就是接收‘标记管理员’的工单指派,根据标记摘要要求完成工单指派,即标记数据集的标记。 标记数据 完成/返回工单 只要涉及到工单,不得不注意的就是工单的异常处理,这里也是一样。一旦指派因意外无法按时或者按需完成时,返回工单就起到闭环管理的作用了;比如,因为其他标注需求等级较高且无空余可指派任务空间时,让已指派的标记用户退回未完成或者未开始的工单就尤为重要了。 4. 算法研发管理员 这个是属于倾向管理标签的角色,通常是对模型、训练数据集、测试数据集、训练测试、应用测试等等的标签进行统一管理。避免数据标签没有统一的规则而造成的混乱。 创建/编辑算法模型 创建/编辑/禁用算法参数 创建/禁用测试标准参数 这里算法模型是允许进行创建和编辑,但没有给予删除的权限,是因为模型有可能随着研发和模型优化,会有进一步的变化,因此可以提供编辑权限,但由于模型涉及测试结果的展示,因此只允许编辑如算法模型名称和摘要的权限,但不允许删除;算法参数方面,可以允许参数有限度的编辑。比如增加参数选项里‘数据增强’可以从2个选项‘混合裁剪’、‘切除增强’增加到‘混合裁剪’、‘切除增强’、‘几何翻转’3个选项,但不允许删除原来的选项,也不允许修改原选项。但可以禁用原来的选项,比如只保留一个选项,其余选项禁用。测试标准参数也允许创建和禁用,但不允许编辑。 算法参数和测试标准参数为什么不允许删除,只允许禁用,而算法参数为什么只允许有程度的编辑,这个我将在后面的「注意事项」章节进行说明,请留意。 5. 算法研发用户 这个是使用数据中心最核心的用户之一了。根据流程,用户会进行频繁和循环的各类操作,而且都会占用系统大量的资源。所以必须通过流程合理对其操作和流程进行简化。 创建/调用训练数据集,包括创建(编辑/更新)数据集摘要 创建/调用训练测试集,包括创建(编辑/更新)数据集摘要 调用模型和算法参数创建训练,包括创建(编辑/更新)训练摘要 查看/对比训练测试结果 查看/对比应用测试结果 这里面最经常使用的就是训练测试流程和查看对比测试结果了,这里能非常直观地查看各类测试参数下的测试结果,还可以通过进行横向的测试结果对比,来对算法模型的优化提供分析支持。创建和调用数据集更像是给整个数据集的数据都统一打上的一个数据标签,然后让不同流程中的节点可以直接批量调用。 6. 量化标签用户 数据中心里对数据进行唯一完全自定义标签的用户。根据流程,反馈信息可以通过标签的形式对数据增加多样性维度与数据泛化能力,从而体现出数据间的价值差别,并与应用场景、用户体验产生一定程度的相关性。 创建/编辑/停用量化标签 编辑/关联/取消关联测试标准参数 我在已发布的文章AI产品经理的核心能力(一)[1]第一章节部分中有这么一个例子,在‘自动驾驶里的行人防碰撞刹停系统’中,针对测试对象‘真实的人类生物’、‘具有人类形象的3D实物’、‘包含人形象的平面实物’,三个选项中,不仅有识别正确(True Positive)、识别错误(False Positive)2个维度,还有‘未识别’的维度,还有识别错误的不同应用场景维度。 比如同样是识别错误,将 ‘具有人类形象的3D实物’识别为‘真实的人类生物’ ‘真实的人类生物’识别为‘具有人类形象的3D实物’ ‘包含人形象的平面实物’识别‘具有人类形象的3D实物’ 这三种识别错误是不一样的,前面2种错误不太影响应用场景下的使用,第3种将带来应用场景中不好的用户体验,这时的测试对象(即测试数据本身)就具有不同测试价值和维度了,也就是原来的数据仅有0和1两个维度,现在还有未检出,即0、1、2,再通过用户体验给数据带来的量化标签,很有可能就是0、1、2、0.5四个维度了。 比如 ‘具有人类形象的3D实物’识别出并正确值为2。‘具有人类形象的3D实物’识别出但分类为‘具有人类形象的3D实物’值为1。‘具有人类形象的3D实物’识别出但分类为‘包含人形象的平面实物’值为0.5。‘具有人类形象的3D实物’未识别出值为0。这样,数据就突然有新的量化标签,并根据标签对测试进行重新的分析和对比了。 看到这里,你应该能明白数据中心的重要性和大概的作用了吧。 「那接下来我将对数据中心在实践中达成的效果进行简略说明。」 05 达成的效果 1.数据统一处理,

AI数据中心不仅负责数据的处理和分析,还通过实时推理和低延迟响应,提升数据的应用效果。本文将分享在AI数据中心设计中的实战经验,探讨如何通过量化标签提高数据流转效率,增强模型的动态优化能力,推动企业在人工智能领域取得突破性进展。
数据是AI的食粮,巧妇也会难为无米之炊。在通常的定义中,AI数据中心不仅承担着数据处理与分析,模型训练与优化,还能通过实时推理和低延迟响应,来进行数据的应用和版本控制。
而我也曾设计过AI产品的数据中心,只不过我的经验是图像识别领域的,而且不是通用数据,而是小样本量的医疗图像数据,所以不一定适合所有的AI产品。不过希望也能通过分享给大家带来一些我思考的角度和设计的考量,如果这些能对大家有所启发和思考,就请您不吝小手,「点赞收藏分享」这篇文章。
以下我将会从「数据中心的作用,数据中心的模块,数据中心的主要数据流程,数据中心的用户角色,达成的效果、注意的事项、遗憾和未达成的部分」七大板块进行阐述。
01 数据中心的作用
经过我和数据中心的各类目标用户进行讨论和了解后,我大概理清了其中部分的思路。就是从使用环境、用户角色、数据流程、应用场景和使用需求着手。在通过1周多的时间,整理出一个大概的需求列表,并从中扩展放大,最后形成了下面的内容,「数据中心的作用是什么?」
1. 串联数据使用流程
数据使用流程总体步骤其实并不多,不外乎就是「采集-标记-训练-测试-反馈」。但一旦加入了不同的用户角色和应用场景后,就开始变得复杂了。我通过进一步的梳理,得出了以下流程表
附图1.数据中心‘数据使用流程图’
从上图可看出「反馈」串联着整个流程。另外,数据集又会因为场景,分别形成训练数据集、训练测试集、应用测试集,又通过不同的反馈流程重新回到数据流程中。这样就形成了数据中心的另外一层核心的作用。
2. 提高数据的流转效率
通过不停的“反馈”,数据的流转效率和数据应用范围就会不断增加和丰富。比如
- 「协助算法研发团队对模型进行更新与动态优化」
- 「增加数据多样性与泛化能力」
通过不同的数据标签。比如,来源类标签、标记类标签、训练类标签、测试类标签、反馈标签等等;数据标签可以反映出数据不同流程和阶段中产生的主动性和被动性的标记,然后将相同、相近、相反或不同类别标签的数据整合成集,就能在不同的使用和应用场景中批量调用和记录标记了。
3. 协助系统应用的实时分析与决策支持
模型优化和实时的数据协同,加上数据流程中不断产生和变化的数据标签,再通过贯穿整个流程「反馈」,为数据增加一层新类型的标签,「量化标签」。你也可以理解成“阈值‘’权重‘等等,因为之前的标签大多都是有还是没有,即0或者1,现在通过反馈分析,增加了量化标签后,数据就变得维度更复杂了。加上实时的数据协同,就可以给到整体流程更多更丰富的决策支持了。如果有兴趣了解详情,可以去查看我已发布的文章AI产品经理的核心能力(一)[1]中有详细的说明。
02 数据中心的模块
根据上文「数据中心的作用」中的数据中心‘数据使用流程图’,我原来是梳理出七大模块,但由于我最后的实际方案把“数据库安全”通过其它手段达成了,最后就没有把该模块列入进去了。最终整理出六大模块
- 「数据采集与导入」
- 「标记分配与标记操作」
- 「数据测试」
- 「测试标准」
- 「用户权限」
- 「量化赋值」
其中,前面4个模块分别对应着不同节点的数据流程,最后两个则是数据中心的管理员对各流程中的用户角色权限进行定义和管理,和涉及数据全流程的量化赋值模块。
03 数据中心主要的数据流程
根据上面整理的六大模块,我先将前面4个模块分别用不同的数据流程来解释各自模块的作用和意义,章节最后我将补充全数据流程都参与的量化赋值流程。
1. 数据采集流程
这个主要的用户角色是运维人员,因为我的产品应用场景是医疗,所以需要将原始医疗数据进行导入操作和批处理操作,具体流程如下
附图2.数据采集流程图
编辑数据来源就是将数据的采集时间、设备、机构、操作用户、数据类型等标签添加在数据中,为最原始的数据添加第一批的数据标签「来源标签」。
2. 标记流程
这个主要的用户角色是“标记管理员”和“标记用户”,而且流程更像是工单系统,所以我最后也是通过工单流程对其进行梳理和设计的,具体流程如下:
附图3.标记流程图
其中,如果遇上特殊情况,数据预处理和标记操作部分,也会有其它用户角色参与。比如,数据预处理流程的优化和修改,医学专家修改标记操作流程和规范,还有提供标记修正和金标准标记。另外,重新指派是支线流程,不是主流程,而是标记指派后,指派无法完成的情况下才会出现的支线流程。
3. 测试流程
这个流程其实包含了训练测试和应用测试,但其实大体上分别不大,只是在环境和测试标准、测试数据集上有所区别,所以我就不将它们分开来讲了,具体流程如下:
附图4.测试流程图
为了流程的简洁,我将很多流程节点省略了很多支线流程和步骤,比如测试集的创建、编辑;模型的创建、算法参数的创建、编辑(参数的类型、类型是文本、数值还是选项),测试数据集的创建、编辑等等。还有数据查重这个,其实是因为这个数据中心是搭建在小样本数据库前提下的,为了提升数据的有效利用,训练数据有可能会和测试数据有所重合,因此特地增设此步骤来防止对测试结果的影响。
以上的都是根据数据流程来梳理的,下面的就是根据系统管理需要补充的流程。
4. 管理流程
这里面包括3个主要流程,**系统管理员流程、标记管理员流程、算法管理员流程”
- 系统管理员:「创建(删除)用户 – 查看用户 – 编辑用户权限」
- 标记管理员:「创建(编辑)‘标记数据集’ – 选择‘标记数据集’ – 指派标记用户 – 查看标记进程 – 创建(编辑)标记摘要 – 提交标记数据」
- 算法管理员:「创建(编辑)算法模型 – 创建(编辑/禁用)算法参数 – 创建(编辑/禁用)测试标准」
其中,系统管理员主要就是创建用户和编辑用户权限,比如标记用户和标记管理员用户的权限,一个是指派,另一个是接受指派并进行标记操作。算法管理员里其实是三个单独的流程,主要是为测试流程里,提供模型、参数、测试标准等的各种选项和范围,对标签进行统一化和规则一致性管理,防止各团队中研发成员有各自的习惯和方式,造成标签混乱、重复和冗余。
5. 量化赋值流程
这个算是数据中心最核心的模块和功能之一了,详细说起来可以很复杂,但其实本质就是通过不断的数据反馈和用户反馈,将其进行分析后量化一个值赋予于数据之上,形成数据的量化标签(即阈值权重)。
在我已发布的文章AI产品经理的核心能力(一)[1]中有详细的说明。
附图5.量化赋值流程图
其中就如上文【附图1.数据中心‘数据使用流程图’】里的反馈环节,就可以通过流程流转重新回到数据流程里的将近每个环节,来对流程进行优化调整。
04 数据中心的用户角色
经过数据中心的主要流程梳理,我已经能很好地洞见到,数据中心应该具有的用户角色,还有其在系统中的作用和需求目的。现在我将根据不同的用户角色,分别讲讲他们各自在系统中权限和操作内容。
1. 运维用户
这个角色权限比较简单,但也很重要,因为这个角色是唯一一个能接触到数据的实际物理承载体的,这个我将在后面的「注意事项」章节进行说明,这里先按下不表。
- 数据采集与数据导入
- 数据来源标签管理
- 转处理数据
- 生成待标记数据集
2. 标记管理员
这个角色主要就是为了管理“标记流程”所建立的,数据在这里需要经过指派和流转,最后进入到核心数据库中,让‘训练测试’和‘应用测试’等流程随时调用。
- 数据预处理
- 标记数据集管理
- 标记工单指派
- 标记摘要管理
数据预处理和标记数据集管理部分,有可能会有算法研发团队成员加入协助完成,因此此角色有可能会与其它用户角色权限叠加
3. 标记用户
这个角色主要就是接收‘标记管理员’的工单指派,根据标记摘要要求完成工单指派,即标记数据集的标记。
- 标记数据
- 完成/返回工单
只要涉及到工单,不得不注意的就是工单的异常处理,这里也是一样。一旦指派因意外无法按时或者按需完成时,返回工单就起到闭环管理的作用了;比如,因为其他标注需求等级较高且无空余可指派任务空间时,让已指派的标记用户退回未完成或者未开始的工单就尤为重要了。
4. 算法研发管理员
这个是属于倾向管理标签的角色,通常是对模型、训练数据集、测试数据集、训练测试、应用测试等等的标签进行统一管理。避免数据标签没有统一的规则而造成的混乱。
- 创建/编辑算法模型
- 创建/编辑/禁用算法参数
- 创建/禁用测试标准参数
这里算法模型是允许进行创建和编辑,但没有给予删除的权限,是因为模型有可能随着研发和模型优化,会有进一步的变化,因此可以提供编辑权限,但由于模型涉及测试结果的展示,因此只允许编辑如算法模型名称和摘要的权限,但不允许删除;算法参数方面,可以允许参数有限度的编辑。比如增加参数选项里‘数据增强’可以从2个选项‘混合裁剪’、‘切除增强’增加到‘混合裁剪’、‘切除增强’、‘几何翻转’3个选项,但不允许删除原来的选项,也不允许修改原选项。但可以禁用原来的选项,比如只保留一个选项,其余选项禁用。测试标准参数也允许创建和禁用,但不允许编辑。
算法参数和测试标准参数为什么不允许删除,只允许禁用,而算法参数为什么只允许有程度的编辑,这个我将在后面的「注意事项」章节进行说明,请留意。
5. 算法研发用户
这个是使用数据中心最核心的用户之一了。根据流程,用户会进行频繁和循环的各类操作,而且都会占用系统大量的资源。所以必须通过流程合理对其操作和流程进行简化。
- 创建/调用训练数据集,包括创建(编辑/更新)数据集摘要
- 创建/调用训练测试集,包括创建(编辑/更新)数据集摘要
- 调用模型和算法参数创建训练,包括创建(编辑/更新)训练摘要
- 查看/对比训练测试结果
- 查看/对比应用测试结果
这里面最经常使用的就是训练测试流程和查看对比测试结果了,这里能非常直观地查看各类测试参数下的测试结果,还可以通过进行横向的测试结果对比,来对算法模型的优化提供分析支持。创建和调用数据集更像是给整个数据集的数据都统一打上的一个数据标签,然后让不同流程中的节点可以直接批量调用。
6. 量化标签用户
数据中心里对数据进行唯一完全自定义标签的用户。根据流程,反馈信息可以通过标签的形式对数据增加多样性维度与数据泛化能力,从而体现出数据间的价值差别,并与应用场景、用户体验产生一定程度的相关性。
- 创建/编辑/停用量化标签
- 编辑/关联/取消关联测试标准参数
我在已发布的文章AI产品经理的核心能力(一)[1]第一章节部分中有这么一个例子,在‘自动驾驶里的行人防碰撞刹停系统’中,针对测试对象‘真实的人类生物’、‘具有人类形象的3D实物’、‘包含人形象的平面实物’,三个选项中,不仅有识别正确(True Positive)、识别错误(False Positive)2个维度,还有‘未识别’的维度,还有识别错误的不同应用场景维度。
比如同样是识别错误,将
- ‘具有人类形象的3D实物’识别为‘真实的人类生物’
- ‘真实的人类生物’识别为‘具有人类形象的3D实物’
- ‘包含人形象的平面实物’识别‘具有人类形象的3D实物’
这三种识别错误是不一样的,前面2种错误不太影响应用场景下的使用,第3种将带来应用场景中不好的用户体验,这时的测试对象(即测试数据本身)就具有不同测试价值和维度了,也就是原来的数据仅有0和1两个维度,现在还有未检出,即0、1、2,再通过用户体验给数据带来的量化标签,很有可能就是0、1、2、0.5四个维度了。
比如 ‘具有人类形象的3D实物’识别出并正确值为2。‘具有人类形象的3D实物’识别出但分类为‘具有人类形象的3D实物’值为1。‘具有人类形象的3D实物’识别出但分类为‘包含人形象的平面实物’值为0.5。‘具有人类形象的3D实物’未识别出值为0。这样,数据就突然有新的量化标签,并根据标签对测试进行重新的分析和对比了。
看到这里,你应该能明白数据中心的重要性和大概的作用了吧。
「那接下来我将对数据中心在实践中达成的效果进行简略说明。」
05 达成的效果
1.数据统一处理,流程和用户角色规范了数据标签的使用
通过数据中心的建立,所有针对数据的操作,基本都可以通过数据中心达成,避免了数据的不规则不合理地使用,杜绝了数据丢失和操作不统一带来的负面效应。
2.促进了模型更新与动态优化、
数据流转效率比之前提升超600%,迭代优化模型周期也减少的近60%,同时还能实时部署更新,还能自动排期进行计划训练任务。
3.多模态数据融合与决策协同
这个是最惊喜的部分,由于涉及比较核心的数据,所以不方便用真实的案例和页面来展示,我就通过举例来让大家理解一下吧。先看一个测试结果的表
附图6.测试结果表格
这个表其实没有什么特别的,只是如果在数据中心里,每个测试参数的结果都可以链接到具体的数据列表上,并显示参数值是如何得出的,而且哪些测试对象的检出结果是如何都一一列出,是不是就有所不同了?
然后我再来一张测试结果的表,这次是不是就有所不同了
附图7.测试结果对比表格
这里就可以通过数据中心的测试对比来进行横向的测试对比,那对于算法团队而言,要进行模型测试对比就会更方便和直观了。不仅如此,我还加入了一个详情对比的功能细节,就是如果通过测试参数查看具体的对比详情时,比如准确率的测试对比时,就会出现详细的对比详情,如类似下图的对比表格
附图8.准确率详情对比表格
如果查看精确率的详细对比时,就会出现如类似下图的对比表格
附图9.精确率的对比表格
「OK,还有更劲爆的就是,每个单独的数据上都会有各类的标记标签、数据集标签、测试标签,就如上面示意图上的表格项一样,每一个参数都相当于在数据上的标签,然后通过标签的流转,你可以随意进行链接流转。」比如下面的数据及标签流转示意图中,红色框选的部分
附图10.数据及标签流转示意图
试想一下,一个数据上有不同的数据标签,比如「标记标签」(标记类型、标记对象、标记历史等等),「数据集标签」(关联的数据集,不管是训练数据集、测试数据集),「测试标签」(关联的训练和模型,测试参数及其结果等等)都可以通过标签进行流转查看,不仅对于算法研发的团队成员,还有数据流程中的标记用户,运维用户都是极大地效率提升。
好了,说了那么多,看到这里的大家应该对这个数据中心能达成什么效果更深入的了解了。那么我就进行最后一章的内容了。
06 注意事项
1. 测试记录的生成规则
这里为什么需要特别注意呢?因为测试记录涉及了很多标签,比如模型、数据集、测试参数、测试结果,如果每次查看都重新生成,会消耗太多的系统资源,但如果用快照的形式保存,那相应的标签变化就体现不出来了。比如
测试记录里的模型使用了现在已禁用的模型参数,如果和新的不含已禁用参数模型的测试结果进行对比时,就会出现参数不对齐的情况,影响测试结果的对比。
我最终的妥协办法就是:
- 测试完成后生成快照(含模型、参数、数据集标签);
- 调用时校验当前参数与快照一致性;
- 不一致时自动触发重新生成并覆盖旧快照。
2. 标签的编辑权限
这里就是上文“数据中心的用户角色”章节中“算法研发管理员”角色里提到的标签的编辑权限。为什么要对其进行限制呢?因为,针对部分已创建和使用的标签,比如算法参数,测试标准参数标签,数据集标签等等,所有涉及到测试记录的标签,均只允许创建、调用;「但部分参数允许一定范围的编辑,比如增加选项,扩大原先数值的选取范围等等。」剩下的编辑就只能通过禁用的方式,依然可以让系统调取,但不能提供删除各种涉及测试记录标签的权限。
3. 数据的安全
当全公司最核心的资产都存放在一个地方时,安全往往都是「最重要、最重要、最重要」的。那如何保证数据的安全呢?我则从两个地方出发考虑
「1.访问限制和硬件隔离」
对所有用户不提供任何的数据接口和网络接口(运维用户导入数据除外),均只提供操作键鼠和显示器。数据中心离线部署,不对外联网,从物理层面上杜绝数据读取拷贝和通过网络向外发送的可能。
「2.数据备份和硬件设备冗余」
对数据中心数据进行自动执行计划数据备份,并采用独立磁盘冗余阵列分散存储和保证数据冗余;执行定期维护服务器和存储设备的运维计划,配置RAID或集群节点防止单点故障;搭建UPS防止断电停电对系统和数据造成的致命威胁,同时使用多个HYCU备份控制器进行数据保护;
07 遗憾和未达成的部分
这里我就简单讲讲,其实主要是时间和成本的问题,最终数据中心系统没有做成和模型环境一致并可直接操作调用的联动状态,即没有办法按照我设计的流程里那样,直接调用算法模型,直接通过数据中心里的算法参数来运行模型训练。还是需要通过人为手动进行操作,就像按方抓药一样,先制定好训练计划并通过数据中心系统录入信息,再通过手动操作运行模型训练,但训练后的测试结果是可以直接自动导入到数据中心里,自动生成测试结果的。虽然有点美中不足,但相对于之前,效率还是提升了非常大的。
另外一个的就是模型参数和测试参数部分,没有提供自定义的批量操作功能,每次都需要用户自行选择勾选和设置,这是我没考虑周全的地方。
08 结语
在医疗图像识别场景下小样本数据中心的设计与实践里,我围绕数据全生命周期管理展开,涵盖数据采集、标注、测试、反馈优化等核心流程。并通过提出数据中心六大模块(采集、标记、测试、标准、权限、量化赋值),并详细解释了各模块的交互逻辑与用户角色分工(如运维、标记管理员、算法研发团队等)。通过引入“量化标签”机制,数据维度从二元标签扩展为多级阈值权重,显著提升模型泛化能力和决策支持效率。补充了一些简单的案例展示了测试结果的多维度对比功能,是如何支持算法团队快速优化模型,最终实现数据流转效率提升600%、模型迭代周期缩短60%的显著效果。遗憾在于未完全实现模型训练与数据中心的自动化联动,但整体设计作为小样本医疗AI系统的高效运行,我认为应该是提供了可复用的方法论的。
「我也希望这篇文章的内容能对看到这篇文章的各位有所启发。」
作者:薰阙的产品思考 公众号:薰阙的产品思考
本文由 @薰阙的产品思考 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务