[1]李 贞 刘海燕 庞禄申.基于众包模式的数据采集和标注系统研究[J].大众科技,2021,23(10):15-18.
点击复制

基于众包模式的数据采集和标注系统研究()
分享到:

《大众科技》[ISSN:1008-1151/CN:45-1235/N]

卷:
23
期数:
2021年10
页码:
15-18
栏目:
信息技术与通信
出版日期:
2021-10-20

文章信息/Info

Title:
Research on Data Acquisition and Annotation System Based on Crowdsourcing Mode
作者:
李 贞 刘海燕 庞禄申
(北华航天工业学院,河北 廊坊 065000)
关键词:
众包数据标注数据采集微信小程序
Keywords:
crowdsourcing data annotation data acquisition Wechat applet
文献标志码:
A
摘要:
数据是人工智能和机器学习的基础,但不是所有数据都具有研究价值,这就需要技术人员根据不同的应用场景对数据进行采集、筛选和标注。数据采集标注等数据服务行业空前繁荣,但数据在成本、效率、质量等方面仍有一定的弊端,因此,构建一个基于众包模式下,以微信小程序为客户端的数据采集和标注系统,用于实现众包模式下的数据采集和标注系统,可以在一定程度上解决市面上已存在系统的一些效率慢、成本高、数据质量参差不齐的问题。通过众包模式和激励机制思想,提升数据采集和标注的维度和精度,同时降低人工成本,提供大量的数据为机器学习的训练做数据支撑,模拟人类活动进行深度学习。
Abstract:
Data is the basis of artificial intelligence and machine learning, but not all data have research value, which requires technicians to collect, filter and label the data according to different application scenarios. Data collection and labeling and other data service industries are unprecedentedly prosperous, but data still has certain disadvantages in terms of cost, efficiency and quality. Therefore, build a data collection and labeling system based on crowdsourcing mode and wechat applet as the client to realize the data collection and labeling system under crowdsourcing mode, To some extent, it can solve the problems of slow efficiency, high cost and uneven data quality of the existing system in the market. Through the idea of crowdsourcing mode and incentive mechanism, improve the dimension and accuracy of data acquisition and annotation, reduce labor costs, provide a large amount of data and support for machine learning training, and simulate human activities for in-depth learning.

参考文献/References:

[1] 聂震云. 基于众包的数据标注系统[D]. 北京交通大学,2014: 1-99. [2] Raykar Vikas C, Shipeng Yu, Zhao Linda H, et al. Learning From Crowds[J]. Journal of Machine Learning Research,2010, 11(4): 1297-1322. [3] Chittilappilly A I, Lei C, Amer-Yahia S. A survey of general-purpose crowdsourcing techniques[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(9): 1. [4] 程慧荣,黄国彬,孙坦. 国外基于大众标注系统的标签研究[J]. 图书情报工作,2009,53(2): 121-124,133. [5] Hossfeld T, Keimel C, Timmerer C. Crowdsourcing quality-of-experience assessments[J]. Computer, 2014, 47(9): 98-102. [6] 陈峙宇,吕坦悦,王菲,等. 基于众包的图片标注系统[J]. 计算机与现代化,2019(8): 112-116. [7] 刘靖超. 面向数据采集的信息集成系统设计与实现[D]. 天津: 河北工业大学,2005. [8] 冯小亮,吴继研,王殿文. 众包模式及其奖金策略研究[J]. 广东财经大学学报,2018,33(4): 15-26. [9] 王茜. 基于BLEU的英语翻译自动评分研究[J]. 安徽电子信息职业技术学院学报,2010,(4): 65-66. [10] 徐太征,徐中宇. Fisher理论和多数投票法相结合的数据融合算法[J]. 科技信息,2009(27): 451,494. [11] 梁宗文,杨帆,李建平. 基于节点相似性度量的社团结构划分方法[J]. 计算机应用,2015(5): 1213-1217,1223. [12] 张志强,逄居升,谢晓芹,等. 众包质量控制策略及评估算法研究[J]. 计算机学报,2013(8): 1636-1649.

备注/Memo

备注/Memo:
【收稿日期】2021-08-21 【基金项目】北华航天工业学院创新资助项目(No. YKY-2021-19)。 【作者简介】李贞(1997-),女,河南洛阳人,北华航天工业学院在读硕士研究生,研究方向为人工智能与大数据分析。
更新日期/Last Update: 2022-01-28