返回

穿越:2014

首页
关灯
护眼
字体:
第259章 疯狂的数据(1/4)
   存书签 书架管理 返回目录
    阅读提示:为防止内容获取不全,请勿使用浏览器阅读模式。

    举这样一个例子:

    在图象识别里面,经常我们可能需要上百万的人工标注的数据,

    在语音识别里面,我们可能需要成千上万小时的人工标注的数据。

    涉及到机器翻译更是需要数千万语句标注数据。

    说实话作为一个来自前世往后几年的技术人员。

    此前涉及到人工标注数据的价值林灰还真没太当回事。

    但现在看来,这玩意的价值此前明显被林灰忽视了。

    林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

    一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。

    如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

    可以看到数据标注的费用是非常非常高的。

    而这仅仅是2017年的数据标注成本。

    在现在的话标注成本岂不是意味着更高的数据标注费用?

    要知道现在几乎不怎么注重无监督学习。

    在无监督学习方面更是几乎没啥可堪一用的模型。

    在主流的机器学习依旧是靠监督学习和半监督学习。

    而举凡是监督学习和半监督学习基本就离不开人工标注的数据。

    以这个角度来衡量的话林灰所拥有的一大批现成的人工标注数据岂不是一笔巨额的隐形财富?

    如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。

    那么在机器学习整体比较滞后的这个时空的2014年。

    同样的1000万条双语数据标注需要多少钱呢?

    林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。

    “两三亿美元”这个数据似乎有点吓人。

    但其实也不夸张。

    之所以说不夸张有两方面的原因:

    一、即便是在前世,数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。

    而在此之前,涉及到数据标注从来就跟“便宜”两个字不沾边。

    同样拿此前林灰所列出的例子作为援引:

    在前世2017年1000万条双语互译标注的成本约为2200万美元;

    注意这仅仅是双语互译的标注。

    “双语互译”只是某两种语言之间的互译标注。

    只是两种语言之间的互译标注就需要两千多万美元?

    那涉及到上百种语言的互译需要多少钱呢?

    这个问题并不复杂,简单的排列组合问题:

    C(100,2)==4950;4950*0.22亿美元==1089亿美元;

    不难看出若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。

    而这仅仅是理想情况下的估算,如果真要按部就班进行这样的标注实际成本远不止于此。

    毕竟很多小语种之间的互译成本显然相比于主流语言之间的互译价格还要更高。

    虽然实际操作中不会真的有大怨种按部就班进行上百种语言互译的数据标注。

    但这个估算也充分说明了数据标注在相当长的一段时间内都很昂贵。

    同样的道理,在现在这个时空数据标注方面的成本也依然是昂贵的。

    而且因为这个时空机器学习方面研究进展的滞后,现在涉及到数据标注这方面的成本甚至还要高于前世同一时期的。

    二、时代是在飞速发展的,要知道现在随便一个文体店就能很方便买到的科学计算器其实际效率、可靠程度、易用性甚至可以全方位吊打上个世十年代花费上千万美
本章未完,请点击下一页继续阅读》》
上一章 目录 下一页