返回

穿越:2014

首页
关灯
护眼
字体:
第267章 加速数据利用合规化(1/4)
   存书签 书架管理 返回目录
    阅读提示:为防止内容获取不全,请勿使用浏览器阅读模式。

    比起此前林灰忽视的标注数据。

    暗数据就更没啥存在感了。

    暗数据这类数据几乎是被无视的。

    毕竟这类数据存在于网络和服务器中,只会占据了宝贵的空间。

    一般来说,暗数据主要有三种类型:

    第一种是传统的基于文本的数据。这可能包括电子邮件,日志和文档。

    第二种类型是非传统数据。

    这包括未标记的音频和视频文件、静止图像和声音文件。

    第三种类型是深度数据。

    这包括深层网络中搜索引擎无法触及的信息。

    这些深度数据大多是私有的,由政府或私人机构控制。

    它包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库。

    以上这些数据都可以称之为暗数据。

    ……

    暗数据这类数据相比传统意义上数据要更隐晦一些。

    暗数据这种未标注过的数据虽然不能拿来直接用吧。

    但却不能否定这种东西的潜力。

    反正绝对不能说这些信息不重要。

    至于果子为什么对这类东西感兴趣。

    因为收集这类一贯不被视为数据的数据。

    实际上通过深耕是能得到跟传统数据差不多的功效的。

    而且使用这类数据的话,通过一些概念性的教育消费者甚至可以形成一种企业从来不涉足一般数据的印象。

    这对于树立企业形象岂不是很有妙用??

    总之,对于既当又立的企业不能说是没有诱惑力。

    反正林灰觉得从暗数据入手这倒是符合很多科技巨头的行事风格。

    类比林灰以前估量的价格。

    如果说几千万美元就能买上千万条双语标注数据。

    可想而知像蘋淉所谋求的价值两三个亿美元的暗数据肯定是一笔相当庞大的数据。

    涉及到标注数据跟暗数据一大区别在于标注数据是结构化进行过一定处理的数据。

    而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。

    结构化的数据一般是即有固定格式和有限长度的数据。

    例如填的表格就是结构化的数据。

    比如说“国籍,种花家,民族:汉,性别:男,姓名:张三,年龄:……”

    这种央视的都叫结构化数据。

    这类数据很容易以固定的格式存储到数据库里。

    而半结构化数据值得是一些XML或者HTML的格式的数据。

    对这类数据当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。

    所谓的非结构化的数据:就是不定长、无固定格式的数据。

    例如网页,邮件,有时候非常长;有时候非常短,几句话就没了,这类就是典型的非结构化数据。

    子啊比如说例如ord文档、语音,视频、图片都是非结构化的数据。

    而半结构化数据和非结构化数据,一般合二为一统称为“暗数据”。

    这个词语也不是林灰定义的。

    相比于标注数据这种结构化数据,暗数据同标注数据此二者的价值是不可同日而语的。

    单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。

    两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。

    更何况说拿几亿美元去换暗数据呢?

    可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。

    林灰那有很多前世的信息。

    但也绝不可能有满足蘋淉胃口的暗数据。

    不要说是林灰前
本章未完,请点击下一页继续阅读》》
上一章 目录 下一页