本篇文章会告诉你如何通过优化数据集来提升人工智能训练,得到更好的结果。
Author Archive
【官方发布】一图看懂TensorFlow 2.0新架构
TensorFlow 2.0作为一个重要的里程碑,将更加关注其“易用性”,更注重使用的低门槛,旨在让每个人都能应用机器学习技术。
“实操讲解”机器学习获取数据难?别忘记特征工程
为了让机器学习模型能够更轻松地读取数据,我们可以运用特征工程来提升模型的性能。
数据收集六步曲,打好机器学习模型基础
减少数据准备所需要的时间变得越来越重要,这样能够留下更多时间进行模型测试、调试和优化,创造更大的价值。
万字长文回顾智能驾驶进化史
智能驾驶是如何起源、孕育、发展、爆发的呢?从中我们能够获得什么样的启发?本文将回顾这一历史,并探讨新兴战略技术和产业的发展途径。
日活超1.6亿,揭秘快手背后的 AI 技术
为了降低拍摄视频的门槛,辅助这些“接地气”的用户更好地进行内容生产,快手 APP 上使用了大量的 AI 技术。
音素 – phone | phonetics
什么是因素?
在语音合成中,有一种关键技术是将文字拆解成音素,再去语音库里匹配相同音素的语音片段,来实现文字转换语音,那么音素到底是什么?
音素其实就是人在说话时,能发出最最最最短小、简洁的不能再分割的发音,不同的音素就是不同的短发音,可以组成不同的长发音,再组成词句形成语言。
中文汉字的最小单位是字,但是一个字可能有多个音素,如下面的例子:
百度百科版本
音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。
如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。
用国际音标标注语音的方法称作标音法,有宽式和严式两种。宽式标音法以能辨义的音位标音,严式标音法则以严格的音素区别来标音,尽量表现各音素间的区别,宽式标音法采用的符号有限,而严式标音法所采用的符号极多,但两者各有用途。
音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定,用来统一标示各国语音的字母。也称为“国际语音学字母”“万国语音学字母”)的音标符号与全人类语言的音素一一对应。
维基百科版本
在语音学和语言学中,音素是任何不同的语音或手势,无论确切的声音是否对单词的含义至关重要。
相反,音素是给定语言的语音,如果与另一个音素交换,则会改变单词的含义。音素是绝对的,并不是特定于任何语言,但只能参考特定语言讨论音素。
拓展阅读
大数据(Big data)
百度百科版本
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):
- Volume(大量)
- Velocity(高速)
- Variety(多样)
- Value(低价值密度)
- Veracity(真实性)
维基百科版本
大数据是一个术语,用于指传统数据处理应用软件过于庞大或复杂的数据集,以便充分处理。具有许多情况(行)的数据提供更大的统计功率,而具有更高复杂度(更多属性或列)的数据可能导致更高的错误发现率。
大数据挑战包括捕获数据,数据存储,数据分析,搜索,共享,传输,可视化,查询,更新,信息隐私 和数据源。
大数据最初与三个关键概念相关联:大量,多样和及时。后来归因于大数据的其他概念是准确性(即 数据中有多少噪声)和价值。
扩展阅读
深入浅出大数据:到底什么是Hadoop?
深入浅出的讲解 Hadoop 历史,对于程序员和没有编程基础的人都很适用。
语音合成(Text to Speech | TTS)
小白版本
语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。
做个比较,当机器的“脑子”里想到了一段内容时,或者是看到了一段话时,知道哪些字应该怎么读:
- 拆解文字,得到音素的时长、频率变化,就和我们有时拆解文字的偏旁、前后缀来获得文字发音一样
- 知道哪些字的组合会是一个词,将这段内容按照人类容易理解的方式说出来
- 在说出来的过程中还会结合这个人的说话习惯、发音特色、口音特点等,得到一段人类特性明显的语音。(Google 已经做出了很想人类的机器声音,查看视频演示)
和人类学说话一样,机器也需要通过大量的语音片段作为“听力材料”,才能学会发音技巧。以及还得学会一些语言规则,比如语法和韵律,才能像人类一样,说话语气、语境,能表达出字面之外的表意。不然,机器只会说出生硬、没有情感、不连贯的话(就像一些动漫或游戏作品中机器人角色的对话)。
音合成技术目前主要应用在读书软件、导航软件、对话问答系统等中。
百度百科版本
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
维基百科版本
语音合成是人类语音的人工生成。用于此目的的计算机系统称为语音计算机或语音合成器,并且可以用软件或硬件产品实现。甲文本到语音(TTS)系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征,如将语音转录为发音。