Author Archive

AI 数据集最常见的6大问题（附解决方案）

本篇文章会告诉你如何通过优化数据集来提升人工智能训练，得到更好的结果。

【官方发布】一图看懂TensorFlow 2.0新架构

TensorFlow 2.0作为一个重要的里程碑，将更加关注其“易用性”，更注重使用的低门槛，旨在让每个人都能应用机器学习技术。

“实操讲解”机器学习获取数据难？别忘记特征工程

为了让机器学习模型能够更轻松地读取数据，我们可以运用特征工程来提升模型的性能。

数据收集六步曲，打好机器学习模型基础

减少数据准备所需要的时间变得越来越重要，这样能够留下更多时间进行模型测试、调试和优化，创造更大的价值。

万字长文回顾智能驾驶进化史

智能驾驶是如何起源、孕育、发展、爆发的呢？从中我们能够获得什么样的启发？本文将回顾这一历史，并探讨新兴战略技术和产业的发展途径。

日活超1.6亿，揭秘快手背后的 AI 技术

为了降低拍摄视频的门槛，辅助这些“接地气”的用户更好地进行内容生产，快手 APP 上使用了大量的 AI 技术。

音素 – phone | phonetics

什么是因素？

在语音合成中，有一种关键技术是将文字拆解成音素，再去语音库里匹配相同音素的语音片段，来实现文字转换语音，那么音素到底是什么？

音素其实就是人在说话时，能发出最最最最短小、简洁的不能再分割的发音，不同的音素就是不同的短发音，可以组成不同的长发音，再组成词句形成语言。

中文汉字的最小单位是字，但是一个字可能有多个音素，如下面的例子：

百度百科版本

音素（phone），是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音、辅音两大类。

如汉语音节 ā（啊）只有一个音素，ài（爱）有两个音素，dāi（呆）有三个音素等。

用国际音标标注语音的方法称作标音法，有宽式和严式两种。宽式标音法以能辨义的音位标音，严式标音法则以严格的音素区别来标音，尽量表现各音素间的区别，宽式标音法采用的符号有限，而严式标音法所采用的符号极多，但两者各有用途。

音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标（由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”“万国语音学字母”）的音标符号与全人类语言的音素一一对应。

查看详情

维基百科版本

在语音学和语言学中，音素是任何不同的语音或手势，无论确切的声音是否对单词的含义至关重要。

相反，音素是给定语言的语音，如果与另一个音素交换，则会改变单词的含义。音素是绝对的，并不是特定于任何语言，但只能参考特定语言讨论音素。

查看详情

拓展阅读

大数据（Big data）

百度百科版本

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：

Volume（大量）
Velocity（高速）
Variety（多样）
Value（低价值密度）
Veracity（真实性）

查看详情

维基百科版本

大数据是一个术语，用于指传统数据处理应用软件过于庞大或复杂的数据集，以便充分处理。具有许多情况（行）的数据提供更大的统计功率，而具有更高复杂度（更多属性或列）的数据可能导致更高的错误发现率。

大数据挑战包括捕获数据，数据存储，数据分析，搜索，共享，传输，可视化，查询，更新，信息隐私和数据源。

大数据最初与三个关键概念相关联：大量，多样和及时。后来归因于大数据的其他概念是准确性（即数据中有多少噪声）和价值。

查看详情

扩展阅读

深入浅出大数据：到底什么是Hadoop？

深入浅出的讲解 Hadoop 历史，对于程序员和没有编程基础的人都很适用。

语音合成（Text to Speech | TTS）

小白版本

语音合成就是让机器模仿人类说话。即输入一段文字，最终输出一段语音。

做个比较，当机器的“脑子”里想到了一段内容时，或者是看到了一段话时，知道哪些字应该怎么读：

拆解文字，得到音素的时长、频率变化，就和我们有时拆解文字的偏旁、前后缀来获得文字发音一样
知道哪些字的组合会是一个词，将这段内容按照人类容易理解的方式说出来
在说出来的过程中还会结合这个人的说话习惯、发音特色、口音特点等，得到一段人类特性明显的语音。（Google 已经做出了很想人类的机器声音，查看视频演示）

和人类学说话一样，机器也需要通过大量的语音片段作为“听力材料”，才能学会发音技巧。以及还得学会一些语言规则，比如语法和韵律，才能像人类一样，说话语气、语境，能表达出字面之外的表意。不然，机器只会说出生硬、没有情感、不连贯的话（就像一些动漫或游戏作品中机器人角色的对话）。

音合成技术目前主要应用在读书软件、导航软件、对话问答系统等中。

百度百科版本

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

查看详情

维基百科版本

语音合成是人类语音的人工生成。用于此目的的计算机系统称为语音计算机或语音合成器，并且可以用软件或硬件产品实现。甲文本到语音（TTS）系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征，如将语音转录为发音。

查看详情

扩展阅读

入门类文章（2）

语音合成 TTS | AI 产品经理需要了解的 AI 技术概念

语音合成 TTS (Text-To-Speech) 的原理是什么？

开拓视野类文章（2）

方兴未艾的语音合成技术与应用

探秘语音合成技术的前世今生

Author Archive

AI 数据集最常见的6大问题（附解决方案）

【官方发布】一图看懂TensorFlow 2.0新架构

“实操讲解”机器学习获取数据难？别忘记特征工程

数据收集六步曲，打好机器学习模型基础

万字长文回顾智能驾驶进化史

日活超1.6亿，揭秘快手背后的 AI 技术

音素 – phone | phonetics

什么是因素？

百度百科版本

维基百科版本

拓展阅读

大数据（Big data）

百度百科版本

维基百科版本

扩展阅读

深入浅出大数据：到底什么是Hadoop？

语音合成（Text to Speech | TTS）

小白版本

百度百科版本

维基百科版本

扩展阅读

关于 easyAI

关注我们的公众号：easyai-tech

什么是因素？

百度百科版本

维基百科版本

拓展阅读

百度百科版本

维基百科版本

扩展阅读

小白版本

百度百科版本

维基百科版本

扩展阅读

关于 easyAI

热门标签

关注我们的公众号：easyai-tech