谷歌开源学习框架如此受欢迎?下载次数已超 4100万
2019-06-12
谷歌今天介绍了TensorFlow.Text,一个使用TensorFlow预处理语言模型的库。由谷歌Brain团队创建的开源机器学习框架已经被下载了4100多万次。
TensorFlow.Text可以使用PIP安装,并附带使用记号来拆分和分析文本(如单词、数字和标点符号)的功能。
在启动时,TensorFlow.Text可以识别空白、unicode脚本和预先确定的单词片段序列,比如谷歌调用的后缀或前缀。单词通常用于BERT之类的方法中,BERT是去年秋季为谷歌开源语言模型提供的一种预培训技术。
根据媒体发布的消息,该库还附带用于标准化的ops、n-grams和用于标记的序列限制。
TensorFlow.Text的标记器使用RaggedTensors,这是一种新的文本识别张量。谷歌工程师Mark Omernick在今年早些时候的TensorFlow开发峰会上首次详细介绍了RaggedTensors和Unicode对TensorFlow的支持。
这一消息是在TensorFlow 2.0 beta版发布几天后公布的。谷歌的开源框架的最新版本是在3月份的TensorFlow开发峰会上以alpha版本发布的。TensorFlow 2.0使用更少的APIs、更深层次的Keras integration以及对运行时的改进,以实现快速执行。
TensorFlow.Text是谷歌在过去几个月推出的最新专用库,用于帮助人们完成机器学习的特定任务。上个月发布的TensorFlow Graphics旨在为图形和3D模型带来更多的深度学习。
谷歌在今年早些时候表示,也许最受欢迎的是用于嵌入式设备的TensorFlow Lite,目前有超过20亿台设备在使用它。谷歌使用TensorFlow Lite支持GBoard上的语音检测和谷歌照片中的边缘检测等功能。
今年3月,谷歌推出了TensorFlow Privacy和TensorFlow Federated,这是一种能更好地保护用户隐私的设备内置机器学习方法。该公司将其视为开发人员优先考虑隐私的一种方式。面向JavaScript和iOS开发人员的框架版本TensorFlow.js和TensorFlow Swift今年春季也得到了升级。