|
题名:
|
文本挖掘 / Julia Silge, David Robinson著 , 刘波, 罗棻, 唐亮贵译 |
|
ISBN:
|
978-7-111-58855-9 价格: CNY59.00 |
|
语种:
|
chi |
|
载体形态:
|
161页 图 24cm |
|
出版发行:
|
出版地: 北京 出版社: 机械工业出版社 出版日期: 2018 |
|
内容提要:
|
全书共9章, 主要介绍如何使用基于R的整洁工具来进行文本分析。首先介绍了整洁文本的格式, 以及如何获取整洁文本数据集; 并通过tidytext中的情感数据集来进行情绪分析; 接着介绍了如何根据tf-idf统计量来识别特定文档中的重要单词, 以及如何利用n-gram来分析文本中的文字网络; 之后介绍了如何将整洁文本转换为文档词项矩阵和Corpus对象格式, 并给出了主题建模的概念; 最后通过整合多种已知的整洁文本挖掘方法, 给出了一些研究案例, 这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通信信息。 |
|
主题词:
|
程序语言 程序设计 |
|
中图分类法:
|
TP312R 版次: 5 |
|
其它题名:
|
基于R语言的整洁工具 |
|
主要责任者:
|
斯拉格 著 |
|
主要责任者:
|
罗宾逊 著 |
|
次要责任者:
|
刘波 译 |
|
次要责任者:
|
罗棻 译 |
|
次要责任者:
|
唐亮贵 译 |
|
附注:
|
华章IT |
|
责任者附注:
|
责任者Silge规范汉译姓: 斯拉格; 责任者Robinson规范汉译姓: 罗宾逊 |
|
责任者附注:
|
Julia Silge, 是Stack Overflow公司的数据科学家, 她主要分析复杂数据集, 喜欢与各种人交流技术问题。David Robinson, 是Stack Overflow公司的数据科学家, 他已经获得普林斯顿大学的定量与计算生物学博士学位。 |