一、文本挖掘定义
文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。
二、文本挖掘步骤
1)读取数据库或本地外部文本文件
2)文本分词
2.1)自定义字典
2.2)自定义停止词
2.3)分词
2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤
3)构建文档-词条矩阵并转换为数据框
4)对数据框建立统计、挖掘模型
5)结果反馈
三、文本挖掘所需工具
文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。
四、实战
本文所用数据集来自于sougou实验室数据。
DMC Text Filter是HYFsoft推出的纯文本抽出通用程序库,DMC Text Filter可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。
DMC Text Filter采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。
数据挖掘的方法:
1.分类 (Classification)
2.估计(Estimation)
3.预测(Prediction)
4.相关性分组或关联规则(Affinity grouping or association rules)
5.聚类(Clustering)
6.复杂数据类型挖掘(Text,Web ,图形图像,视频,音频等)
数据挖掘
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英
语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从
大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信
息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学
习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
在word中,以word2010为例来介绍七种文本选取的方法,以便提升工作效率。
1、第一种选择字或词组的方法。
通常是通过拖动鼠标来实现单词和单词的选择,另外,基于单词的强大关联功能,还可以通过将光标移动到短语的中间然后双击鼠标来选择短语,如下图所示。
2、第二种是选择单行和段落的方法。
可以将光标移动到行的左端,当箭头处于箭头状态时单击鼠标,然后是文本行选中,如果双击鼠标,则可以选择段落文本,相比较拖动鼠标来选择单行文本这种方法要快得多。
3、第三种是选择整篇。
只需要将光标移动到文档的左侧,显示光标时,可以通过三击左键来选择整篇文章,除此之外还可以用“Ctrl+A”来实现选择整篇。
4、第四种是跨页选择文本。
如果要选择的文本不在一页上,用手动发票的方式来选择是非常不方便的,这时可以用先停止光标,然后选择文本,然后向下滚动选择在文本末尾,按住shift并单击此处的方法。
或是在选择文本前按住光标,按F8,然后在所选文本末尾单击鼠标,可以通过调整鼠标位置灵活选择文本,之后,按Esc键结束。
5、第五种是选择区域文本的方法。
如果选择的划如下图所示的区域内的文字,用鼠标拖动就无法实现,这时可将光标移动到选区开头,按住Alt键将矩形区域拉出到右下方,将选择区域中的文本,更改颜色以查看选择效果。
6、第六种是选择相似文本的方法。
这一方法主要是针对标题类的文本选择,可先选中某一级的标题,再选择并点击“选择格式相似的文本”,就可以看到同一级的标题都被选中了。
7、第七种是间隔选择文本的方法。
如果要在同一文本中选择不同区域的文本,先选择一部分文本,然后按住Ctrl键,再将其它部分加入,若对某一部分不想选择了,也可以将光标移动到此部分,后点击左键即可取消该此部分。
一、变换视角,体会作者的情感
现代学者胡适说:“情感者,文学之灵魂。”一篇文章常常通过象征、隐喻等表现手法,表达作者的情感。因此,读者要借助已有的知识经验,从不同的角度解读文本,体会作者的情感。
著名学者王国维说:“有我之境,以我观物,故物皆著我之色彩。”人教版语文七年级上册课文《观沧海》是曹操写的一篇文章。为了让学生理解曹操眼中的“大海”的含义,体会其独特的情感,笔者先从历史角度入手,揭示文本的创作背景,如曹操成功北伐乌桓,即将平定中原,站在碣石山上登高望海,此时激情满怀,然后引导学生思考问题:曹操是如何将“我之色彩”“著”之于“物”的呢?这种写作手法有什么作用?学生结合历史资料以及对曹操生平的了解,认为作者眼前所见的大海并非实景,而是融入了作者奋发有为、踌躇满志的理想之境。接着笔者让学生思考问题:如果将文中的“日月之行,若出其中。星汉灿烂,若出其里”改为“日月之光,普照沧海。星汉灿烂,辉映浪涛”是否能够表现出曹操博大的胸襟和气魄?二者又有什么不同呢?学生经过分析认为,曹操在三国鼎立形成之后,没有应天命即帝位,而是说“若天命在吾,吾为周文王矣”,由此可知,文章要体现的不仅是诗人博大的胸襟、理想抱负和雄心壮志,还有海纳百川、顾全大局的人格魅力。在曹操的眼中,大境界并不是要做世人瞩目的“救世主”,而是要像大海一样,包容宇宙万物,吞吐日月星辰。从文化视角解读文本,学生很容易就理解了文章采用的托物言志的写作手法,体会到了诗人的博大胸襟和霸主气魄。
二、品味细节,探究文本内涵
在解读文本过程中,教师不但要引导学生整体感知文本,还要对文中的细节描写进行解读,从平常的事物中挖掘其内涵,从平淡的描述中探究其意蕴。在此过程中,教师需要对文本中的特殊词语、句子和段落进行品读。人教版语文八年级上册课文《背影》中有一段文字描写,如“我看见他戴着黑布小帽,穿着黑布大马褂……我的泪很快地流下来了”。在作者描写的这个画面里“蜗居”着两个意象,即“黑布小帽”“黑布大马褂”。那么,如何解读这一细节描写呢?学生通过分析作者的写作背景及相关资料,明白了作者的父亲当时仕途失意,赋闲在家,经济拮据,而此时祖母病逝,在同时承受经济压力和精神压力之下,父亲以这样的一袭“黑”衣示人,体现了父亲的贫穷、颓丧、悲苦、绝望等。在这样的境况下,父亲仍然给儿子买了一件紫毛大衣,爬过月台买朱红的橘子。学生通过分析文本中父亲的“黑”与买给“我”的“朱红橘子”“紫毛大衣”,并将这些颜色进行对比,体会到了父亲对儿子深沉的爱。深度挖掘文本,教师要从文本的语言文字入手,仔细推敲,认真思考,透过语言文字领会文本的深刻内涵。
三、用心体会,理解文本精神
文本解读需要心灵的关照,因此,教师要引导学生用心体会作者的情感,进而领会文本精神。人教版语文七年级下册课文《猫》是郑振铎写的一篇文章。文章通过讲述“我”三次养猫的过程以及三只猫不同的遭遇,生发出动人的情感,揭示了人性的复杂,引发了对生命的思考。文中有这样一段描写,如“我心里十分难过,真的,我的良心受伤了,我没有判断明白,便妄下断语,冤苦了一只不能说话辩诉的动物。想到它的无抵抗的逃避,益使我感到我的暴怒、我的虐待,都是针,刺我良心的针”,围绕这段文字描写,笔者引导学生思考问题:为什么用针来表达“我”的自责?学生结合生活经验,明白了针扎进皮肤里虽然不至于流血,但是伤口却很难愈合,并且时常会感到疼痛,由此可知,作者是借此表达良心深处的不安。在这个教学案例中,笔者引导学生结合“针”扎皮肤的体验,让学生体会作者的心情,从而理解文本中的“猫”代表了当时的弱势群体,在人自私卑劣的行径之下,弱者无一能够逃脱厄运这一精神主旨。
1. Analytic Visualizations(可视化分析)
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
2. Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
3. Predictive Analytic Capabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
4. Semantic Engines(语义引擎)
由于非结构化数据的多样性带来了数据分析的新的挑战,需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
5. Data Quality and Master Data Management(数据质量和数据管理)
数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
《文本挖掘(英文版)》是一部文本挖掘领域名著,作者为世界知名的权威学者。书中涵盖了核心文本挖掘操作、文本挖掘预处理技术、分类、聚类、信息提取、信息提取的概率模型、预处理应用、可视化方法、链接分析、文本挖掘应用等内容,很好地结合了文本挖掘的理论和实践。《文本挖掘(英文版)》非常适合文本挖掘、信息检索领域的研究人员和实践者阅读,也适合作为高等院校计算机及相关专业研究生的数据挖掘和知识发现等课程的教材。
从语文课程的性质来看语文教学重在进行语言训练。
学生对语言的掌握情况也是衡量课堂实效性的重要标准。可是,如今的语文课堂似乎变了味了。
语文课不是进行语言本身的推敲、揣摩和品位,而是围绕文本内容,外加了大量的补充性学习材料,加以多媒体的狂轰滥炸,或者过度的渲染和张扬人文性。如在上《太阳》时,不去推敲文中关键语句,用大量的视频来介绍太阳特点和人类的关系;上《三顾茅庐》时,不让学生熟读课文,竟花大量的时间让学生观看视频三顾茅庐来了解课文内容;教《地震中父与子》正文草草带过,却扩展到朱自清的《背影》及其他关于父爱的文章。
一节语文课俨然成了科普宣传课、历史课和思品课了。这些设计者们认为热热闹闹或者别出心裁的课堂就是语文课了,这是由于他们对语文课程缺少本质的认识造成。
这样的课上学生们除了感官的享受以及思想的进步外,对于学生的语言是毫无帮助的。语文课要热闹没有错,语文课要别出心裁,也没有错,但是,所有的设计都不应该脱离学生对语言的感悟与训练。
否则,语文课堂就不是语文课了。学生们所用的文本,作为语言的载体,又是前人精挑细选的篇章,其规范性毋庸置疑,对学生学习语言及进行语言训练有很高的利用价值的,它又是创作者情感的符号,字里行间总能读出点情味。
我认为真正的语文课,无需靠大量补充性学习材料和多媒体的狂轰滥炸及过度的渲染和张扬人文性,应该从文本出发,引导学生通过深入学习文本,掌握知识点,习得语言的方法,获得情感的体验。下面我就结合实际教学谈谈如何从文本中寻找语言训练点。
一、抓住关键字词进行语言训练在语文课堂上要让学生的嘴巴动起来,应该要从文章的中的关键词入手。紧紧围绕关键词进行精心的设计,一定能够唤起学生的说话的欲望,达到课堂语言训练的目的。
1、在诗歌教学中抓住关键字诗歌是字字含意境,字字露真情。因此,在教学诗歌时,深入字面意思,再现诗人的创作时的情境,感悟字里透出的感情显得特别的重要了。
《九月九日忆山东兄弟》全诗围绕一个“忆”字展开,每句诗中都有一个关键的字“独、逢、遥、少”,诗人因“独”常常有客居他乡的寂寞,因“逢”佳节而倍生思乡情怀,因离家“遥”而想起了兄弟们登高望远,却又因此又有“少”一人的惆怅。这四个字的感悟对于突破诗歌的理解,感受作者的客居他乡复杂的情怀有很大的作用。
因此,我就这么问学生:“独”字什么意思?“独”字让你想到的作者此时怎样的处境?这样的问题,容易打开学生们想象的翅膀,他们应该会联系自己生活中经历父母外出时单独一人在家的情景来。然后教师再让学生闭上你们的眼睛心里不停地默念着“独”字,想着自己只有一个人,(过一会)请各位同学睁开眼睛,心理什么滋味,谁来说说?这么一问学生们积极踊跃的发言起来“我感到了十分地孤独”“我会不停的想家人”“我看到周围寂静的很,有话没地方说”等,他们都能说出自己对“独”字独特的体验,我想这些小孩们在生活中也确实体验过单独在家孤单的感觉。
对于“逢、遥、少”也一样的,只要设计好,每个字都可能引起学生语言的欲望的。2、在说明文中抓关键词在以往的听其他老师上课的过程中,说明文往往容易上成科普文。
问题的关键就在于很多老师没有深入的理解和挖掘文本,就采用了大量的辅助材料,以求达到学生对知识点的理解。这种现象重知识点轻语言训练,就是造成把语文课上成科普课的原因。
《太阳》一课中,文章在说明太阳的特点时,用了较多的数字来说明,因此,让学生感悟这些数字显得特别的重要了。可是很多老师却忽略了这点,学生能找到关键的数字,就很高兴地急于直接从数字中总结出太阳远、大、热三个特点,然后再外加视频加以辅助理解,以至于偏离了语文课的性质了。
我想如果深入挖掘这些数字,让学生深刻体会体验这些数字更有语文味点,比如:同学们看到“3500年”你们的第一感受是什么?告诉我。“震撼”“难以想象”。
你们为什么会第一时间想到这些词?有什么想说的话尽管说出来。学生们自然也会联系人的生命,人类的历史来谈自己的的这种感受。
如:“一个人只能活多久啊,要走多少代啊?”“人类历史才多久啊?”等等。经过这样一问,学生一联系实际,就更能体会到了太阳离我们的远。
学生在这个过程中,既有了说的训练,又深刻的认识了数字说明的妙用。因此,说明文中,也应该能够用抓关键词来体会。
1、在记叙文中抓住关键词在记叙文中,有时候一个词往往能将整篇文章串联起来,创造学生的语言运用的平台。《一个村庄的故事》中,村庄原先是很美丽的,可是由于斧头的出现一切都改变了。
因此,在上这节课的时候应紧紧抓住“斧头”进行教学设计:自由读文,然后说说斧头造就了什么?别看这么一问,后面的答案是一个比一个精彩。他们将课文的语言充分的利用了起来,从斧头造就了应有尽有的家具和人类美好的生活,到裸露的土地和灾难。
这样,既抓住了文本的意思,让学生有所感悟,又能让学生将文中学的语言得以运用。二、填补空白的文本进行语言训练课文中常常有。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:5.042秒