发布时间:2025-07-07
浏览次数:0
点击上方“公众号” 可以订阅哦!
专家简介
李惠,曾任职于上海图书馆(上海科学技术情报研究所)并担任南京大学博士后,德国海德堡大学授予其理学博士学位。她的主要研究方向集中在文本挖掘、社会网络分析以及数字人文领域。目前,李惠已被纳入上海市超级博士后计划。
会议介绍
为深入掌握图书馆技术领域的最新动态,推动我国与国际图情档界的互动与协作,上海市图书馆学会计划在2019年8月举办一场以人工智能技术为核心议题的“2019图书馆前沿技术论坛(IT4L)”,该论坛将聚焦人工智能与第三代图书馆的结合。会上,将探讨语义网络、认知计算、关联数据、本体技术、区块链技术、智慧情报分析、机器学习、数字人文以及众包等在图书馆业务与服务中的应用。活动将采用主题报告、专题演讲、专家对话、学术研讨、沙龙交流和快速交流等多种形式,旨在深入探讨图书馆前沿技术的理论、方法和实际应用问题,并共同寻求图书馆创新服务模式的未来发展道路。
数字人文领域中的文本分析
01
引言
02
文本分析
报告内容
01
引言
本报告聚焦于数字人文领域的文本分析议题。在此,我们先来阐述数字人文领域内普遍存在的数据种类,包括地理信息数据、以图像形式存储的数据、多媒体资料,以及接下来将要重点阐述的文本语料。
在数字人文的研究范畴内,文本分析的研究主要围绕两个核心部分进行:一是文本的元数据,二是文本的正文。以上海图书馆的盛宣怀档案知识库众包平台为例,在屏幕上展示的右侧信息,如题名、责任者、地点、主题等,即构成了文本的元数据;而“全文抄录”所展示的内容,则直接对应着文本的正文。
近年来,文本数字化的迅猛发展吸引了众多国外学者的关注,L. 教授便是其中活跃的一员。目前,他担任华盛顿州立大学文理学院的院长职务,此前,他曾在內布拉斯加()大学人文科学数字研究中心担任研究员,并在斯坦福大学工作过数年。此外,他还参与了文学实验室 Lab 的创建,该实验室致力于利用数字技术对图书进行探索。
教授与英国企鹅出版社的前任编辑Jodie共同撰写了《The Code》一书,该书对《纽约时报》过去30年间登上的两万部畅销小说进行了深入分析,选取了包括主题、用词、人物等在内的2800种特征进行统计研究,力图揭示这些畅销小说在写作风格上是否存在共性,并试图借助这些共性来预测未来畅销书的趋势。教授提出了两个我深感赞同的观点,首先,将信息技术融入数字人文领域,并非旨在彻底摒弃先前的理论,推翻传统人文学者的见解;其次,人文学者应善用这些技术,为既有的设想增添新的研究角度和知识储备。第二点,鉴于许多传统人文学者可能缺乏编程领域的知识背景,他们通常也不认同在没有编程基础的情况下投入大量时间和金钱去全面学习一门编程语言;然而,他们可以学习一些相关的算法库,掌握十几行程序代码,这样就能完成一些简单的统计分析,从而丰富自己的工具库。
02
文本分析
本部分内容主要涉及三个领域,分别是文本处理、网络构建以及话题剖析,旨在阐述在此过程中所采纳的常见分析策略与辅助工具,并强调应用过程中需要注意的关键事项。
2.1 文本处理
中文分词是关键内容之一。分词、词性标注以及命名实体识别,构成了文本分析的基础。若分词及词性标注的准确性无法得到保障,那么后续如话题建模、信息抽取、关键词分析等任务,其准确性将受到严重影响。分词,这一概念,大家应该都很熟悉,它指的是将文本内容切割成一个个独立的词语序列。例如,在幻灯片上展示的那句话,就被分成了包含标点的7个词语。
词性标注是对文本中每个词汇进行准确的词性分类。以图中的示例来看,汤姆这一名字被标记为专有名词。分词的方法主要有以下四种:首先,基于词典的方法,即词典中原有多少词汇,就能标注多少;其次,基于概率统计模型的方法,通过概率最大化来选择分词标注;再次,基于规则(语义)的方法进行分词;最后,则是将规则与概率相结合的分词方式。在处理汉语文本时,我认为有两个关键点需特别注意:首先,古代汉语与现代汉语之间存在着显著的差异;其次,对于现代汉语,目前市面上有多种分词工具可供选择,但将它们直接应用于古代文本却并不适宜。再者,需要明确自己的研究目标,是仅提取特定类型的实体,还是对文本中的所有词汇进行全面分析。若仅聚焦于某一特定时段内的小范围文本资料,针对特定的人物名称等实体进行识别,通过建立词汇表的方式,仍能获得较为满意的成效。
我这里整理了一些适用于现代汉语的分词软件,比如Jieba、LTP等codejock software,大家不妨都试一试,它们都十分实用,分词准确率相当高。由于古代汉语有其独特的语法规则、词汇选择和时代特征,因此构建一个高精度的统一分词工具具有一定的挑战性。尽管如此,众多学者都在努力攻克这一难题,例如荷兰莱顿大学的研究团队,由魏西德教授和何浩洋博士共同研发的在线标注工具就是其中的佼佼者。上传文本后,您可以选择多种词典进行辅助,以识别文本中的人名、地名、机构名等命名实体。例如,清华统计学研究中心的邓柯教授所领导的实验室研发的分词算法,其源代码已对外公开,适用于对古代汉语文本进行命名实体识别,表现良好。CBETA是由台岛法古文理学院推出的数字研究平台,其中一项功能便是为佛典提供自动分词服务。
2.2 网络建模
社会网络及其分析方法在数字人文领域得到了广泛应用,特别是在社会关系的图形化呈现方面。在应用过程中,有两点需要特别注意:首先,针对研究对象,需考虑使用何种图形来展示社会网络,例如是有向图还是无向图,是否包含权重,以及节点类型是否统一。其次,是关注网络中某个特定节点(即局部)的特性,还是整体图形所呈现出的特定模式。
其次,需思考是否从时间角度出发,是分析网络的静态形态,还是关注网络节点与边随时间的动态变化,是否存在稳定的或波动的拓扑结构。目前较为普遍且便捷的做法,是将网络的时间线划分为若干部分,这些部分可以依据年、月、日的细致程度进行划分。在这些划分出的时间区间内,可以对比各个子图之间的相似性和差异性。
网络中存在众多用于可视化的工具,例如Gephi等,同时,通过学习基础的编程语言,我们可以运用R语言中的功能模块,诸如、等,来制作出网络可视化的效果,这些方法具有很高的实用性。
2.3 话题分析
从数学的视角分析codejock software,一个话题可以被界定为一系列词汇的概率分布。话题模型的核心思想是,每篇文本都包含多个主题,而这些主题下又涵盖了若干词汇。在PPT上展示的那张图表,正是哥伦比亚大学的David Blei教授——LDA这一经典话题模型的提出者——在阐述LDA概念时频繁引用的一张图。在这幅图中,文本所涉及的主题并非直接呈现,而是通过主题所包含的词汇组合得以体现。
在话题分析的实际操作中,我们必须关注几个关键点。首先,文本的数量与话题建模的成效密切相关。若文本仅有十个,且每篇仅包含十个词汇,以此构建模型,其效果显然不尽人意。通常,遵循的一个普遍规则是,文本数量越多(至少达到一千篇),篇幅越长,建模的效果相对更佳。在确定话题数量的问题上,我们可以手动尝试在语料库中寻找话题的数量,但若话题数量达到三位数,操作起来确实会感到力不从心。通常有两种方法来选择合适的话题数量,其中一种是,通过结合信息熵与对数似然函数进行计算。然而,这一方法目前存在分歧,部分文献提到其计算得出的结果与人们的主观评价存在显著差异;此外,还有一种名为topic的方法,它用于评估同一话题中前几个词汇之间的相互关系。
第三点,需要考虑在计算话题之前是否对文本进行预处理。多数人认为,在去除停用词之后,效果会更为理想。然而,针对特定词性的选择,则需根据文本的具体内容来决定。常用的工具包括topic--tool和jsLDA。只要熟悉基本的命令行操作,仅用一两行语句便能够计算出文本中蕴含的话题。若需进行可视化呈现,可选用R语言工具,亦或是其他相关软件,它们均能实现话题的动态可视化展示,其效果均较为出色。
本文经专家本人确认授权后发表
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码