随着网络旅游平台的兴起、新的旅游方式的风靡,越来越多的人在进行游记的写作。网络旅游平台下的游记也成为了一种分类的方式,或者说一种可以被命名、被概括、有鲜明特色与固定程式的书写方式,游记也同样具有较为固定的“编排”方式,这种“编排”通常由两个相悖的部分交织而成:一方面是实用主义的信息与考量,如人均消费金额、酒店价格、门票价格、乘坐什么样的交通工具、耗费时间以及一些“小贴士”,另一部分是浪漫主义的想象,如引用的名人名言、出行前对于目的地的想象、为什么旅游、旅游途中的照片、对于即刻感受的描绘等内容。越是出色的游记,两个部分的融合就越是亲密无间。
这样编排方式所限定下的游记有一个显著特点是:游记是重信息、轻经验的,也即写作者在游记中所记录的内容很少会涉及到自身对于周围环境的解读、对于外界事物的观察、对于其他人的描绘,而是大量集中于信息的传递,尤其是时间、地点、人物、感情、价格等方面的信息。但游记中所描述的这些信息由与游客所去的景点或城市空间高度相关,当旅游成为产业的时候,某个特定的地点也因其周围基础设施的建设、旅游环境的设计、城市空间的规划等而具备相对稳定的特点。而通过对游记中关键词汇的分析,或许能够从另外一个视角来理解城市空间。
1. 问题意识与分析内容
问题意识:游客眼中的上海主要是什么样的、有什么特色?
分析内容:
(1)哪些景点的出现频率较高?这些出现频率较高的景点地理分布如何?
(2)特定景点经常与什么样的形容词、感情词、及景点共现?
2. 研究材料与工具
研究材料:300篇马蜂窝游记
研究工具:
(1)文本标记工具:MARKUS https://dh.chinese-empires.eu/markus/beta/
(2)数位人文研究平台:DocuSky http://docusky.org.tw
(3)数据可视化工具: Palladio http://hdlab.stanford.edu/palladio/
3. 研究思路
(1)数据挖掘与准备
a.使用后裔采集器收集马蜂窝旅游平台上的游记
b.将游记按时间顺序编号并处理文本
c.使用前300篇游记作为处理样本
(2)使用MARKUS标记相关词汇
a.使用DocuSky中的格式转换工具,将EXCEL表格中的文本转换成MARKUS可以标注的文本格式
b.搜索有关上海景点的词表
c.使用关键词标注上海景点
d.浏览文本,并通过手动标注与关键词标注的方式标注感情词、描述景点的形容词等其他词汇
e.生成XML文档并上传至DocuSky建库
(3)使用DocuSky统计景点出现频率
a.进入DocuSky档案库,查看档案
b.统计景点出现频率
(4)使用Palladio分析景点与形容词、感情词、其他景点的共现关系
a.使用MARKUS的“关键词助手”,搜索12组景点的左右缀词,左右缀词字数均为10字
b.将缀词按照景点名称建档保存
c.使用DocuSky的“标记与词条统计分析工具”进行分析
d.生成词频云图与统计表
e.保存统计表,并使用Palladio中的“Grahp”工具分析共现性
(5)使用DocuGis进行景点分布的呈现
a.选择出现频率较高的50组景点
b.使用XGeocoding工具获得景点的经纬度
c.使DocuGis进行呈现
1. 景点出现频率与热门景点的地理分布状况
(1)景点出现频率



(2)热门景点分布状况

2. 特定景点与形容词的共现
(1)特定景点共现词云图




(2)特定地点之间的共现性关系

1. 景点出现频率与热门景点的地图呈现
马蜂窝旅游平台上,一遍游记代表了一位游客的一段旅程,在这段旅程中可能会出现多个旅游景点,同时每个景点可能会在游记中出现多次。同时,游记中的照片通常会包含旅游地点的名字,数据收集的过程中,采集器也同时收集了这些照片中所提到的旅游景点。
由于游客的游记书写与数据采集的特点,所以“出现该景点的游记数量”可以约等于“在马蜂窝的用户中,去过该地的用户数量”,而“总次数”则是“样本游记中提及该景点的数量”,但由于“总次数”的计数中也包含了很多照片而非正文中的提及次数,故而在一定程度上也可以反映游客在该景点的拍照数量。
(1)游客常去景点

如上图所示,游客最常去的二十个景点分别是:外滩、东方明珠、南京路步行街、迪士尼、城隍庙、豫园、田子坊、陆家嘴、黄浦江、人民广场、南京东路、浦东新区、新天地、武康路、上海野生动物园、上海科技馆、顾村公园、朱家角、外白渡桥、环球金融中心。
(2)被提及次数最多的景点

如上图所示,被提及次数最多的景点是:外滩、迪士尼、东方明珠、南京路步行街、城隍庙、田子坊、豫园、上海野生动物园、陆家嘴、辰山植物园、古猗园、武康路、黄浦江、顾村公园、南京东路、人民广场、上海科技馆、嘉定紫藤园、共青森林公园、环球金融中心。
其中出现次数最多的前七个景点,即外滩、迪士尼、东方明珠、南京路步行街、城隍庙、田子坊、豫园,也是游客最常去的前七个景点。这也与人们通常印象中的“上海著名旅游景点”相符。
(3)“总次数”与“出现该景点的游记数量”比

如上图所示,平均比较高的定点分别是:青西郊野公园、古猗园、共青森林公园、浦江郊野奇迹、步高里、横沙岛、辰山植物园、嘉定紫藤园、迪士尼、东方绿舟、上海野生动物园、上海影视乐园、长兴岛、嘉定孔庙、芦潮港、顾村公园、老街、1933老场坊、佘山国家森林公园、环球金融中心。
以上景点中,除了迪士尼、上海野生动物园、顾村公园以及环球金融中心外,均未在“游客常去景点”中出现过。
而平均比较高的前十个景点中,除了迪士尼之外,均与自然景物联系密切,即青西郊野公园、古猗园、共青森林公园、浦江郊野奇迹、步高里、横沙岛、辰山植物园、嘉定紫藤园。这些景点通常面积较大,游玩都需要较多的时间,而且可能是常年居住在上海的人较为青睐的游玩地点。
(4)热门景点分布图

上图是“出现该景点的游记数量”最高的五十个景点在地图上的分布,可以看出这些景点主要是集中在黄浦区,其他区内也有零散分布。
2. 特定景点与其他词汇的共现
(1)12个景点的关系图

在外滩、南京路步行街、东方明珠、城隍庙、陆家嘴、顾村公园、田子坊、武康路、迪士尼、朱家角、人民广场、上海野生动物园12个景点中,东方明珠、陆家嘴、外滩三个景点的分布较近,南京路与城隍庙的分布较近、武康路与田子坊的分布较近,而迪士尼、上海野生动物园、朱家角、人民广场以及顾村公园则没有特别相邻的景点,尤其是朱家角、顾村公园、上海野生动物园三者较为离散。
(2)东方明珠、陆家嘴与外滩
三者在地图上的分布较近,东方明珠本身即位于陆家嘴,又与外滩建筑群隔黄浦江相望。与这三个景点共现度较高的景点有:黄浦江、环球金融中心、上海历史陈列馆等,同时也有高楼、繁华、灯火、地标等描述性词汇。
(3) 南京路与城隍庙
与两者都共现的景点有外滩、南京东路、人民广场、博物馆等,从这些地名也可以大致看出游客的旅游路线或运动轨迹。同时也有一些形容词与两者共现,如“老上海”、“著名”、“传统”等。
(4) 武康路与田子坊
与二者所共现的景点较少,更多是一些形容词,如“文艺”、“老式”、“年代感”、“历史”、“网红”以及“打卡”等。