如何构建高频关键词的共词矩阵?
以下是2025年构建高频关键词共词矩阵的系统方法,整合NLP技术与可视化分析:
一、数据预处理流程
语料清洗
使用正则表达式去除特殊符号/停用词(保留行业术语)
中文文本需先进行jieba分词+自定义词典补充
高频词筛选
通过TF-IDF算法提取TOP100关键词
过滤标准:词频≥5且文档频率≥3
二、矩阵构建技术方案
1. Python实现(Numpy优化版)
python
Copy Code
import numpy as np
from collections import defaultdict
def build_co_occurrence_matrix(docs, keywords):
vocab = {word:i for i,word in enumerate(keywords)}
matrix = np.zeros((len(vocab), len(vocab)))
for doc in docs:
words = [w for w in doc if w in vocab]
for i in range(len(words)):
for j in range(i+1, len(words)):
x, y = vocab[words[i]], vocab[words[j]]
matrix[x][y] += 1
matrix[y][x] += 1
return matrix
(代码综合自CSDN优化方案)
2. 工具替代方案
微词云:上传文本自动生成共词矩阵表,支持网络关系图导出
RAKE算法:通过停用词分割构建候选短语共现关系
三、可视化分析
Gephi网络图
节点大小=词频权重
边粗细=共现次数
热力图矩阵
mermaid
Copy Code
graph LR
A[关键词A] -->|共现12次| B[关键词B]
A -->|共现5次| C[关键词C]
B -->|共现8次| C
四、应用场景
SEO优化:识别"外贸建站"与"Google SEO"等强关联词组合
内容聚类:发现"液压机-汽车零部件-热处理"等技术话题链
text
Copy Code
注意事项:
1. 英文文本需处理时态/单复数变形
2. 行业术语词典需持续更新(如2025年新增"AI-CRO"等热词):ml-citation{ref="9,10" data="citationList"}
热门推荐
更多案例-
2024-03-20
案例展示九
网页设计,是根据企业希望向浏览者传递的信息(包括产品、服务、理念、文化),进行网站功能策划,然后进行···
-
2024-03-19
案例展示八
网页设计,是根据企业希望向浏览者传递的信息(包括产品、服务、理念、文化),进行网站功能策划,然后进行···
-
2024-03-19
案例展示七
网页设计,是根据企业希望向浏览者传递的信息(包括产品、服务、理念、文化),进行网站功能策划,然后进行···
-
2024-03-19
案例展示六
网页设计,是根据企业希望向浏览者传递的信息(包括产品、服务、理念、文化),进行网站功能策划,然后进行···