18556717071
NEWS
外贸网站建设、外贸网站制作、外贸网站设计等相关资讯

如何构建高频关键词的共词矩阵?

日期:2025-06-08 访问:0次 作者:admin

以下是2025年构建高频关键词共词矩阵的系统方法,整合NLP技术与可视化分析:


一、数据预处理流程


语料清洗‌


使用正则表达式去除特殊符号/停用词(保留行业术语)

中文文本需先进行jieba分词+自定义词典补充


高频词筛选‌


通过TF-IDF算法提取TOP100关键词

过滤标准:词频≥5且文档频率≥3

二、矩阵构建技术方案

1. ‌Python实现(Numpy优化版)‌

python

Copy Code

import numpy as np

from collections import defaultdict


def build_co_occurrence_matrix(docs, keywords):

    vocab = {word:i for i,word in enumerate(keywords)}

    matrix = np.zeros((len(vocab), len(vocab)))

    

    for doc in docs:

        words = [w for w in doc if w in vocab]

        for i in range(len(words)):

            for j in range(i+1, len(words)):

                x, y = vocab[words[i]], vocab[words[j]]

                matrix[x][y] += 1

                matrix[y][x] += 1

    return matrix



(代码综合自CSDN优化方案)


2. ‌工具替代方案‌

微词云‌:上传文本自动生成共词矩阵表,支持网络关系图导出

RAKE算法‌:通过停用词分割构建候选短语共现关系

三、可视化分析


Gephi网络图‌


节点大小=词频权重

边粗细=共现次数


热力图矩阵‌


mermaid

Copy Code

graph LR

    A[关键词A] -->|共现12次| B[关键词B]

    A -->|共现5次| C[关键词C]

    B -->|共现8次| C


四、应用场景

SEO优化‌:识别"外贸建站"与"Google SEO"等强关联词组合

内容聚类‌:发现"液压机-汽车零部件-热处理"等技术话题链

text

Copy Code

注意事项:

1. 英文文本需处理时态/单复数变形

2. 行业术语词典需持续更新(如2025年新增"AI-CRO"等热词):ml-citation{ref="9,10" data="citationList"}