当前位置: 首页 > 后端技术 > Python

从英语课本中抽取单词制作新的词汇表

时间:2023-03-26 18:18:36 Python

英语课本抽取单词制作新的词汇表课本分解成词vim下:以非英文字符为界,截取所有文字:%s/\W/\r/g删除重复的词,排序:sortu删除包含数字的“词”部分:g/\d/d查英文词典生成词表Pythonimportpandasaspd#Readwordsanddictionarieswords=pd.read_csv('words.txt',encoding='UTF-8',names=['word'])dicts=pd.read_csv('dicts.txt',encoding='ANSI',names=['word','paraphrase'],sep='\t')#词和词典以词为Key求内集wordlist=pd.merge(dicts,words,on='word',how='inner')wordlist.set_index('word',inplace=True)#保存为新的词汇表wordlist.to_csv('wordlist.txt',sep='')