【python爬虫】爬取Bing词典的单词存到SQLite数据库

爬取Bing词典的单词

打算做一个单词相关的app自己用,那词典从何而来呢? 想到了用爬虫。爬哪里的数据呢? 个人比较喜欢微软的东西,所以打算从Bing翻译爬取单词

Bug

单词格式

Bing词典单词页面大概分了几个模块

音标phonetics

音标有美式usa和英式uk

翻译translations

翻译分词性和翻译

时态tenses

时态分 时态类型和单词 比如 过去分词:acquainted

近义词

词性、单词……

反义词

词性、单词……

Advanced E-C

E-C

例句Sample examples

源码

源码运行需要有一个SQLite型数据库test.db,里边有一个表dictionary 代码运行过程会在test.db中创建其他的表,比如phonetics音标表,translations翻译表……具体什么结构朋友们运行自己看吧 说到SQLite数据库,我推荐大家用SQLite Expert Professional这个可视化界面,当然也可以用navicat

再次说明,我的单词是从本地数据库SQLite中取得,以前还从文件中取过。

单词怎么来的?

从文章中取出来的。 我还有一个python代码,功能是读取txt文件去除其中的所有单词并去重,存到文件或SQLite数据库中。最初是下载了好多英文小说,但是取出的单词有些仅仅是字母的序列,没有任何意义。后来又网上找到了常用七千多个单词的txt和十万个单词的txt,从其中取出的单词一般就没有问题了。

单词提取代码

经验分享 程序员 微信小程序 职场和发展