原创文章,转载请注明: 转载自工学1号馆
这篇文章主要下载一些规模适中的数据集,为后面的hadoop实战做数据准备
最近在看《Hadoop in Action》这本书,作者: Chuck Lam,中文版翻译为《Hadoop实战》,是一本比较基础的关于hadoop但偏重于实战的好书,本打算买一本中文版的,但是看到书评得知翻译很烂,于是乎就直接下载了英文版的电子书来仔细研究实战一番。
书中的前三章主要介绍hadoop的原理以及安装方法,比较基础,适合hadoop初学者学习,这里我直接从第四章开始记录我的学习过程与一些思考
http://www.nber.org/patents/ 上有专利相关的s实验测试数据。主要下载两个数据集;
专利引用数据集
http://www.nber.org/patents/acite75_99.zip
压缩后acite75_99.txt的大小:251MB
http://www.nber.org/patents/apat63_99.zip
压缩后apat63_99.txt的大小:225MB
wu@ubuntu:~$ wget http://www.nber.org/patents/acite75_99.zip wu@ubuntu:~$ wget http://www.nber.org/patents/apat63_99.zip
解压缩:
wu@ubuntu: unzip acite75_99.zip wu@ubuntu: unzip apat63_99.zip
查看每个数据集的行数:
wu@ubuntu: cat cite75_99.txt | wc -l 16522439 wu@ubuntu: cat apat63_99.txt | wc -l 2923923
专利引用数据有 16522439 条。专利描述有 2923923 条。
查看acite75_99的前5条数据:
wu@ubuntu: head -n 5 cite75_99.txt
“CITING”,”CITED”
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
上面显示的是专利之间的引用关系。每行表示一条数据。前面的数字是专业号,后面是被引用的专利号。所以上面的数据可以看到,3858241 引用了 其它的四个专利。当然后面还有很多数据,这其实就是一个多对多的关系。
查看apat63_99的前5条数据:
wu@ubuntu: head -n 5 apat63_99.txt
“PATENT”,”GYEAR”,”GDATE”,”APPYEAR”,”COUNTRY”,”POSTATE”,”ASSIGNEE”,”ASSCODE”,”CLAIMS”,”NCLASS”,”CAT”,”SUBCAT”,”CMADE”,”CRECEIVE”,”RATIOCIT”,”GENERAL”,”ORIGINAL”,”FWDAPLAG”,”BCKGTLAG”,”SELFCTUB”,”SELFCTLB”,”SECDUPBD”,”SECDLWBD”
3070801,1963,1096,,”BE”,””,,1,,269,6,69,,1,,0,,,,,,,
3070802,1963,1096,,”US”,”TX”,,1,,2,6,63,,0,,,,,,,,,
3070803,1963,1096,,”US”,”IL”,,1,,2,6,63,,9,,0.3704,,,,,,,
3070804,1963,1096,,”US”,”OH”,,1,,2,6,63,,3,,0.6667,,,,,,,
上面的数据是一个专利的描述。各字段分别是:PATENT 专利号,GYEAR 批准年,GDATE 批准日,APPYEAR 申请年,COUNTRY 第一发明人国家,POSTATE 第一发明人所在州(如果国家为美国),ASSIGNEE 专利权人,ASSCODE专 利权人类型,CLAIMS 声明数目,NCLASS专利类型
Comments