python – csv文件上的PySpark distinct().count()
发布时间:2020-10-19 05:49:44 所属栏目:Python 来源:互联网
导读:我是新手,我正在尝试根据csv文件的某些字段创建一个distinct().count(). Csv结构(没有标题): id,country,type01,AU,s102,AU,s203,GR,s203,GR,s2 加载.csv我输入: lines = sc.textFile(test.txt) 然后对行返回3的不同计数如预期: lines.distinct().count()
|
我是新手,我正在尝试根据csv文件的某些字段创建一个distinct().count(). Csv结构(没有标题): id,country,type 01,AU,s1 02,s2 03,GR,s2 加载.csv我输入: lines = sc.textFile("test.txt")
然后对行返回3的不同计数如预期: lines.distinct().count() 但我不知道如何基于让我们说id和国家来做出明显的计数. 解决方法在这种情况下,您将选择要考虑的列,然后计数:sc.textFile("test.txt")
.map(lambda line: (line.split(',')[0],line.split(',')[1]))
.distinct()
.count()
这是为了清楚起见,您可以优化lambda以避免调用line.split两次. (编辑:长春站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 这是我见过最牛逼,最全面的Beautiful Soup 4.2 教程!没有
- python – 如何在selenium webdriver中使用变量通过xpath查
- 在Python中对多个列上的numpy数组进行排序
- python – 替换numpy数组中的元素,避免循环
- python – 向Numpy ndarray添加元数据注释
- python – 递归地按键对嵌套的OrderedDict进行排序
- python – 如何找到可能有重复数字的3个列表之间的区别
- 有时PyDev不会将.py文件识别为python源文件
- python – 使用BeautifulSoup在关闭body之前插入元素
- python – 将临时表与SQLAlchemy一起使用
推荐文章
站长推荐
热点阅读
