python生成器表达式和列表解析 - 哈喽比特

1025次阅读 | 发布于6年以前

绝大多数情况下，遍历一个集合都是为了对元素应用某个动作或是进行筛选。如果看过本文的第二部分，你应该还记得有内建函数map和filter提供了这些功能，但Python仍然为这些操作提供了语言级的支持。


    (x+1 for x in lst) #生成器表达式，返回迭代器。外部的括号可在用于参数时省略。 
    [x+1 for x in lst] #列表解析，返回list

如你所见，生成器表达式和列表解析（注：这里的翻译有很多种，比如列表展开、列表推导等等，指的是同一个意思）的区别很小，所以人们提到这个特性时，简单起见往往只描述成列表解析。然而由于返回迭代器时，并不是在一开始就计算所有的元素，这样能得到更多的灵活性并且可以避开很多不必要的计算，所以除非你明确希望返回列表，否则应该始终使用生成器表达式。接下来的文字里我就不区分这两种形式了：）

你也可以为列表解析提供if子句进行筛选：


    (x+1 for x in lst if x!=0)

或者提供多条for子句进行嵌套循环，嵌套次序就是for子句的顺序：


    ((x, y) for x in range(3) for y in range(x))

列表解析就是鲜明的Pythonic。我常遇到两个使用列表解析的问题，本应归属于最佳实践，但这两个问题非常典型，所以不妨在这里提一下：

第一个问题是，因为对元素应用的动作太复杂，不能用一个表达式写出来，所以不使用列表解析。这是典型的思想没有转变的例子，如果我们将动作封装成函数，那不就是一个表达式了么？

第二个问题是，因为if子句里的条件需要计算，同时结果也需要进行同样的计算，不希望计算两遍，就像这样：


    (x.doSomething() for x in lst if x.doSomething()>0)

这样写确实很糟糕，但组合一下列表解析即可解决：


    (x for x in (y.doSomething() for y in lst) if x>0)

内部的列表解析变量其实也可以用x，但为清晰起见我们改成了y。或者更清楚的，可以写成两个表达式：


    tmp = (x.doSomething() for x in lst)
    (x for x in tmp if x > 0)

列表解析可以替代绝大多数需要用到map和filter的场合，可能正因为此，著名的静态检查工具pylint将map和filter的使用列为了警告。