数据结构论坛

首页 » 分类 » 问答 » R软件中的数据结构类型
TUhjnbcbe - 2021/5/18 20:14:00

值类型与值对象

我们都知道,Java语言中的类型分为两种:基本类型(primitivetype)和引用类型(referencetype),这不仅是语言层面的特性,也由JVM内在实现支持[1]。其中,基本类型指是的8种基本的数值类型:boolean、byte、char、int、short、long、float、double;而引用类型,指的是对程序中创建的对象的引用,可以理解为指向对象的指针或句柄。Java号称一切皆是对象,很可惜,这并不是事实,基本类型就不是对象。那么,值类型又是什么呢?在你编写程序时,是否经常会遇到一些需要表达数值或其它类型值的场景?比如复数、向量、颜色值、坐标点、时间、日期等。这些值通常无法用基本类型来表达,一则它可能是多个属性构成,二则针对值的一些操作或逻辑我们希望跟数据封装在一起,比如向量的点乘、叉乘、取模等。但如果使用对象来表达同样也会产生很多问题:?相等性比较对这些对象的比较是有意义的,但是默认情况下Java对象比较的是地址,因此直接比较的结果通常不是我们期待的行为:?可变性对引用类型的赋值、方法传参等会生成多个引用,这些引用都指向同一个对象。这在一些情况下是没有问题的,但在某些场景下可能导致对象发生预期之外的变化。如:上面的case比较简单,只要对Date的特性有些了解就不会犯这样的错误。但如果对象经过多次传递,使用的位置离创建的位置很远的话,我们就未必能这么谨慎了。这种问题,MartinFlower称之为aliasingbug[2]。?性能上面两点其实都容易解决,只是每个实现需要写很多样板代码。需要比较的对象只要重写equals()和hashCode方法即可;对于可变性问题,可以将对象设计为不可变对象,在修改时返回一个深拷贝副本来供客户端操作。满足上述两种条件的对象,我们可以称之为值对象。那么,通过“对象”来实现我们对这种数据结构的诉求,是否是最好的方式呢?我们知道,Java中的对象通常是分配在堆上,通过引用来进行操作,不过这不是必然的。JVM有一项技术叫逃逸分析[3],可以在运行时分析出一个方法中创建的对象是否会逃逸到方法或线程外部,如果没有逃逸,可以进而执行一些编译优化,比如栈上分配、同步消除、标量替换等。如果一个对象被分配到栈上,就意味着当方法结束后就会自动销毁,省去了GC的开销,这对于优化应用内存占用和GC停顿时间来说,无疑是个好消息;而标量替换意味着压根就不会创建对象,相关数据被替换成基本类型数据直接分配到栈上,不仅省去了对象操作相关开销,也更利于CPU高速缓存或寄存器进行优化。对于值对象来说,一般极少有共享的需求,假如能直接在栈上进行分配,那么将省去对象的存储、访问和GC的成本,对程序性能非常有利。不过进行逃逸分析也是有成本的,如果在语言层面直接支持的话,就可以进一步减少编译时分析的开销。不过,目前Java语言还做不到这一点。当一门编程语言为上述类型的数据结构提供内在支持时,该类型可称之为值类型。而对于满足上述诉求的实例,无论是基于值类型实现还是普通对象类型实现,我们都可以称之为值对象。

不同编程语言对值类型的支持

?Java上面已经说过,Java语言层面原生并不支持值类型。不过,它提供了许多具有值类型特点的类,比如:8个基本类型对应的封装类、String、BigDecimal等,这些类的共同特点之一就是不可变性,同时也都对比较操作做了实现,因此都可看作值对象。另外一个应该设计为不可变、但实际可变的类是java.util.Date类,也因为如此,Date类饱受诟病。在Java8中官方正式推出新的时间/日期API,试图取代Date相关接口,这些新的类全部被设计成了不可变类。对于Java是否应该从语言层面支持值类型的讨论由来已久,比如这篇JEP提案[4]早在时就提议支持值对象;oracle论坛上的这篇博客[5]也对如何实现值对象做了探讨。最近有两篇提案,一个提出了PrimitiveObject[6]的概念,可算是值类型的一种实现;另外一篇提议基于PrimitiveObject统一基本类型与对象类型[7]。不过,这两个提案仍处于Submitted阶段(JEP提案从提出到发布的流程有几个阶段,可以看这里[8]Processstates一节),能否被采纳、实现乃至发布到正式版本,还是未知之数。?C++C++中没有值对象这一概念,不过在创建对象时,允许开发者选择在堆上还是在栈上创建。比如下面的示例代码,直接通过Aa;的方式创建的对象是分配在栈上的,而通过newA();的方式创建的对象分配在堆上,并且返回一个指向该对象的指针。在栈上创建的对象在函数执行结束时会自动销毁。更进一步,对A类型的对象进行赋值(34行)或方法传参(38行)时,会产生一次拷贝操作,生成一个新的对象,新对象的作用域分别为当前函数和被调函数,相应函数执行结束时也会被销毁。而对指针类型的对象进行赋值(43行)和方法传参(45行)时,尽管创建了新的指针对象,新的指针仍然指向相同的对象。可见C++中对类类型和指针类型的使用,分别具有值类型和引用类型的一些特点。?C#C#语言中是明确的提出了值类型[9]这一概念的,struct就是一种值类型。MSDN文档中说明:“默认情况下,在分配中,通过将实参传递给方法并返回方法结果来复制变量值。”在赋值操作时,也同样会对对象进行拷贝。如下面的代码所示,我们可以看到将p1赋值给p2,p2修改状态后,p1中的数据仍然保持不变。另外,在C#中值类型是分配在栈上的,值类型与引用类型之间可以进行转化,称之为装箱和拆箱,上面的JavaPrimitiveObject提案似乎也借鉴了C#的设计思想。?其它语言其它编程语言对值类型的支持不尽相同。以函数式编程为例,大多数函数式编程语言中变量都是不可变的,因此在函数式语言中定义的数据结构都可看作是值类型。

DDD中的值对象

尽管Java并没有对值对象提供语言层面的类型支持,但这并不妨碍我们在自己的代码中创建事实上的值对象。实际上值对象[10]的定义可以并不仅限于类似向量、颜色值、坐标点这样一些使用范围。MartinFlower认为,值对象在编程中的作用被极大的忽视了,善于值对象可以非常有效的简化你的系统代码;VaughnVernon在《实现领域驱动设计》一书中甚至说,我们应该尽量使用值对象建模而不是实体对象。实际上,当提到“值对象”这个概念时,最常见的就是在DDD(领域驱动设计)这个上下文中。EricEvans在《领域驱动设计软件核心复杂性应对之道》一书中提出了实体(Enity)与值对象(ValueObject)的概念。VaughnVernon在《实现领域驱动设计》中做了进一步阐述。在DDD中,实体代表具有个性特征或需要区分不同个体的对象,它具有唯一标识和可变性。对于实体对象,我们首要考虑的并不是其属性,而是能代表其本质特征的唯一标识,无论对象属性如何变化,它都是同一个对象,它的生命周期具有连续性,甚至对对象进行持久化存储然后基于存储来重建对象,它仍然是同一个对象的延续。而值对象,它通常是一些属性的集合,是对对象的度量和描述。值对象应该是不可变的,当度量和描述改变时,可以用另外一个值对象替换。值可以跟其它值对象进行相等性比较。可以看到,在DDD中的值对象的定义跟我们上面的描述非常相似。《实现领域驱动设计》对于值对象的阐述非常详尽,想要进一步了解的可以阅读该书第6章内容。

使用值对象的好处

因为值对象通常设计为不可变对象,因此值对象的好处首先就是不可变对象的好处。另外在支持值类型的语言中,值对象的创建、操作、销毁会有更好的性能。?线程安全在Java编程语言中,出现线程安全问题的必要条件有两个:对象状态被多个线程共享;对象状态可变。因此解决线程安全问题的思路也主要从几个方向出发:无状态;状态不可变;不共享状态;通过同步机制来序列化对象状态的访问。而不可变对象状态是不变的,因此是线程安全的,可以放心应用到并发环境中,无需额外的同步机制在多个线程中共享。?避免AliasBugAliasingbug的概念上文已经讲过,主要是指多个对象的引用被分享到多个环境中后,在某个环境的改动会导致从另外一个环境中看到预期之外的变化。最近我们的项目中就遇到这样一个bug,某个对象会被缓存到本地内存中,取出对象后,返回给UI层的某个属性值需要根据请求环境做一些判断与变更,由于未做防御性拷贝,导致变化污染了缓存对象,后面的请求出现错误的结果。而不可变对象不允许修改属性值,任何状态的变化必须通过创建副本来实现,因此可以有效的避免该类bug。?简化逻辑复杂程度

任何使用到值对象的地方,它的状态始终是合法的。通常不可变对象会在创建时进行自校验,因此一旦创建完成,它始终处于合法有效的状态之中,没有任何行为能使破坏它的一致性状态。

可以安全的共享给其它对象、其它线程,而不用担心状态发生变化,简化了代码维护者对流程、逻辑的理解。

可以作为构件简化其它对象的状态管理。当其它对象使用不可变对象作为其构件时,由于不可变对象自身状态不变,使得它在被传入和获取时不需要进行防御性拷贝,简化了对象状态的跟踪。?使你的设计更清晰值对象与基础类型数据相比,富含业务语义,在任何使用到它的地方,其含义一看便知。它还可以封装跟数据相关的业务逻辑,避免为了复用代码而创建util类,更符合面向对象的思想。?可比较、可以被集合类使用相信这一点不需要再说明了。

值对象Java实践

那么,如何在我们的代码中创建不可变对象呢?我们分为部分内容来讲,第一部分是指导思想,第二部分是如何进行实践。?值对象创建指南创建不可变对象在《EffectiveJava第三版》第17条最小化可变性一节中,将不可变类的设计归纳为五条原则:不要提供修改对象状态的方法确保这个类不能被继承把所有属性设置为final把所有的属性设置为private确保对任何可变组件的互斥访问第2、3、4点很容易理解。对第1点,也就是说对任何涉及状态变更的操作,都不能直接修改原始对象的状态,而是通过创建对象的副本,比如下面对复数对象的“加”操作:对于第2点,确保类不能被继承,除了将类设为final,还有一种方式是将构造方法设为private,并向外提供静态工厂方法来创建实例。而第5点的意思是,“如果你的类有任何引用可变对象的属性,请确保该类的客户端无法获得对这些对象的引用”。举例而言,下面的Period类,尽管满足上面的1~4点,但由于其状态变量中包含了引用对象,引用对象通过构造方法与访问方法与外界共享,导致它的状态也会发生变化(第7行、第10行):一个解决方案是,不使用Date对象,而是使用Java8中提供的LocalDate对象,该对象是不可变的。另一种方案,在引用共享的位置对对象进行拷贝。由此可以延伸出:

尽可能使用不可变对象作为构建对象的组件;

必要时对构造方法参数和方法返回值进行防御性拷贝:(第6、7、14、18行)

这里还要注意几点:

进行防御性拷贝应在参数检查之前执行,以避免参数检查可拷贝期间受其它线程对参数更改的影响。

必要时,对实现serializable接口的类进行反序列化重写readObject方法,以避免字节码攻击。对于这一点,简单来讲就是由于Java对象的反序列默认通过readObject方法重建对象,而不会调用我们提供的构造方法,这使得攻击者可以通过修改字节码数据,从而绕开构造方法中的参数校验的防御性拷贝。具体可以看《EffectiveJava第三版》第88条保护性的编写readObject方法。

当构造方法参数过多时,可以借助builder设计模式这一点可参照《EffectiveJava第三版》第2条。这里不展开了。尽可能重用实例由于不变对象在修改数据时会进行拷贝,因此它的一个主要问题就是可能会创建过多的对象,这会带来性能问题。一个方案是,对可能会经常用到的对象提供公共的静态final常量。这一点,既可以通过公共的常量字段来实现,也可以通过静态工厂方法来实现。相等性判断需要重写equals()和hashCode()方法。至于为什么以及如何实现,相信大家都知道了,就不展开讲了。创建即合法这一点也很好理解,既然值对象是不可变的,那么创建完成之后没有任何方法可以改变的状态,因此必须在构造时进行必要的合法性校验,使创建出来的对象满足其所有的不变性条件(Invariants)。?如何实现手写代码有了指导思想,如何实现其实就一目了然了。只不过,要实现不可变对象,需要创建大量的样板代码,比如equals()和hashCode()方法的重写、builder模式的创建等等。这些重复代码不仅写起来费力,而且会使类的核心业务逻辑隐藏在大量的样板代码中,降低了类的可读性。因此,最好实现方式还是借且代码生成工具。基于代码生成工具(i)lombok

value注解lombok库的

value注解可以很方便的帮我们生成一个不可变的值对象类型。如:如果我们使用IntellijIDEA工具,并且安装了lombok插件,可以在源代码处右键-Refactor-Delombok-Alllombokannotations,来查看lombok注解处理器处理过后生成的字节码对应的源代码大概是什么样子。这里有一点需要注意,lombok工具对于引用类型不会帮我们做防御性拷贝,因此假如我们的构成组件包含可变对象,需要我们自己去做防御性拷贝。做法很简单,只要提供我们自己的构造方法和get方法,lombok就不会再帮我们生成对应的方法。如果我们要对参数进行合法性校验,也同样需要提供自定义的构造方法,在构造方法中添加校验逻辑。(ii)lombok

Builder注解lombok的

Builder注解非常强大,可以应用在类上、构造方法上,也可以应用在静态工厂方法上。在构建时未传入的参数为该类型的默认值。同样的,如果你需要校验,可提供自定义的全参数构造方法。上面我们提到过,对值对象的实例尽可能的重用。如果我们使用静态工厂方法,就可以实现这一点:注意我们把

Builder注解放在了of()静态工厂方法上面,同时将构造方法设为private。通过查看生成的代码,发现builder的build()方法直接调用了该工厂方法。(iii)lombok

With注解

Value注解会将生成的类设为不可变,如果我们需要修改对象的状态,怎么办?上面说过,修改状态需要创建拷贝。使用

With注解可以很方便的做到这一点。(iv)与mapstruct配合使用在进行领域驱动设计时,我们经常会在不同的层或者模块之间使用不同的对象,比如持久化层使用跟数据库纪录进行映射的DO对象,而在领域层使用更具有业务意义的领域对象。如何在对象之间进行属性的拷贝呢?可以有很多种选择,我最常用的是mapstruct工具,该工具非常强大,不仅支持不同名称、不同类型字段的映射,还可以使用表达式、方法调用等。对于它我们不做过多介绍,有兴趣可以看这里[11]。在进行属性拷贝时,通常基于无参构造函数创建对象,然后设置对应属性。但是上面的类,我们在实现不可变特性时,不再提供无参构造函数。如何让mapstruct支持这种类呢?恭喜你,只要加了

Builder注解,什么都不需要做,mapstruct已经内置提供了对lombok

Builder注解的支持。至于使用其它手段的属性拷贝,我暂时没有去了解,熟悉的同学可以参与讨论。(v)json反序列化我们知道,当使用json反序列化工具生成自定义类型的实例时,通常也是使用该类型的默认无参构造方法。假如没有该构造方法,运行时就会抛出异常。但是,我们不希望提供该构造方法来破坏对象的不可变性。怎么办呢?这里又要祭出lombok的另一法宝,

Jacksonized注解。加上这一注解后,我们的不可变对象就可以被jacksonjson库顺利的创建出来了(需要跟

Builder一起使用)。其实这个注解没什么复杂之处,能实现这点得益于jacksonjson库本身对builder模式的支持,

Jacksonized注解只是按照jacksonjson的相关要求生成相关的builder类和方法而已。目前fastjson库似乎不支持使用builder模式来创建对象,不知道后面有没有相关的计划。

总结

本文通过一些简单的案例讨论了值类型与值对象的概念,并且探讨了不同语言对值类型的支持情况。然后对于在Java语言中如何创建值对象给出了一些指导原则,并介绍了一些可用于快速实现值对象的工具。值对象的使用是一种非常有用的编程技巧,可以使我们的业务语义更加清晰,并有效的简化代码逻辑的复杂程度。因此,建议大家在自己的代码中多尝试使用值对象,相信在这个过程中必然更有更深刻的认识和感受。相关链接

[1].

1
查看完整版本: R软件中的数据结构类型