- 系列
- 一个语言的诞生
常见的两种物理处理器指令架构有:复杂指令集(CISC)、简单指令集(RISC)。前者的代表是 Intel x86 处理器,后者的代表有 MIPS、SPARC 和 ARM。
CISC 指令集的指令长度不等,多种寻址方式
看过微软 .net coreclr 的源代码后,觉得 Lua、PHP 和 Python 的垃圾回收代码与之相比简直就是个玩具。而 Hotspot JVM 的垃圾回收算法更加复杂。
常见的垃圾回收技术能大致分成:引用计数、标记清理、标记缩并和节点复制几种。高级的技术有垃圾分代收集、渐进及并发收集、分布式垃圾收集。复杂的垃圾回收算法会根据对象的性质和内存的使用情况来选择不同的垃圾回收算法。
……
那些不怎么“动态”的语言,比如C#和JAVA,一般都会把数据类型分成“值”和“引用”,值类型是分配在栈上的,引用类型是分配在堆上。而“动态”的语言,比如“PHP”和“Python”所有的数据都是动态分配在堆上的。这么做的缺点一是浪费内存,二是访问慢。浪费内存是因为PHP和Python的对象都经过重度的封装,一个简单的整型经过封装后的大小是原来的4、5倍。访问慢的原因是每次创建一个对象都要申请一次内存,而且访问对象必须通过指针,这样一搞CPU的1、2级缓存根本就没有用了嘛。
……
哈希表是动态脚本语言的基石。动态语言中,全局变量表、全局字符串表、对象虚函数表、元数据表皆为哈希表。欲实现语言,则必先实现哈希表。
哈希表原理很简单,不再赘述。不同语言实现的哈希表主要区别在于处理碰撞的机制不同。一种叫“Separate chaining”,PHP的哈希表使用了这种方式;另一种叫“Open addressing”,Lua的哈希表使用的是这种。前者发生碰撞会创建一个新的bucket,然后用链表将所有碰撞的bucket链接起来;而后者在现有的buckets中找到一个空的bucket来存放发生碰撞的key-value pair。我选择的是后一种方式,一方面是节约内存,另一方面还能节省GC开销。
……
一直琢磨着自己实现一个脚本语言。因为懒,直到最近才动手。
构想中的语言语法类似ActionScript,支持GC、闭包、Lambda表达式、协程、尾递归优化、迭代器/生成器、允许(编译期)强类型绑定的可嵌入式动态脚本语言。基础类型支持NULL、布尔型、32位整型、64位长整型、双精度浮点数、元组、列表、字典、闭包、协程、对象、用户数据等。
……