Scala调用updateStateByKey比Java简单太多
使用Scala的写法调用有状态转换算子updateStateByKey方法,直接传函数
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
object StreamingWordCount {
  def main(args: Array[String]): Unit = {
    // 设置将来访问 hdfs 的使用的用户名, 否则会出现全选不够
    System.setProperty("HADOOP_USER_NAME", "chen")
    // 1. 创建SparkStreaming的入口对象: StreamingContext
    //Seconds(5): 表示事件间隔5秒
    val conf = new SparkConf().setAppName("StreamingWordCount").setMaster("local[*]")
    val ssc = new StreamingContext(conf, Seconds(5))
    // 2.设置检查点: 使用updateStateByKey必须设置检查点,checkpoint文件保存在当前目录下
    ssc.checkpoint("checkpoint")
    // 3. Socket方式创建一个DStream
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop103", 9999)
    // 4. 切分成一个个的单词
    val words: DStream[String] = lines.flatMap(_.split("\W+"))
    // 5. 将单词拼成元组
    val wordAndOne: DStream[(String, Int)] = words.map((_, 1))
    /*
    6.求新的阶段总数和上一个阶段进行求和操作
      参数1(seq): 在当前阶段 一个新的key对应的value组成的序列  在我们这个案例中是: 1,1,1,1...
      参数2(option): 上一个阶段 这个key对应的value
      (0 /: seq)(_ + _)等同于seq.foldleft(0)(_ + _)使用函数的左折叠求和,此处也可以用seq.sum求和
    */
    val stateDS: DStream[(String, Int)] = wordAndOne.updateStateByKey[Int](
      (seq: Seq[Int], option: Option[Int]) => Some((0 /: seq)(_ + _) + option.getOrElse(0))
    )
    // 7. 结果打印在控制台
    stateDS.print
    // 8. 启动任务开始计算
    ssc.start()
    ssc.awaitTermination()
  }
}
				       
			          上一篇:
			            JS实现多线程数据分片下载 
			          
			          下一篇:
			            Windows 环境安装Scala详情 
			          
			        