前言
最近线上遇到一个问题:在消费kafka
消息的时候如果长时间(大概半天到一天的时间
)队列里没有消息就可能再也消费不了。针对这个问题我们反复调试多次。线下模拟,调整代码,但貌似还是没有找到原因。但是只要重启消费进程就又可以继续消费。
解决方案
由于线上业务非常依赖kafka
的消费,但一时半会也没有找到原因,所以最后只能想一个临时的替换方案:
基于重启就可以消费这个特点,我们在每次消费的时候都记下当前的时间点,当这个时间点在十分钟之内都没有更新我们就认为当前队列中没有消息了,就需要重启下消费进程。
既然是需要重启,由于目前还没有上分布式调度中心
所以需要crontab
来配合调度:每隔一分钟会调用一个shell脚本
,该脚本会判断当前进程是否存在,如果存在则什么都不作,不存在则启动消费进程。
具体实现
消费程序:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107
|
public class KafkaMsgConsumer { private static final Logger LOGGER = LoggerFactory.getLogger(KafkaMsgConsumer.class);
private static final int CORE_POOL_SIZE = 4; private static final int MAXIMUM_POOL_SIZE = 4; private static final int BLOCKING_QUEUE_CAPACITY = 4000; private static final String KAFKA_CONFIG = "kafkaConfig"; private static final ExecutorService fixedThreadPool = new ThreadPoolExecutor(CORE_POOL_SIZE, MAXIMUM_POOL_SIZE, 0L, TimeUnit.MILLISECONDS, new ArrayBlockingQueue<Runnable>(BLOCKING_QUEUE_CAPACITY));
private static AtomicLong LAST_MESSAGE_TIME = new AtomicLong(DateUtil.getLongTime());
private static MsgIterator iter = null; private static String topic;
static { Properties properties = new Properties(); String path = System.getProperty(KAFKA_CONFIG); checkArguments(!StringUtils.isBlank(path), "启动参数中没有配置kafka_easyframe_msg参数来指定kafka启动参数,请使用-DkafkaConfig=/path/fileName/easyframe-msg.properties"); try { properties.load(new FileInputStream(new File(path))); } catch (IOException e) { LOGGER.error("IOException" ,e); } EasyMsgConfig.setProperties(properties);
}
private static void iteratorTopic() { if (iter == null) { iter = MsgUtil.consume(topic); } long i = 0L; while (iter.hasNext()) { i++; if (i % 10000 == 0) { LOGGER.info("consume i:" + i); } try { String message = iter.next(); if (StringUtils.isEmpty(message)) { continue; } LAST_MESSAGE_TIME = new AtomicLong(DateUtil.getLongTime());
LOGGER.debug("msg = " + JSON.toJSONString(message)); } catch (Exception e) { LOGGER.error("KafkaMsgConsumer err:", e); try { Thread.sleep(1000); } catch (InterruptedException e1) { LOGGER.error("Thread InterruptedException", e1); } break; } } }
public static void main(String[] args) { topic = System.getProperty("topic"); checkArguments(!StringUtils.isBlank(topic), "system property topic or log_path is must!"); while (true) { try { iteratorTopic(); } catch (Exception e) { MsgUtil.shutdownConsummer(); iter = null;
LOGGER.error("KafkaMsgConsumer err:", e); try { Thread.sleep(1000); } catch (InterruptedException e1) { LOGGER.error("Thread InterruptedException", e1); } } finally { if (DateUtil.getLongTime() - LAST_MESSAGE_TIME.get() > 10 * 60) { fixedThreadPool.shutdown(); LOGGER.info("线程池是否关闭:" + fixedThreadPool.isShutdown()); try { while (!fixedThreadPool.awaitTermination(10, TimeUnit.MILLISECONDS)) { LOGGER.info("检测线程池是否终止:" + fixedThreadPool.isTerminated()); } } catch (InterruptedException e) { LOGGER.error("等待线程池关闭错误", e); } LOGGER.info("线程池是否终止:" + fixedThreadPool.isTerminated()); LOGGER.info("in 10 min dont have data break"); break; } } } LOGGER.info("app shutdown"); System.exit(0); }
}
|
在线代码
需要配合以下这个shell脚本运行
:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
| #!/bin/sh
#crontab # * * * * * sh /data/schedule/kafka/run-kafka-consumer.sh >>/data/schedule/kafka/run-sms-log.log
# 如果进程存在就不启动 a1=`ps -ef|grep 'KafkaMsgConsumer'|grep -v grep|wc -l` if [ $a1 -gt 0 ];then echo "======= `date +'%Y-%m-%d %H:%M:%S'` KafkaMsgConsumer is EXIT...======= " exit fi LANG="zh_CN.UTF-8" nohup /opt/java/jdk1.7.0_80/bin/java -d64 -Djava.security.egd=file:/dev/./urandom -Djava.ext.dirs=/opt/tomcat/webapps/ROOT/WEB-INF/lib -Dtopic=TOPIC_A -Dlogback.configurationFile=/data/schedule/kafka/logback.xml -DkafkaConfig=/opt/tomcat/iopconf/easyframe-msg.properties -classpath /opt/tomcat/webapps/ROOT/WEB-INF/classes com.crossoverJie.kafka.SMSMsgConsumer >> /data/schedule/kafka/smslog/kafka.log 2>&1 &
echo "`date +'%Y-%m-%d %H:%M:%S'` KafkaMsgConsumer running...."
|
在线代码
再配合crontab
的调度:
1
| * * * * * sh /data/schedule/kafka/run-kafka-consumer.sh >>/data/schedule/kafka/run-sms-log.log
|
即可。
总结
虽说处理起来很简单,但依然是治标不治本,依赖的东西比较多(shell脚本,调度
)。
所以也问问各位有没有什么思路:
生产配置:
其中也有其他团队的消费程序在正常运行,应该和kafka
的配置没有关系。
项目地址:https://github.com/crossoverJie/SSM.git
个人博客:http://crossoverjie.top。