C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  列兵

注册:2010-1-11
发表于 2010-1-13 10:41:45 |显示全部楼层
Terasort:
hadoop自带有生成代码,每条记录100字节左右,前面10字节拿来做索引。在每个计算节点生成10GB数据,共处理N*10GB数据量。数据生成时间一般不计算在内。
TeraSort Sort09之后可能被Minute sort 替换。
计算过程就是做排序。

MalStone:
分为MalStone A-10和MalStone B-10基准。
用malgen生成100亿条记录,生成的数据带有时间戳,时间随机分布在一年里面。每条记录100字节左右。
记录格式:
Event ID | Timestamp | Site ID | Compromise Flag | Entity ID
计算过程算法伪代码如下:
for record in read( data )
    ( site, date, compromised_indicator ) = parse( record )
    group by site
for each site
    map:date --> timeslice
    total_compromised_to_date, total_seen_to_date = 0
    for each timeslice in sort ( timeslices )
        total_compromised_to_date += compromised_for_timeslice
        total_seen_to_date += seen_for_timeslice
statistic[site, timeslice] = 0 or total_compromised_to_date /
                             total_seen_to_date

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-9-25 05:27 , Processed in 0.279770 second(s), 15 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图