A Microsoft desenvolveu um framework para big data chamado Reef (Retainable Evaluator Execution Framework). A nova estrutura, que será open source em cerca de um mês, foi projetada para rodar sobre o Yarn, o recurso de gerenciamento do Hadoop da próxima geração.
Com o Reef, é possível criar trabalhos que podem manter seu estado mesmo depois que eles estiverem prontos e que podem pegar informações de onde quer que ele precise.
O Yarn é parte do projeto Apache Hadoop que permite rodar e controlar diversas tarefas sobre o mesmo cluster de máquinas físicas.
O diretor de tecnologia de serviços de comunicação da Microsoft Raghu Ramakrishnan afirmou ao Giga On que algumas tarefas, como aprendizagem de máquina, não são ideais para frameworks como o Yarn devido aos requerimentos específicos de movimentação de dados e monitoramento de trabalhos.
O Reef se propõe a resolver esses e outros problemas do Yarn, apesar de a empresa não ter revelado detalhes de como isso será feito.