BT

LinkedIn abre os fontes do mecanismo de indexação IndexTank

por Abel Avram , traduzido por Adalberto Zanata em 09 Jan 2012 |

A rede profissional de relacionamentos LinkedIn abriu o código-fonte do IndexTank, um mecanismo de indexação de documentos que funciona na nuvem e permite customizar a indexação e refinar resultados.

O IndexTank foi lançado há um ano e em outubro de 2011 foi adquirido pelo LinkedIn. Trata-se de um serviço de nuvem similar ao mecanismo de Pesquisa Personalizada do Google (Custom Search), que é executado sobre a infraestrutura do Amazon Web Services e fornece aos sites a capacidade de indexarem seus próprios conteúdos, tornando-os pesquisáveis. A equipe do IndexTank afirma que os usuários têm controle total sobre o que está sendo indexado e quando e como os resultados são classificados. Dessa forma, um site pode promover, no topo dos resultados das pesquisas, os documentos que preferir mostrar em primeiro lugar, sem depender do algoritmo de buscas do Google.

Diferentemente de muitos mecanismos de busca, o IndexTank rastrea as páginas web a fim de indexar seus conteúdos; em vez disso, os sites enviam os dados a serem indexados pelo seu mecanismo. O resultado é que um documento pode ser indexado logo após a sua criação, proporcionando resultados "ao vivo". Além disso, o serviço é livre de anúncios.

Os três componentes principais do IndexTank são:

  • Mecanismo de Indexação: indexa somente texto simples. Documentos PDF, Microsoft Word e de outros tipos precisam ser convertidos em texto, para serem indexados.
  • API: uma interface RESTful acessível por clientes Java, Python, .NET, Ruby e PHP.
  • Nebulizer: um framework multiclientes que possibilita a hospedagem de um número ilimitado de mecanismos de indexação sendo executados em uma infraestrutura IaaS (Infrastructure as a Service).

Com o anúncio, o IndexTank junta-se ao Zoie, um mecanismo de busca em tempo real, baseado no Apache Lucene, que teve também o seu código fonte aberto pelo LinkedIn em 2008.

O código fonte do IndexTank está disponível no GitHub em dois arquivos: um para o Mecanismo de Indexação e um agregando a API e o Nebulizer.

Olá visitante

Você precisa cadastrar-se no InfoQ Brasil ou para enviar comentários. Há muitas vantagens em se cadastrar.

Obtenha o máximo da experiência do InfoQ Brasil.

Dê sua opinião

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão
Comentários da comunidade

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

Dê sua opinião

Conteúdo educacional

Feedback geral
Bugs
Publicidade
Editorial
InfoQ Brasil e todo o seu conteúdo: todos os direitos reservados. © 2006-2014 C4Media Inc.
Política de privacidade
BT