BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Notícias LinkedIn abre os fontes do mecanismo de indexação IndexTank

LinkedIn abre os fontes do mecanismo de indexação IndexTank

Favoritos

A rede profissional de relacionamentos LinkedIn abriu o código-fonte do IndexTank, um mecanismo de indexação de documentos que funciona na nuvem e permite customizar a indexação e refinar resultados.

O IndexTank foi lançado há um ano e em outubro de 2011 foi adquirido pelo LinkedIn. Trata-se de um serviço de nuvem similar ao mecanismo de Pesquisa Personalizada do Google (Custom Search), que é executado sobre a infraestrutura do Amazon Web Services e fornece aos sites a capacidade de indexarem seus próprios conteúdos, tornando-os pesquisáveis. A equipe do IndexTank afirma que os usuários têm controle total sobre o que está sendo indexado e quando e como os resultados são classificados. Dessa forma, um site pode promover, no topo dos resultados das pesquisas, os documentos que preferir mostrar em primeiro lugar, sem depender do algoritmo de buscas do Google.

Diferentemente de muitos mecanismos de busca, o IndexTank rastrea as páginas web a fim de indexar seus conteúdos; em vez disso, os sites enviam os dados a serem indexados pelo seu mecanismo. O resultado é que um documento pode ser indexado logo após a sua criação, proporcionando resultados "ao vivo". Além disso, o serviço é livre de anúncios.

Os três componentes principais do IndexTank são:

  • Mecanismo de Indexação: indexa somente texto simples. Documentos PDF, Microsoft Word e de outros tipos precisam ser convertidos em texto, para serem indexados.
  • API: uma interface RESTful acessível por clientes Java, Python, .NET, Ruby e PHP.
  • Nebulizer: um framework multiclientes que possibilita a hospedagem de um número ilimitado de mecanismos de indexação sendo executados em uma infraestrutura IaaS (Infrastructure as a Service).

Com o anúncio, o IndexTank junta-se ao Zoie, um mecanismo de busca em tempo real, baseado no Apache Lucene, que teve também o seu código fonte aberto pelo LinkedIn em 2008.

O código fonte do IndexTank está disponível no GitHub em dois arquivos: um para o Mecanismo de Indexação e um agregando a API e o Nebulizer.

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT