terça-feira, 13 de novembro de 2012
Arquivos de áudio apresentar desafios para a computação forense e E-Discovery
As comunicações unificadas é o termo usado para integrar todas as comunicações - dados e voz - através da Internet. Isso pode incluir dados em suas variadas formas, tais como e-mail, instant dados de mensagens, dados gerados por aplicações de negócios de computadores, faxes e mensagens de texto. Mas fontes importantes incluem voz enviados via avenidas de rede ou armazenados em dispositivos digitais, tais como VoIP (Voice over Internet Protocol), correio de voz, áudio-vídeo, webconferência, embarque branco e arquivos. Wav. Tais comunicações integradas podem economizar dinheiro a partir dos orçamentos operacionais.
Economias beneficia de, entre outras despesas, acabando com tarifas de longa distância ao usar VOIP, dispensaram a necessidade de viagens para reuniões quando podem ser realizadas em um ambiente virtual, ou de viagens para distantes classes quando um instrutor ou equipe pode estar usando um quadro de diferentes localizações físicas. Poupança como estes revertem para os 26% de empresas que os adoptou. Mas quando o litígio exige dados descobertos,. Wav e voz baseados em arquivos pode ser difícil e caro para um perito forense computador ou um sistema de e-discovery para pesquisa e índice.
Existem muitas ferramentas desenhadas para procurar arquivos de texto, e até mesmo para o texto de arquivos apagados. Estes vão desde suítes de informática forense, como EnCase Forensic e Access Toolkit que cada um custa milhares de dólares, para abrir ferramentas de código, incluindo editores hexadecimais que custam nada ao usuário em tudo. Os pacotes mais extensos podem ser menos caro no longo prazo, quando os seres humanos faturáveis são adicionados à mistura.
Há muitos caras descontroladamente e-discovery sistemas em vigor para auxiliar no armazenamento e indexação de grandes massas de dados que são gerados diariamente no ambiente corporativo. Os serviços podem ser terceirizados, ou trazidos in-company. Mais uma vez o custo de colocar os sistemas e procedimentos no lugar pode pálido contra as sanções e multas que poderiam resultar de não estar pronto para o litígio, caso ela surja.
Há também muitas ferramentas eficazes para a digitalização de documentos em papel em arquivos de texto, que são então pesquisável.
Embora muitas das ferramentas de busca e armazenamento de dados são eficazes, e preciso, quando se trata de áudio, sem esse nível de precisão ou facilidade ainda existe com a finalidade de buscar informações específicas. Existem actualmente três meios de busca de áudio: Pesquisa fonética, transcrevendo à mão, e transcrição automática.
Tecnologia de busca fonética corresponde padrões de onda, ou fonemas, a uma biblioteca de padrões de ondas conhecidas. Por exemplo, a sigla "B2B" seria representado pelos seguintes fonemas: "_B _IY _T _UW _B _IY" (Wikipedia exemplo de Nexidia, uma empresa envolvida em sistemas de reconhecimento de fala). Dada a grande variação nos modos de falar, pronúncia, sotaques e dialetos, a precisão deste método é irregular. Produz muitos hits falsos. E embora possa identificar seções e frases que são de interesse, não transcrever o áudio em texto - o áudio deve, então, ser ouvido.
Transcrição manual de áudio, de modo que o texto pode então ser transcrita automaticamente procurado, é demorado. Como ele depende de um ouvinte para digitar as palavras como elas são ouvidas, esta tarefa de trabalho intensivo também pode ser muito caro. Pode haver problemas de segurança, como o áudio vai para fora da empresa (ou talvez do país) para ser transcrita.
Transcrição máquina é um dos meios automatizados de conversão de áudio para texto. Mas ele sofre de problemas de precisão. Ele compara "ouvido" com bibliotecas de áudio conhecidos, novamente enfrentando problemas de pronúncias diferentes, condições não existentes em bibliotecas, e clareza de gravação. Enquanto gravações de alta qualidade pode prestar-se a taxas de reconhecimento de 85% ou mais (um número positivo para o futuro, até em comparação com a precisão de quase 100% das pesquisas de texto puro), ao lidar com o correio de voz, os mergulhos de precisão para baixo tão baixo como 40% .
As novas Regras Federais de Processo Civil (FRCP) exigem que as empresas tenham um meio de identificar as comunicações chave e fontes de dados. Que os dados devem ser salvos. Por uma questão de eficiência, tanto na quantidade optimização de armazenamento necessária, e diminuir o volume de dados que devem ser identificados e produzidos por processo, é também importante ser capaz de identificar com precisão os dados que são desnecessárias.
Embora os requisitos para a retenção de aumento de dados, e os custos de armazenamento para baixo, identificar o que o áudio deve ser mantido eo que deve ser excluído pode ser caro. Que tal informação é digitalizada, que deve, contudo, ser armazenados e indexados (ou procurou após o fato). A tecnologia ainda não está madura, e está evoluindo. Pode haver uma abertura para uma empresa inovadora, de prosperar aqui, especialmente se capaz de produzir algum tipo de avanço na voz-para-texto de tecnologia. Enquanto isso, as empresas enfrentam um problema difícil para decidir o que fica eo que vai....
Assinar:
Postar comentários (Atom)
Nenhum comentário:
Postar um comentário