escritório com computadores e dados

Após a conclusão de um projeto, existem formas de armazenar e preservar os dados coletados.

Aqui iremos fornecer boas práticas para não perder seus dados.

Resumo desse artigo:

  • Boas práticas no armazenamento de dados;
  • Boas práticas na preservação de dados;

Boas práticas de armazenamento de dados

Armazenar seus dados corretamente pode economizar muito tempo (para encontrá-los posteriormente ou interpretá-los) e frustração (em não perdê-los). Além disso, quando o processo é devidamente estruturado e anotado, você terá seus dados preservados e/ou compartilhados com o mínimo de esforço no final de sua pesquisa.

Para armazenar adequadamente seus dados, considere o seguinte:

Escolha a mídia de armazenamento com sabedoria

Nem todos os locais de armazenamento são igualmente adequados para todos os tipos de armazenamento:

Dispositivos portáteis são adequados para armazenar cópias de curto prazo de seus arquivos de dados para transporte, mas eles são vulneráveis ​​a perda e não há backup automático de seus dados. Se você usar dispositivos portáteis, certifique-se de:

  • escolher produtos de alta qualidade (de fabricantes confiáveis);
  • verifique regularmente a mídia para se certificar de que não estão apresentando falhas e “atualize” periodicamente os dados (ou seja, copie para um novo CD, disco ou USB Flash drive);

Os serviços em nuvem são adequados para colaboração com parceiros de fora, com o benefício adicional de não serem específicos para cada dispositivo. Certifique-se de verificar se o serviço de nuvem selecionado faz backups regulares, se cai sob jurisdição e se é um parceiro confiável.

Gerencie versões e cópias de seus dados com cuidado

Em sua pesquisa diária, certifique-se de gerenciar as diferentes versões e cópias de seus dados com cuidado, das seguintes maneiras:

1. Proteja os dados brutos

Seus dados brutos, da forma como você os coletou ou recebeu, são a base de todas as análises que você planeja. Com os dados brutos e as etapas registradas de suas análises, você pode reconstituir todos os seus resultados.

Portanto, é importante que os dados brutos não sejam substituídos ou alterados acidentalmente.

Armazene-o em um local separado e protegido, por exemplo, uma pasta separada configurada para “somente leitura”. Faça uma cópia de trabalho de seus dados brutos para fazer suas análises reais.

Para verificar se os dados brutos ainda são os mesmos, considere verificar se os dados que você armazena atualmente são iguais aos originais. Você pode verificar a integridade dos dados com um verificador de soma de verificação ou a soma md5 (para usuários e usuárias de MAC ou UNIX: essa possibilidade é fornecida pelo próprio sistema operacional).

2. Mantenha as cópias temporárias e a master separadas

Seus arquivos de trabalho estão mudando com frequência. Imagine que você tenha várias cópias em locais diferentes. Como você mantém o controle de qual cópia contém as atualizações feitas mais recentemente?

Se você escolher o arquivo errado, você vai levar algum tempo para mesclar os dois documentos posteriormente…

Para evitar confusão, você seleciona UM lugar onde as cópias originais de seu trabalho estão localizadas.

Todas as outras cópias são temporárias e devem ser colocadas de volta ou sincronizadas com o local da cópia master, em intervalos regulares, horários fixos ou após cada edição.

3. Faça backup de sua cópia master em locais fisicamente distintos

Se houver uma calamidade ou acidente no local da cópia master (ou mestre), todo o seu trabalho poderá ser perdido. É importante ter backups de seus arquivos de dados mestre, incluindo um em um local separado.

Os backups são feitos logicamente a partir do local da cópia master, que deve conter a versão mais recente e correta. Não substitua backups antigos; crie um novo e exclua o antigo, se necessário.

Existem vários esquemas de backup para escolher. A escolha depende de quanto tempo leva um backup, de quanto espaço você tem, se é caro e qual é o risco de perder informações importantes entre os backups.

Você sempre deve fazer um backup completo de todos os arquivos ou backups parciais. Considere fazer backup de dados importantes ou dinâmicos com mais frequência. No caso de tamanhos de arquivos grandes, você pode decidir fazer backup apenas dos elementos mais essenciais.

Alguns locais de cópia master fornecem backup automático. Nesse caso, pelo menos informe-se sobre o esquema utilizado. Além disso, certifique-se de que o local de backup seja tão seguro quanto o local da sua cópia master.

Ainda, verifique se o tempo e esforço necessários para restaurar uma cópia de backup são aceitáveis ​​para você e retenha estrategicamente os backups por tempo prolongado.

4. Configure uma estratégia para controle de versão

O controle de versão garante o acompanhamento do desenvolvimento de um arquivo de dados e a identificação de versões anteriores, quando necessário.

A maneira mais simples de identificar uma versão específica é adicionar uma extensão ao nome do arquivo, como “v1.00”, “v1.01”, “v2.06”, com números ordinais indicando mudanças maiores e decimais menores.

Contanto que a cópia original “bruta” e a definitiva sejam retidas e o processamento seja bem documentado, os arquivos de trabalho intermediários podem ser descartados.

Mantenha apenas as versões principais para retenção de longo prazo. Em uma tabela de controle de versão (ou histórico de arquivo ou arquivo de log), você pode documentar o que há de novo ou diferente em cada versão principal que você está mantendo.

Estruture de forma padronizada os nomes e pastas

Conforme seu trabalho avança, é provável que você tenha cada vez mais arquivos, todos com conteúdos diferentes.

Encontrar o arquivo exato de que você precisa pode ser um incômodo se você não tiver uma estrutura de pasta lógica ou nomes de arquivo lógicos.

Pense em convenções de nomenclatura e estrutura de pastas antes de iniciar um projeto. É mais fácil manter um número gerenciável de arquivos e versões com nomenclatura e estrutura de pastas claras (isso pode evitar muitas frustrações, acredite).

E se os arquivos serão compartilhados em um espaço de arquivo compartilhado, as convenções de nomenclatura de arquivo padronizadas são ainda mais importantes.

Pense sobre:

  • Estrutura de pastas

Antes de iniciar seu projeto, pense em uma estrutura de pasta lógica. Preveja o tipo de arquivo que você produzirá e crie pastas para esses arquivos. Não estruture de forma muito superficial, nem muito profunda. Cerca de três etapas é viável (uma pasta dentro de outra e ambas dentro de uma terceira).

Torne a estruturação estável e escalável, para que você possa eventualmente expandir sem ter que reorganizar completamente a estrutura já feita. Não use pastas com conteúdo possivelmente sobreposto no mesmo nível;

Uma estrutura de pastas bem organizada (na qual pastas e subpastas são hierárquicas e seguem umas às outras logicamente) é inestimável para navegar rapidamente pelos dados e encontrar o que você precisa. Pode ser muito útil desenhar sua estrutura de pastas em um diagrama em seu DMP.

  • Nomenclatura de arquivos

Empregue nomes de arquivo claros. Crie seus nomes de arquivo a partir de elementos. Os elementos podem ser o nome do projeto, o número do projeto, nome da equipe/departamento de pesquisa, tipo de medição, assunto, data de criação, número da versão, etc. Cada elemento é codificado para manter os nomes curtos;

Mantenha os nomes dos arquivos curtos. Cerca de 25 caracteres é um bom comprimento para um nome de arquivo;

Mantenha um arquivo de log onde você explica seus elementos codificados, de forma que estranhos, colaboradores, supervisores ou você mesmo, daqui a anos, sejam capazes de decifrar os códigos. Seu plano de gerenciamento de dados é um bom lugar para documentar as convenções de nomenclatura de arquivos;

Sempre vá do genérico ao específico. Isso o ajudará a encontrar conjuntos de arquivos com uma classificação simples de nomes de arquivos em sua pasta.

Use apenas caracteres dos conjuntos A-Z, a-z, 0–9, hífen, sublinhado e ponto. Não use caracteres especiais como &% $ #), pois diferentes sistemas operacionais podem atribuir significados diferentes a esses caracteres. Um exemplo de nome de arquivo poderia ser “NTC_wp5_MA_exp1.csv” (projeto, pacote de trabalho dentro do projeto, tipo de medição, ID do experimento da medição) ou “MicroArray_NTC023_20141031.xls” (descrição do conteúdo, número do projeto, e data no padrão internacional).

Certifique-se de que os nomes dos arquivos sejam independentes da localização (isso evitará problemas ao mover os arquivos).

Encontre e compreenda seus dados atribuindo metadados a eles

Tipos de metadados e documentação de dados

Documentação (legível por humanos) e metadados (campos fixos padronizados que podem assumir um valor, legíveis por computador) fornecem informações sobre os dados disponíveis. Ambos podem ser usados ​​para descrever o assunto das medições ou as configurações/circunstâncias em que foram obtidas.

Um conjunto mínimo de documentação e metadados pode ser qualquer coisa que você precise para interpretar e avaliar as medições. E um conjunto estendido pode ser qualquer coisa que outras pessoas possam considerar valiosa nesse cenário.

Existem cerca de três objetivos para usar tipos específicos de metadados e documentação de dados:

Encontrar e reutilizar seus dados:

Metadados descritivos: autor, contribuidor, título, resumo, palavras-chave, tipo de medição, ID do projeto, geomapeamento, período de tempo, área de assunto;

Documentação descritiva: scripts de software, configurações do instrumento, metodologia, protocolo experimental, livro de código, caderno de laboratório.

Gerenciar seus dados:

Metadados administrativos: formato dos dados, data, tamanho, direitos de acesso, período de preservação, identificador persistente (PID, para citar seus dados), licença;

Documentação administrativa: acordos do usuário e usuária, proveniência (descrição da origem dos dados).

Compreender o contexto de seus dados e arquivos:

Metadados estruturais: conteúdo relacionado, projetos relacionados, versão;

Documentação estrutural: esquema de banco de dados, relações entre arquivos, tabela de conteúdo.

Documente os dados com planilhas de metadados

Seus dados (brutos) podem consistir em vários arquivos com medições (ou entrevistas/observações/amostras e etc.). Um nome de arquivo pode conter apenas algumas informações.

Ter uma tabela de metadados (ou planilha) que contém informações sobre seus arquivos de dados pode fornecer uma visão geral rápida de quais medidas você tem em seus arquivos de dados, para que você não precise abrir cada um dos arquivos para ver e interpretar o seu conteúdo.

Consulte o texto “Descrição dos dados na prática” para orientações e dicas mais específicas ou assista a este tutorial “Os meandros dos metadados e da documentação de dados”.

Use formatos de arquivo padrão

Os formatos de arquivo referem-se à forma como os dados são armazenados.

O formato é indicado pela extensão do arquivo no final, como: “.wmv”, “.mp3” ou “.pdf”. Nem todos os formatos são amplamente acessíveis. Para permitir o acesso e o uso de seus dados por terceiros, use um formato padrão para seus arquivos armazenados.

As seguintes características ajudarão a garantir o acesso:

  • O que serve para o “não proprietário(a)”;
  • Documentação aberta;
  • O que é suportado por muitas plataformas de software;
  • De ampla adoção/uso comum;
  • Nenhuma compressão (ou sem perdas);
  • Sem arquivos ou scripts embutidos.

Na DANS, é feita uma distinção entre formatos preferidos e aceitáveis para depósitos na preservação e compartilhamento de dados. Observe que se você tiver que converter seu formato de arquivo em outro para compartilhar os dados com outras pessoas, informações importantes podem ser perdidas durante a conversão.

Se possível, trabalhe no formato padrão desde o início. Ter os dados disponíveis em um formato padrão após o término do seu projeto de pesquisa aumentará as possibilidades de reutilização deles.

Proteja seus arquivos de dados

Quando você precisar compartilhar seus dados durante a pesquisa, leve em consideração os desejos dos requerentes legítimos dos dados (pessoas envolvidas na pesquisa, co-autores, parceiros e parceiras da indústria, etc.) e certifique-se de estar em conformidade com a legislação pertinente (consulte as leis e códigos de conduta para “compartilhar dados confidenciais”).

Aprenda sobre as diferentes medidas a serem tomadas nesse aspecto, dependendo do tipo de segurança que você precisa com o esquema a seguir.

Proteção de arquivos de dados

As informações em arquivos de dados podem ser protegidas:

1. Controlando o acesso a materiais restritos com criptografia. Ao codificar seus dados, seus arquivos se tornarão ilegíveis para qualquer pessoa que não tenha a chave de criptografia correta. Você pode codificar um arquivo individual, mas também um arquivo que é (ou faz parte de) um disco rígido ou pen drive;

2. Com arranjos processuais. Arranjando condições de acesso em um acordo de consórcio e, se necessário, por meio de acordos de sigilo com participantes e manipuladores de dados (consulte o guia sobre “Instrumentos jurídicos e acordos” para sanar dúvidas nessa área);

3. Não enviando dados pessoais ou confidenciais por e-mail ou protocolo de transferência de arquivos (FTP). O mais correto a se fazer é transmitir esses dados como dados criptografados (por exemplo, via SURFfilesender);

4. Destruindo dados de maneira consistente e confiável quando necessário. Observe que a exclusão de arquivos de discos rígidos remove apenas a referência a eles, não o arquivo em si. Substitua os arquivos para embaralhar seu conteúdo ou use um software de apagamento de arquivos que seja seguro. Para USB e CD/DVD, a destruição física funciona melhor para apagar os dados.

Segurança do sistema de computador

O computador que você usa para consultar, processar e armazenar seus dados pode ser protegido das seguintes maneiras:

  • Use um firewall para proteger seus dados contra vírus;
  • Instale o software antivírus;
  • Instale atualizações e upgrades para seu sistema operacional e software;
  • Use apenas redes de conexão à Internet sem fio, protegidas;
  • Use senhas e não as compartilhe com ninguém. Não use senhas apenas no computador da Universidade ou do trabalho, mas também no laptop ou computador doméstico. Se necessário, proteja arquivos individuais com uma senha;
  • Não forneça a terceiros suas credenciais de login.

Segurança física de dados

Com uma série de medidas simples, você pode garantir a segurança física de seus dados de pesquisa:

  • Travando o seu computador ao sair, mesmo que seja por um momento (tecla Windows + L);
  • Trancando a porta se não estiver no ambiente;
  • Ficando de olho no seu laptop;
  • Não deixando cópias não seguras de seus dados espalhadas;
  • Transportando o seu stick USB ou disco rígido externo de forma a não o perder;
  • Mantendo o material não digital que não deve ser visto por outras pessoas em um armário ou gaveta trancado.

Boas práticas na preservação de dados

O Código de Conduta da Holanda para Integridade em Pesquisa (VSNU, 2018) declara que os dados da pesquisa devem ser mantidos por (pelo menos) 10 anos.

O Estudo de Política para Dados de Pesquisa da Universidade de Utrecht acrescenta que este período de 10 anos começa após a publicação de seu artigo com base nos dados que você está preservando.

Para registros médicos, esse período é de 15 anos ou mais (WGBO, artigo 454) e os dados (da pessoa que se configura como paciente) para pesquisas de medicamentos devem ser armazenados por 20 anos (para saber mais sobre a política de gerenciamento de dados de pesquisa da UMC Utrecht, visite a página da UMCU).

O AVG/GPDR declara que os dados pessoais não podem ser mantidos por mais tempo do que o necessário para os fins para os quais foram coletados ou para os quais são usados. Dados não anônimos podem, entretanto, ser preservados para fins históricos, estatísticos ou científicos.

Então, como você manterá seus dados seguros por um longo prazo?

A solução certa para preservar os seus dados a longo prazo pode ser encontrada de várias maneiras: em fita, disco ou armazenamento em nuvem; você pode usar uma solução comercial ou pedir ao Research Data Management Support para configurar um arquivo. Você também pode usar um repositório público e gratuito para dados de pesquisa, com possibilidades adicionais de compartilhar seus dados (consulte nosso guia chamado “Publicação e compartilhamento de dados” para mais detalhes) ou você mesmo pode preservar os dados.

Se você escolher a última opção, queremos compartilhar com você algumas práticas recomendadas para o sucesso da preservação de dados feita por conta própria:

Especifique quais dados você quer preservar

Quais dados você selecionará para preservação?

Nesse raciocínio, você deve considerar, por exemplo:

  • Vou preservar apenas os dados que sustentam uma publicação científica, ou também outros dados?;
  • Vou preservar os dados uma vez que estejam completamente estáticos (nenhuma alteração esperada) ou devo permitir a preservação de versões daqueles dados?;
  • O local onde decidi armazenar meus dados é apropriado para preservar dados pessoais (sensíveis à privacidade)?;
  • Em que momento e de acordo com quais especificações meus dados serão removidos?.

O que exatamente preservar também depende do seu propósito:

  • Se você preserva os dados principalmente para fins de verificação, de preferência os resultados intermediários ou materiais e métodos de análise também devem ser armazenados junto com o fluxo de trabalho;
  • Se os dados são armazenados porque podem ser reutilizados no futuro por você ou por terceiros, seu foco será preservá-los de forma a possibilitar novas análises. Nestes casos, você deve armazenar os dados da forma mais “bruta” possível;

Em ambos os casos, a documentação precisa ser suficientemente adicionada para tornar os seus dados compreensíveis.

Dados externos de terceiros

Se você fez uso de dados de terceiros, você também terá que contabilizá-los. Nessa vertente, você tem duas opções:

Combine com os proprietários e proprietárias a forma com que serão armazenados os dados, sempre disponibilizando-os para fins de verificação — pelo menos pelo período obrigatório de armazenamento (dez anos). Você pode então simplesmente checar os dados por meio desse armazenamento, disponível para consulta;

Tente arranjar uma cópia local dos dados, que você mesmo pode armazenar pelo período que for necessário.

Prepare um pacote de dados

Você deve armazenar todos os seus arquivos de dados e documentação juntos em um pacote de dados.

Para a verificação, toda a documentação e dados (brutos ou possivelmente analisados) que permitem a replicação da pesquisa devem ser fornecidos. Para o compartilhamento, os dados devem ser armazenados da forma mais bruta possível (se utilizáveis dessa forma), juntamente com a documentação para ajudar a compreendê-los e reutilizá-los.

Em ambos os casos, você deve incluir:

  • Uma lista de variáveis ou livro de código explicando as variáveis em seus dados;
  • Documentação de dados (possivelmente na forma de um esquema de metadados) com informações administrativas como autores, número do projeto, financiador, título, data, palavras-chave, resumo, formato do arquivo, data de início e término, localização geográfica, condições de acesso e termos de uso;
  • Se aplicável, o código de computador usado para realizar as análises e/ou uma explicação das análises realizadas (“métodos”);
  • Um arquivo que descreve os arquivos no pacote de dados e sua relação.

Proteja-se contra o uso indevido de dados ou a má manipulação de dados

Depois que seus dados são preservados, eles são usados como um ponto de referência. Você tem que evitar que alguém possa, voluntariamente ou não, sobrescrever seus arquivos, deletá-los ou alterar seu conteúdo.

  • Nessa etapa, as medidas possíveis a serem tomadas são:
  • Se possível, registre todas as visitas aos seus dados;
  • Evite visitas indesejadas aos seus dados controlando o acesso a eles, por exemplo, configurando uma senha, usando criptografia e/ou restrições físicas (usando um cofre, por exemplo);
  • Evite sobrescrever, excluir ou interferir nos dados tornando seus arquivos como de “somente leitura”;
  • Se houver atualizações essenciais para os dados, preserve uma nova versão além da antiga, não alterando a versão original.

Proteja-se contra a perda de dados

Infelizmente, os dados podem ficar inutilizáveis em devido, considerando que:

  • As fontes digitais degradam com o tempo (“bit rot”);
  • Os dados e o software podem ficar desatualizados. Por exemplo, uma nova versão do software não é compatível com o formato dos dados ou um novo sistema operacional não oferece suporte ao software;
  • A mídia na qual os dados são armazenados torna-se desatualizada (por exemplo, disquetes ou cassetes de áudio);
  • A mídia na qual você armazena seus dados (discos rígidos, CD, USB, etc.) pode apresentar defeito;
  • Os dados simplesmente caíram no esquecimento.

Esse também deve ser um ponto de atenção.

Especifique as condições de acesso

Determine quem pode acessar (qual parte de) seus dados. Em quais casos você permite o acesso? Quais são os privilégios que cada pessoa obtém nos diferentes casos?

Atribua responsabilidades

Seus dados devem ser protegidos e disponibilizados para fins de verificação após a conclusão do projeto de pesquisa, como já mencionado.

No entanto, você pode não estar presente durante todos os momentos do processo para fornecer os cuidados adequados aos dados manipulados.

Portanto, as funções e responsabilidades devem ser atribuídas em uma política de arquivamento, deixando claro quem é responsável por fazer o quê com seus dados a longo prazo. É melhor colocar “funções” (como gerente de dados, supervisor/supervisora, reitor/reitora, investigador/investigadora principal, etc.) na política de arquivamento e não “pessoas”, pois as pessoas podem deixar a Universidade, por exemplo, ou a organização.

Fonte: Armazenamento e preservação de dados

Se gostou desse artigo, também pode gostar desses:

Postagem Relacionada

Deixe um comentário

Você no controle do seu negócio
Telefone

11 2087-2852

E-mail

Horário de atendimento: segunda à sexta-feira, das 8:30h ás 12h e 13h ás 17:30h

Av. Salgado Filho, 252, Centro
Guarulhos-SP
Guarulhos Office Tower, sala 1809
CEP. 07115-000

Copyright © 2020. TRS Sistemas – Política de privacidade

Paste your AdWords Remarketing code here