Spaces:

chrible
/

citation-integrity

Sleeping

citation-integrity / extract_embeddings.py

Christof Bless

first working mvp

b23f8b6 unverified 9 months ago

17.8 kB

	import json
	import string

	import numpy as np
	import pandas as pd
	from tqdm import tqdm
	import torch
	import spacy
	from transformers import AutoTokenizer, AutoModel
	from adapters import AutoAdapterModel


	def restore_inverted_abstract(inverted_abstr):
	all_indexes = [index for indexes in inverted_abstr.values() for index in indexes]
	if len(all_indexes) > 0:
	length = max(all_indexes) + 1
	else:
	return None
	abstract_words = ["" for _ in range(length)]
	for word, indexes in inverted_abstr.items():
	for index in indexes:
	abstract_words[index] = word
	return " ".join(abstract_words)

	def extract_title_abstract(oa_object):
	abstract = oa_object["abstract_inverted_index"]
	title_abstract_obj = {
	"title": oa_object["title"],
	"abstract": (None if abstract is None else restore_inverted_abstract(abstract))
	}
	return title_abstract_obj

	def preprocess_batch(batch, tokenizer, input_is_context=False):
	# papers = [{'title': 'BERT', 'abstract': 'We introduce a new language representation model called BERT'},
	# {'title': 'Attention is all you need', 'abstract': ' The dominant sequence transduction models are based on complex recurrent or convolutional neural networks'}]

	# concatenate title and abstract
	if not input_is_context:
	batch = [(d['title'] or '') + tokenizer.sep_token + (d.get('abstract') or '') for d in batch]

	tokenized_batch = tokenizer(batch, padding=True, truncation=True,
	return_tensors="pt", return_token_type_ids=False, max_length=512)
	return tokenized_batch
	def sent_is_mostly_known_tokens(tokens, tokenizer, threshold=0.7):
	return get_fraction_of_known_tokens(tokens, tokenizer) >= threshold

	def get_fraction_of_known_tokens(tokens, tokenizer):
	total_tokens = len(tokens)
	if total_tokens == 0:
	return False # Avoid division by zero

	# Clean tokens and check if they exist in the tokenizer's vocab
	known_tokens = sum(1 for token in tokens if token.text.lower().strip(string.punctuation) in tokenizer.vocab)
	return known_tokens / total_tokens

	def prune_contexts(contexts, spacy_model, tokenizer):
	chosen_sents = []
	fractions = []
	for _, context in tqdm(contexts.iterrows(), total=len(contexts)):
	text = (context["left_context"] + context["mention"] + context["right_context"]).replace("\n", " ")
	citation_start = len(context["left_context"]) + 1
	spacied = spacy_model(text)
	chosen_sent = None
	previous_sent = ""
	kt_fraction = None
	for sent in spacied.sents:
	if citation_start < sent.end_char and citation_start >= sent.start_char:
	chosen_sent = previous_sent + sent.text
	kt_fraction = get_fraction_of_known_tokens(sent, tokenizer)
	break
	previous_sent = sent.text

	if chosen_sent is None or len(chosen_sent.split()) < 5:
	print(f" - no context found: {spacied.text}")
	chosen_sent = None
	# if chosen_sent is not None:
	chosen_sents.append(chosen_sent)
	fractions.append(kt_fraction)
	return chosen_sents, fractions

	def embed_contexts(contexts, model, tokenizer, batch_size = 16):
	embeddings = []
	# Process in batches
	with torch.no_grad(): # Disable gradient tracking to save memory
	for i in tqdm(range(0, len(contexts), batch_size)):
	batch = contexts[i:i + batch_size]
	try:
	inputs = preprocess_batch(batch, tokenizer, input_is_context=True)
	except Exception as e:
	print(e)
	breakpoint()
	batch_embeddings = embed_batch(inputs, model)
	embeddings.append(batch_embeddings)

	# Concatenate all batches back together
	return torch.cat(embeddings, dim=0)

	def embed_batch(tokenized_batch, model):
	output = model(**tokenized_batch)
	# take the first token in the batch as the embedding
	embeddings = output.last_hidden_state[:, 0, :]
	return embeddings


	def embed_abstracts(abstract_title_list, model, tokenizer, batch_size=16):
	print("Loaded specter2 model:")
	embeddings = []

	# Process in batches
	with torch.no_grad(): # Disable gradient tracking to save memory
	for i in tqdm(range(0, len(abstract_title_list), batch_size)):
	batch = abstract_title_list[i:i + batch_size]
	inputs = preprocess_batch(batch, tokenizer)
	batch_embeddings = embed_batch(inputs, model)
	embeddings.append(batch_embeddings)

	# Concatenate all batches back together
	return torch.cat(embeddings, dim=0)

	def calculate_distances(embeddings_a, embeddings_b, indices, batch_size=512):
	# Initialize a list to store the results
	all_distances = [None] * len(indices)

	# Loop over the embeddings in batches
	num_batches = len(indices) // batch_size + (1 if len(indices) % batch_size != 0 else 0)
	for i in range(num_batches):
	# Get the current batch
	start_idx = i * batch_size
	end_idx = min((i + 1) * batch_size, len(indices))

	batch_a, batch_b, batch_positions = [], [], []
	for idx, (a, b) in enumerate(indices[start_idx:end_idx]):
	if a is None or b is None:
	all_distances[start_idx + idx] = np.nan # Assign NaN directly in place
	else:
	batch_a.append(embeddings_a[a])
	batch_b.append(embeddings_b[b])
	batch_positions.append(start_idx + idx)

	if batch_a and batch_b:
	batch_a = torch.from_numpy(np.array(batch_a)).float()
	batch_b = torch.from_numpy(np.array(batch_b)).float()

	# Compute L2 (Euclidean) distance for the batch
	distances_batch = torch.norm(batch_a - batch_b, p=2, dim=1).numpy().astype(float)

	# Assign computed distances in the correct positions
	for pos, dist in zip(batch_positions, distances_batch):
	all_distances[pos] = dist

	return all_distances

	def add_distances_to_df(df, index_left, index_right, embeddings, column_name):
	if column_name == "abstract_abstract_l2_distance":
	indices = [(index_left.index(doi), index_right.index(cite_id)) for doi, cite_id in zip(df["cited_in_doi"], df["citation_id"])]
	print("calculate distances...")
	distances = calculate_distances(embeddings["original_abstract"], embeddings["citation_abstract"], indices)
	df[column_name] = distances
	elif column_name == "context_abstract_l2_distance":
	indices = [
	(index_left.index(i), index_right.index(cite_id))
	if i in index_left else (None, None)
	for i, cite_id in enumerate(df["citation_id"])
	]
	print("calculate distances...")
	distances = calculate_distances(embeddings["citation_context_base"], embeddings["citation_abstract"], indices)
	df[column_name] = distances
	return df

	def add_pruned_contexts_to_df(df, df_name):
	tokenizer = AutoTokenizer.from_pretrained('allenai/specter2_base')
	nlp = spacy.load("en_core_web_lg")

	df["pruned_contexts"], df["known_tokens_fraction"] = prune_contexts(df, nlp, tokenizer)
	df.to_parquet(df_name, compression='gzip')

	def main_specter(retracted, overwrite=True):
	tokenizer = AutoTokenizer.from_pretrained('allenai/specter2_base')
	model = AutoAdapterModel.from_pretrained('allenai/specter2_base')
	# model.load_adapter("allenai/specter2", source="hf", load_as="specter2", set_active=True)

	if not overwrite:
	embeddings_from_disk = np.load(f'{("retractions" if retracted else "reference")}_embeddings_specter.npz')

	## Paper abstracts
	if retracted:
	data = pd.read_parquet("25_02_05_retractions_abstracts_cleaned.gzip")
	else:
	# data = pd.read_parquet("24_11_30_reference_articles.gzip")
	data = pd.read_parquet("24_12_31_reference_articles_most_cited.gzip")
	print("embedding original abstracts...")
	if not overwrite and "original_abstract" in embeddings_from_disk:
	paper_abstract_embedding = embeddings_from_disk["original_abstract"]
	else:
	paper_abstract_embedding = embed_abstracts(
	[
	{"title":r["Title"], "abstract": r["Abstract"]}
	for _,r in data.iterrows()
	],
	model,
	tokenizer,
	batch_size=4
	).detach().numpy()


	## Cited papers abstracts
	if retracted:
	citations_df_name = "retraction_citation_mentions.gzip"
	with open("retractions_citations.json") as jsonfile:
	cite_data = json.load(jsonfile)
	citations = pd.read_parquet(citations_df_name)
	else:
	citations_df_name = "reference_mc_citation_mentions.gzip"
	# with open("reference_citations.json") as jsonfile:
	with open("reference_most_cited_citations.json") as jsonfile:
	cite_data = json.load(jsonfile)
	citations = pd.read_parquet(citations_df_name)

	cite_data = {entry["id"]:entry for cite in cite_data.values() for entry in cite}

	print("embedding cited abstracts...")
	if not overwrite and "citation_abstract" in embeddings_from_disk:
	citation_abstract_embedding = embeddings_from_disk["citation_abstract"]
	else:
	citation_abstract_embedding = embed_abstracts(
	[
	{
	"title":cite_data[cite]["title"],
	"abstract": (restore_inverted_abstract(cite_data[cite]["abstract_inverted_index"]) if cite_data[cite]["abstract_inverted_index"] is not None else None)
	}
	for cite in citations["citation_id"].unique()
	],
	model,
	tokenizer,
	batch_size=4,
	).detach().numpy()

	print("embedding citation contexts base...")
	if not overwrite and "citation_context_base" in embeddings_from_disk:
	citation_context_embedding_base = embeddings_from_disk["citation_context_base"]
	else:

	citation_context_embedding_base = embed_contexts(
	citations[
	(citations["known_tokens_fraction"] >= 0.7) &
	(~citations["pruned_contexts"].isna())
	]["pruned_contexts"].to_list(),
	model,
	tokenizer,
	).detach().numpy()

	print("embedding citation contexts...")
	if not overwrite and "citation_context" in embeddings_from_disk:
	citation_context_embedding = embeddings_from_disk["citation_context"]
	else:
	model.load_adapter("allenai/specter2_adhoc_query", source="hf", load_as="adhoc", set_active=True)

	citation_context_embedding = embed_contexts(
	citations[
	(citations["known_tokens_fraction"] >= 0.7) &
	(~citations["pruned_contexts"].isna())
	]["pruned_contexts"].to_list(),
	model,
	tokenizer,
	).detach().numpy()
	# Save
	np.savez(
	f'{("retractions" if retracted else "reference")}_embeddings_specter.npz',
	original_abstract=paper_abstract_embedding,
	citation_context=citation_context_embedding,
	citation_abstract=citation_abstract_embedding,
	citation_context_base=citation_context_embedding_base,
	)

	# Load
	data = np.load(f'{("retractions" if retracted else "reference")}_embeddings_specter.npz')
	print(data["original_abstract"].shape) # (768,) or (1536,) depending on the model
	print(data["citation_context"].shape) # (768,) or (1536,) depending on the model
	print(data["citation_context_base"].shape) # (768,) or (1536,) depending on the model
	print(data["citation_abstract"].shape) # (768,) or (1536,) depending on the model

	def main_scibert(retracted, overwrite=True):
	tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased')
	model = AutoModel.from_pretrained('allenai/scibert_scivocab_uncased')
	# model.load_adapter("allenai/specter2", source="hf", load_as="specter2", set_active=True)

	if not overwrite:
	embeddings_from_disk = np.load(f'{("retractions" if retracted else "reference")}_embeddings_scibert.npz')

	## Paper abstracts
	if retracted:
	data = pd.read_parquet("25_02_05_retractions_abstracts_cleaned.gzip")
	else:
	# data = pd.read_parquet("24_11_30_reference_articles.gzip")
	data = pd.read_parquet("24_12_31_reference_articles_most_cited.gzip")
	print("embedding original abstracts...")
	if not overwrite and "original_abstract" in embeddings_from_disk:
	paper_abstract_embedding = embeddings_from_disk["original_abstract"]
	else:
	paper_abstract_embedding = embed_abstracts(
	[
	{"title":r["Title"], "abstract": r["Abstract"]}
	for _,r in data.iterrows()
	],
	model,
	tokenizer,
	batch_size=4
	).detach().numpy()


	## Cited papers abstracts
	if retracted:
	citations_df_name = "retraction_citation_mentions.gzip"
	with open("retractions_citations.json") as jsonfile:
	cite_data = json.load(jsonfile)
	citations = pd.read_parquet(citations_df_name)
	else:
	citations_df_name = "reference_mc_citation_mentions.gzip"
	# with open("reference_citations.json") as jsonfile:
	with open("reference_most_cited_citations.json") as jsonfile:
	cite_data = json.load(jsonfile)
	citations = pd.read_parquet(citations_df_name)

	cite_data = {entry["id"]:entry for cite in cite_data.values() for entry in cite}

	print("embedding cited abstracts...")
	if not overwrite and "citation_abstract" in embeddings_from_disk:
	citation_abstract_embedding = embeddings_from_disk["citation_abstract"]
	else:
	citation_abstract_embedding = embed_abstracts(
	[
	{
	"title":cite_data[cite]["title"],
	"abstract": (restore_inverted_abstract(cite_data[cite]["abstract_inverted_index"]) if cite_data[cite]["abstract_inverted_index"] is not None else None)
	}
	for cite in citations["citation_id"].unique()
	],
	model,
	tokenizer,
	batch_size=4,
	).detach().numpy()

	print("embedding citation contexts...")
	if not overwrite and "citation_context" in embeddings_from_disk:
	citation_context_embedding = embeddings_from_disk["citation_context"]
	else:
	citation_context_embedding = embed_contexts(
	citations[
	(citations["known_tokens_fraction"] >= 0.7) &
	(~citations["pruned_contexts"].isna())
	]["pruned_contexts"].to_list(),
	model,
	tokenizer,
	).detach().numpy()
	# Save
	np.savez(
	f'{("retractions" if retracted else "reference")}_embeddings_scibert.npz',
	original_abstract=paper_abstract_embedding,
	citation_context=citation_context_embedding,
	citation_abstract=citation_abstract_embedding,
	)

	# Load
	data = np.load(f'{("retractions" if retracted else "reference")}_embeddings_scibert.npz')
	print(data["original_abstract"].shape) # (768,) or (1536,) depending on the model
	print(data["citation_context"].shape) # (768,) or (1536,) depending on the model
	print(data["citation_context_base"].shape) # (768,) or (1536,) depending on the model
	print(data["citation_abstract"].shape) # (768,) or (1536,) depending on the model


	if __name__=="__main__":
	import sys
	retracted=(sys.argv[1] == "retracted")
	if retracted:
	print("Running embedding pipeline for retractions.")
	else:
	print("Running embedding pipeline for reference.")

	df = pd.read_parquet(f'{("retraction" if retracted else "reference_mc")}_citation_mentions.gzip')

	# add_pruned_contexts_to_df(df, f'{("retraction" if retracted else "reference_mc")}_citation_mentions.gzip')

	main_scibert(retracted, overwrite=False)
	# main_specter(retracted, overwrite=False)

	embeddings = np.load(f'{("retractions" if retracted else "reference")}_embeddings_specter.npz')
	print(embeddings["original_abstract"].shape) # (768,) or (1536,) depending on the model
	print(embeddings["citation_context"].shape) # (768,) or (1536,) depending on the model
	print(embeddings["citation_abstract"].shape) # (768,) or (1536,) depending on the model
	# original_dois = pd.read_parquet(f'{("25_02_05_retractions_abstracts_cleaned" if retracted else "24_11_30_reference_articles")}.gzip', columns = ["OriginalPaperDOI"])["OriginalPaperDOI"].tolist()
	original_dois = pd.read_parquet(f'{("25_02_05_retractions_abstracts_cleaned" if retracted else "24_12_31_reference_articles_most_cited")}.gzip', columns = ["OriginalPaperDOI"])["OriginalPaperDOI"].tolist()

	# df = add_distances_to_df(
	# df,
	# [doi.replace("https://doi.org/", "") for doi in original_dois],
	# df["citation_id"].unique().tolist(),
	# embeddings,
	# "abstract_abstract_l2_distance"
	# )

	df = add_distances_to_df(
	df,
	df.index[
	(df["known_tokens_fraction"] >= 0.7) &
	(~df["pruned_contexts"].isna())
	].tolist(),
	df["citation_id"].unique().tolist(),
	embeddings,
	"context_abstract_l2_distance"
	)

	df.to_parquet(f'{("retraction" if retracted else "reference_mc")}_citation_mentions.gzip', compression='gzip')